正態分布


正態分布

正態分布的由來

  normal distribution

pic-info">正態分布

一種概率分布。正態分布是具有兩個參數μ和σ2的連續型隨機變量的分布,第一參數μ是服從正態分布的隨機變量均值,第二個參數σ2是此隨機變量的方差,所以正態分布記作N(μ,σ2 )。 服從正態分布的隨機變量概率規律爲取與μ鄰近的值的概率大 ,而取離μ越遠的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正態分布的密度函數的特點是:關於μ對稱,在μ處達到最大值,在正(負)無窮遠處取值爲0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位於x軸上方的鐘形曲线。當μ=0,σ2 =1時,稱爲標准正態分布,記爲N(0,1)。μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分布。多元正態分布有很好的性質,例如,多元正態分布的邊緣分布仍爲正態分布,它經任何线性變換得到的隨機向量仍爲多維正態分布,特別它的线性組合爲一元正態分布。
  正態分布最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。
  生產與科學實驗中很多隨機變量概率分布都可以近似地用正態分布來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈着點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認爲這個量具有正態分布(見中心極限定理)。從理論上看,正態分布具有很多良好的性質 ,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。
  正態分布應用最廣泛的連續概率分布,其特徵是“鐘”形曲线。
  附:這種分布的概率密度函數爲:(如右圖)

pic-info">正態分布公式

正態分布

  1.正態分布:若已知的密度函數(頻率曲线)爲正態函數(曲线)則稱已知曲线服從正態分布,記號 ~ 。其中μ、σ2 是兩個不確定常數,是正態分布的參數,不同的μ、不同的σ2對應不同的正態分布。
  正態曲线呈鐘型,兩頭低,中間高,左右對稱,曲线與橫軸間的面積總等於1。
  2.正態分布的特徵:服從正態分布的變量頻數分布由μ、σ完全決定。
  (1)μ是正態分布的位置參數,描述正態分布的集中趨勢位置。正態分布以X=μ爲對稱軸,左右完全對稱。正態分布的均數、中位數、衆數相同,均等於μ。
  (2)σ描述正態分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。 也稱爲是正態分布的形狀參數,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

正態曲线下面積分布

  1.實際工作中,正態曲线下橫軸上一定區間的面積反映該區間的例數佔總例數的百分比,或變量值落在該區間的概率概率分布)。不同 範圍內正態曲线下的面積可用公式計算。
  2.幾個重要的面積比例 軸與正態曲线之間的面積恆等於1。正態曲线下,橫軸區間(μ-σ,μ+σ)內的面積爲68.268949%,橫軸區間(μ-1.96σ,μ+1.96σ)內的面積爲95.449974%,橫軸區間(μ-2.58σ,μ+2.58σ)內的面積爲99.730020%。

標准正態曲线

  1.標准正態分布是一種特殊的正態分布,標准正態分布的μ和σ2爲0和1,通常用ξ(或Z)表示服從標准正態分布的變量,記爲 Z~N(0,1)。
  2.標准化變換:此變換有特性:若原分布服從正態分布 ,則Z=(x-μ)/σ ~ N(0,1) 就服從標准正態分布,通過查標准正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱爲標准化變換。
  3. 標准正態分布表:標准正態分布表中列出了標准正態曲线下從-∞到X(當前值)範圍內的面積比例

一般正態分布與標准正態分布的轉化

  由於一般的正態總體 其圖像不一定關於y軸對稱,對於任一正態總體 ,其取值小於x的概率 。只要會用它求正態總體 在某個特定區間的概率即可。 “小概率事件”和假設檢驗的基本思想“小概率事件”通常指發生的概率小於5%的事件,認爲在一次試驗中該事件是幾乎不可能發生的。這種認識便是進行推斷的出發點。關於這一點我們要有以下兩個方面的認識:一是這裏的“幾乎不可能發生”是針對“一次試驗”來說的,因爲試驗次數多了,該事件當然是很可能發生的;二是當我們運用“小概率事件幾乎不可能發生的原理”進行推斷時,我們也有5%的犯錯誤的可能。

一般正態分布與標准正態分布的區別與聯系

  正態分布也叫常態分布,是連續隨機變量概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於正態分布。標准正態分布是正態分布的一種,具有正態分布的所有特徵。所有正態分布都可以通過Z分數公式轉換成標准正態分布。
  兩者特點比較:
  (1)正態分布的形式是對稱的,對稱軸是經過平均數點的垂线。
  (2)中央點最高,然後逐漸向兩側下降,曲线的形式是先向內彎,再向外彎。
  (3)正態曲线下的面積爲1。正態分布是一族分布,它隨隨機變量平均數標准差的大小與單位不同而有不同的分布形態。標准正態分布是正態分布的一種,其平均數標准差都是固定的,平均數爲0,標准差爲1。
  (4)正態分布曲线下標准差概率面積有固定數量關系。所有正態分布都可以通過Z分數公式轉換成標准正態分布。主要特徵
  1、集中性:正態曲线的高峰位於正中央,即均數所在的位置。
  2、對稱性:正態曲线以均數爲中心,左右對稱,曲线兩端永遠不與橫軸相交。
  3、均勻變動性:正態曲线由均數所在處开始,分別向左右兩側逐漸均勻下降。
  4、正態分布有兩個參數,即均數μ和標准差σ,可記作N(μ,σ):均數μ決定正態曲线的中心位置;標准差σ決定正態曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
  5、u變換:爲了便於描述和應用,常將正態變量作數據轉換。發展
  正態分布是最重要的一種概率分布。正態分布概念是由德國的數學家和天文學家Moivre於1733年首次提出的,但由於德國數學家Gauss率先將其應用於天文學家研究,故正態分布又叫高斯分布,高斯這項工作對後世的影響極大,他使正態分布同時有了“高斯分布”的名稱,後世之所以多將最小二乘法發明權歸之於他,也是出於這一工作。高斯是一個偉大的數學家,重要的貢獻不勝枚舉。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正態分布的密度曲线。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以後。拉普拉斯很快得知高斯的工作,並馬上將其與他發現的中心極限定理聯系起來,爲此,他在即將發表的一篇文章(發表於1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有高斯分布。這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
  其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的“元誤差” 之和,每只取兩值,其概率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態分布。拉普拉斯所指出的這一點有重大的意義,在於他給誤差的正態理論一個更自然合理、更令人信服的解釋。因爲,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從正態分布;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正態性) 爲出發點。但算術平均到底並沒有自行成立的理由,以它作爲理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接起來,使之成爲一個和諧的整體,實有着極重大的意義。應用

綜述

  1. 估計頻數分布 一個服從正態分布的變量只要知道其均數與標准差就可根據公式即可估計任意取值範圍內頻數比例
  2. 制定參考值範圍
  (1)正態分布法 適用於服從正態(或近似正態)分布指標以及可以通過轉換後服從正態分布的指標
  (2)百分位數法 常用於偏態分布的指標。表3-1中兩種方法的單雙側界值都應熟練掌握。
  3. 質量控制:爲了控制實驗中的測量(或實驗)誤差,常以 作爲上、下警戒值,以 作爲上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從正態分布。
  4. 正態分布是許多統計方法的理論基礎。 檢驗、方差分析、相關和回歸分析等多種統計方法均要求分析的指標服從正態分布。許多統計方法雖然不要求分析指標服從正態分布,但相應的計量在大樣本時近似正態分布,因而大樣本時這些統計推斷方法也是以正態分布爲理論基礎的。

估計正態分布資料的頻數分布

  例1.10 某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,標准差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者佔該地18歲男大學生總數的百分數;②分別求X+-1s、X+-1.96s、X+-2.58s範圍內18歲男大學生佔該地18歲男大學生總數的實際百分數,並與理論百分數比較。
  本例,μ、σ未知但樣本含量n較大,按式(3.1)用樣本均數X和標准差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標准正態曲线下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處爲0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約佔總數12.10%。其它計算結果見表3。
  表3 100名18歲男大學生身高的實際分布與理論分布
  
width="66" align="">分布
  x+-s
width="66" align="">身高範圍(cm) width="66" align="">實際分布
  人數
width="66" align="">實際分布
  百分數(%)
width="66" align="">理論分布(%)
width="66" align="">X+-1s width="66" align="">168.69~176.71 width="66" align="">67 width="66" align="">67.00 width="66" align="">68.27
width="66" align="">X +-1.96s width="66" align="">164.84~180.56 width="66" align="">95 width="66" align="">95.00 width="66" align="">95.00
width="66" align="">X+-2.58s width="66" align="">162.35~183.05 width="66" align="">99 width="66" align="">99.00 width="66" align="">99.00

制定醫學參考值範圍

  某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現爲正態或近似正態分布;有些指標變量)雖服從偏態分布,但經數據轉換後的新變量可服從正態或近似正態分布,可按正態分布規律處理。其中經對數轉換後服從正態分布的指標,被稱爲服從對數正態分布。
  醫學參考值範圍亦稱醫學正常值範圍。它是指所謂“正常人”的解剖、生理、生化等指標波動範圍。制定正常值範圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有:
  (1)正態分布法:適用於正態或近似正態分布的資料。
  雙側界值:X+-u(u)^S單側上界:X+u(u)^S,或單側下界:X-u(u)^S
  (2)對數正態分布法:適用於對數正態分布資料。
  雙側界值:lg-1[X(lgx)+-u(u)S(lgx)];單側上界:lg-1[X(lgx)+u(u)S(lgx)],或單側下界:lg-1[X(lgx)-u(u)S(lgx)]。
  常用u值可根據要求由表4查出。
  (3)百分位數法:常用於偏態分布資料以及資料中一端或兩端無確切數值的資料。
  雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。
  表4常用u值表
  
width="66" align="">參考值範圍(%) width="66" align="">單側 width="66" align="">雙側
width="66" align="">80 width="66" align="">0.842 width="66" align="">1.282
width="66" align="">90 width="66" align="">1.282 width="66" align="">1.645
width="66" align="">95 width="66" align="">1.645 width="66" align="">1.960
width="66" align="">99 width="66" align="">2.326 width="66" align="">2.576

統計方法的理論基礎

  如t分布、F分布、分布都是在正態分布的基礎上推導出來的,u檢驗也是以正態分布爲基礎的。此外,t分布、二項分布、Poisson分布的極限爲正態分布,在一定條件下,可以按正態分布原理來處理。

概率論中最重要的分布

  正態分布有極其廣泛的實際背景,生產與科學實驗中很多隨機變量概率分布都可以近似地用正態分布來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈着點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認爲這個量具有正態分布(見中心極限定理)。從理論上看,正態分布具有很多良好的性質 ,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。

主要內涵

  在聯系自然、社會和思維的實踐背景下,我們以正態分布的本質爲基礎,以正態分布曲线及面積分布圖爲表徵(以後談及正態分布及正態分布論就要浮現此圖),進行抽象與提升,抓住其中的主要哲學內涵,歸納正態分布論(正態哲學)的主要內涵如下:

整體論

  正態分布啓示我們,要用整體的觀點來看事物。“系統的整體觀念或總體觀念是系統概念的精髓。” 正態分布曲线及面積分布圖由基區、負區、正區三個區組成,各區比重不一樣。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。此外整體大於部分之和,在分析各部分、各層次的基礎上,還要從整體看事物,這是因爲整體有不同於各部分的特點。用整體觀來看世界,就是要立足在基區,放眼負區和正區。要看到主要方面,還要看到次要方面,既要看到積極的方面還要看到事物消極的一面,看到事物前進的一面還要看到落後的一面。片面看事物必然看到的是偏態或者是變態的事物,不是真實的事物本身。

重點論

  正態分布曲线及面積分布圖非常清晰的展示了重點,那就是基區佔68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因爲重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁復雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在正態分布中,基區佔了主體和重點。如果我們結合20/80法則,我們更可以大膽的把正區也可以看做是重點。

發展論

  聯系和發展是事物發展變化的基本規律。任何事物都有其產生、發展和滅亡的歷史,如果我們把正態分布看做是任何一個系統或者事物的發展過程的話,我們明顯的看到這個過程經歷着從負區到基區再到正區的過程。無論是自然、社會還是人類的思維都明顯的遵循這這樣一個過程。准確的把握事物或者事件所處的歷史過程和階段極大的有助於掌握我們對事物、事件的特徵和性質,是我們分析問題,採取對策和解決問題的重要基礎和依據。發展的階段不同,性質和特徵也不同,分析和解決問題的辦法要與此相適應,這就是具體問題具體分析,也是解放思想、實事求是、與時俱樂進的精髓。正態發展的特點還啓示我們,事物發展大都是漸進的和累積的,走漸進發展的道路是事物發展的常態。例如,遺傳是常態,變異是非常態。
  總之,正態分布論是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。以正態哲學認識世界,能更好的認識和把握世界的本質和規律,以正態哲學來改造世界,能更好的在尊重和利用客觀規律,更有效的改造世界。研究過程
  正態分布的概念及特徵:
  一、正態分布的概念
  由一般分布的頻數表資料所繪制的直方圖,圖(1)可以看出,高峰位於中部,左右兩側大致對稱。我們

pic-info">正態分布研究圖1

設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連线就會逐漸形成一條高峰位於中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲线圖(3)。這條曲线稱爲頻數曲线或頻率曲线,近似於數學上的正態分布(normal distribution)。由於頻率的總和爲100%或1,故該曲线下橫軸上的面積爲100%或1。
  爲了應用方便,常對正態分布變量X變量變換。
  

pic-info">

該變換使原來的正態分布轉化爲標准正態分布 (standard normal distribution),亦稱u分布。u被稱爲標准正態變量或標准正態離差(standard normal deviate)。

pic-info">正態分布研究圖2

二、正態分布的特徵:
  1.正態曲线(normal curve)在橫軸上方均數處最高。
  2.正態分布以均數爲中心,左右對稱。
  3.正態分布有兩個參數,即均數μ和標准差σ。μ是位置參數,當σ固定不變時,μ越大,曲线沿橫軸越向右移動;反之,μ越小,則曲线沿橫軸越向左移動。σ是形狀參數,當μ固定不變時,σ越大,曲线越平闊;σ越小,曲线越尖峭。通常用N~(μ,σ2)表示均數爲μ,方差爲σ2的正態分布。用N(0,1)表示標准正態分布。
  4.正態曲线下面積的分布有一定規律。

pic-info">正態分布研究圖3

實際工作中,常需要了解正態曲线下橫軸上某一區間的面積佔總面積的百分數,以便估計該區間的例數佔總例數的百分數(頻數分布)或觀察值落在該區間的概率。正態曲线下一定區間的面積可以通過附表1求得。對於正態或近似正態分布的資料,已知均數和標准差,就可對其頻數分布作出概約估計。
  查附表1應注意:①表中曲线下面積爲-∞到u的左側累計面積;②當已知μ、σ和X時先按式u=(X-μ)/σ求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數X1和標准差S分別代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲线下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲线下橫軸

pic-info">正態分布面積圖1

上的總面積爲100%或1。
  圖2 正態曲线與標准正態曲线的面積分布
  第二節 正態分布的應用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現爲正態或近似正態分布;有些資料雖爲偏態分布,但經數據變換後可成爲正態或近似正態分布,故可按正態分布規律處理。
  

pic-info">正態分布面積圖2

考試成績及學生綜合素質研究

  教育統計學 統計規律表明,學生的智力水平,包括學習能力,實際動手能力等呈正態分布。因而正常的考試成績分布應基本服從正態分布。考試分析要求繪制出學生成績分布的直方圖,以“中間高、兩頭低”來衡量成績符合正態分布的程度。其評價標准認爲:考生成績分布情況直方圖,基本呈正態曲线狀,屬於好,如果略呈正(負)態狀,屬於中等,如果呈嚴重偏態或無規律,就是差的。 生產與科學實驗中很多隨機變量概率分布都可以近似地用正態分布來描述。
  從概率統計規律看,“正常的考試成績分布應基本服從正態分布”是正確的。但是必須考慮人與物的本質不同,以及教育的有所作爲可以使“隨機”受到幹預,用曲线或直方圖的形狀來評價考試成績就有失偏頗。現在許多教育專家(如上海顧泠沅 、美國布魯姆等)已經通過實踐論證,教育是可以大有作爲的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲线是偏正態分布的。但是長期受到“中間高、兩頭低”標准的影響,限制了教師的作爲,抑制了多數學生能夠學好的信心。這是很大的誤會。 通常正態曲线有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲线的最高點,是曲线的頂點。該分數值在橫軸上的對應點與頂點連接的线段就是該正態曲线的對稱軸。考生人數最多的值是峰值。我們注意到,成績曲线或直方圖實際上很少對稱的,稱之爲峰线更合適。

熱門資訊更多

TSFOREX用戶登錄
captcha
TSFOREX用戶注冊
TSFOREX密碼找回