二項式分布

機率分布

概率論統計學中,二項分布(英語:binomial distribution)是一種離散概率分布,描述在進行獨立隨機試驗時,每次試驗都有相同概率「成功」的情況下,獲得成功的總次數。擲硬幣十次出現五次正面的概率、產品合格率時抽出一百件樣本沒有發現一件次品的概率等等,都可以由二項分布給出。

二項分布
機率質量函數
累積分布函數
記號
參數
值域
機率質量函數
累積分布函數
期望值
中位數
眾數
變異數
偏度
峰度
動差母函數
特徵函數
機率母函數

只有「成功」和「失敗」兩種可能結果,每次重複時成功概率不變的獨立隨機試驗稱作伯努利試驗,例如上述的擲硬幣出現正面或反面、對產品進行抽樣檢查時抽到正品或次品。伯努利試驗作為理論模型,其前提在現實中無法完全得到滿足,比如生產線會磨損,因此每件產品合格的概率並非固定[1]。儘管如此,二項分布給出的概率通常足以用於提供有用的推斷;即使在已知前提沒有滿足的場合,二項分布也能用於參考和比較。二項分布的應用出現在遺傳學質量控制等領域之中。[2]

定義

隨機變量 概率質量函數

 

其中 正整數 ,則稱 服從參數 的二項分布[3],記為  。習慣上 也用 表示。[1]

推導

進行 獨立伯努利試驗的結果可以由 個字母表示,例如用 表示成功, 表示失敗,則

 

表示五次試驗中第一、二、四次的結果為成功,其餘為失敗。設每次試驗成功的概率為 ,失敗的概率為 。因為試驗相互獨立,每一種排列    的方式對應的概率為 [1]

 個不同元素中選出含 個元素的子集的方法數量等於二項式係數

 [4]

而每種對    的排列都可理解為從 個位置中選出 個作為字母 的位置的方法,這種方法的數量即為 。與每種排列方式對應的概率相乘,便得到定義中的概率

 [5]

歷史

二項分布是最早得到研究的概率分布之一[6]。丹麥統計學家安德斯·哈爾德認為其歷史可以追溯至布萊茲·帕斯卡皮埃爾·德·費馬於1654年對點數分配問題的討論:兩名玩家贏得每局遊戲的機會相同,贏得一定局數的勝者可獲得獎金,但比賽僅進行了數局,尚未分出勝負就被迫中斷,則獎金該如何分配?帕斯卡認為,獎金的分配應當基於玩家距離勝利所差的局數:若一名玩家還需 局獲勝,另一名玩家還需 局獲勝,則應考慮在 局比賽的 種結果中,兩名玩家分別在多少種情況中獲勝。兩人的討論限於這一問題本身,並未推導出二項分布的概率,但這一解法可被視作基於參數 的二項分布。[7]

對二項分布概率的推導為雅各布·伯努利於《猜度術英語Ars Conjectandi》中作出。該著作在他去世後,於1713年得到出版,被視作概率論的奠基性作品。伯努利還在其中首次給出了弱大數定律的嚴格證明[8][9]。對二項分布的正態近似則是由亞伯拉罕·棣莫弗發現,這一工作於1733年完成,於1738年出版在其著作《機遇論英語The Doctrine of Chances》的第二版中。[10]

性質

參數為 的二項分布的期望值 方差 。其概率母函數

 

矩母函數

 

特徵函數

 [3][11]

參數 的二項分布稱作伯努利分布[3]多項分布英語Multinomial distribution是二項分布的拓展,描述重複進行不限於兩種結果、可能有多種可能結果的隨機試驗時的概率[12]。二項分布本身是超幾何分布的極限形式。[13]

二項分布的和

 兩個隨機變量獨立,分別服從參數為  的二項分布,則 即是在 次獨立伯努利試驗中取得成功的次數,所以 服從參數為 的二項分布。這一結論亦可通過將兩者的概率母函數相乘而得出。在條件 之下,隨機變量 條件概率分布是參數為 的超幾何分布。[14]

眾數

計算  的比值可以得到

 

因此,當 時,  增加而上升;當 時,  增加而下降。故二項分布的眾數 下取整 。若 本身是整數,則  均是眾數。若 ,則眾數為 [15]

中位數

二項分布的中位數 位於 的上下取整之間,即 ;若 為整數,則中位數 。中位數 和期望值 之間的差滿足

 

  ,則該上界可進一步縮減為

 

 奇數 ,則  均為中位數。[16][17]

累積分布函數

二項分布的累積分布函數和尾概率可以用正則化不完全貝塔函數表示為

 
 [18]

二項分布的 原點矩滿足

 

其中 表示第二類英語Stirling numbers of the second kind斯特林數。具體而言,

 
 
 
 

其低階中心矩

 
 
 [19]

近似

正態近似

 
  時的二項分布及其正態近似

標準二項分布

 

 趨近於標準正態分布。這一結果稱作棣莫弗-拉普拉斯定理英語De Moivre–Laplace theorem,為中心極限定理的特殊形式。基於這一定理可以得到

 

其中 為標準正態分布的累積分布函數[20]

正態分布為連續概率分布,在近似二項分布這類離散概率分布時,可將端點向外偏移 得到

 

從而提升近似的準確性,這種技巧稱作連續性校正英語Continuity correction[21]。何時能採用這一近似依賴於使用經驗法則,例如要求 ,或是在 時要求 、在 時要求 [22][23]

泊松近似

 ,而 保持不變時,二項分布趨近於參數為 泊松分布。以此為基礎可以得到

 [24]

二項分布與其泊松近似之間的絕對誤差存在上界。若隨機變量 服從參數為 的二項分布,隨機變量 服從參數為 的泊松分布,則

 [25]

參數估計

點估計

通常參數 為已知。假設隨機變量 服從二項分布,其參數 未知。若觀測到 的值為 ,採用矩估計最大似然估計對參數 估計量均為 ,這一估計量為無偏的。[26]

參數 貝葉斯估計量英語Bayes estimator取決於使用的先驗分布。若使用連續型均勻分布作為先驗分布,即假設  之間任意等長的區間包含 的概率都相同,則後驗均值估計量為

 

這被稱作拉普拉斯–貝葉斯估計量英語Laplace–Bayes estimator,曾被皮埃爾-西蒙·拉普拉斯用於估計在太陽連續升起 天之後,太陽明天還會升起的概率。由於人類知道太陽在過去五千年,即1,826,213天都正常升起,拉普拉斯願意以1,826,214比1的賠率賭太陽明天繼續升起。[27]

若使用參數為 貝塔分布作為先驗分布,則後驗均值估計量為

 

採用貝塔分布作為先驗分布時,後驗分布亦是貝塔分布,即貝塔分布為二項分布的共軛先驗[28]

區間估計

若要對參數 區間形式給出估計,通過求解

 
 

所得的區間 為一個置信水平近似為 置信區間,稱作克洛珀-皮爾遜區間(Clopper-Pearson interval)。[29]

正態分布可以用於推導近似的置信區間。若用 表示標準正態分布的第 分位數,即 ,則區間兩端的近似值為

 [30][31]

參見

注釋

  1. ^ 1.0 1.1 1.2 Feller 1968,第146–147頁.
  2. ^ Johnson, Kemp & Kotz 2005,第135–136頁.
  3. ^ 3.0 3.1 3.2 Johnson, Kemp & Kotz 2005,第108頁.
  4. ^ Feller 1968,第34頁.
  5. ^ Feller 1968,第147–150頁.
  6. ^ Johnson, Kemp & Kotz 2005,第109頁.
  7. ^ Hald 2003,第54–63頁.
  8. ^ Hald 2003,第223–228頁.
  9. ^ Stigler 1986,第62–70頁.
  10. ^ Stigler 1986,第70–85頁.
  11. ^ Johnson, Kemp & Kotz 2005,第109–112頁.
  12. ^ Feller 1968,第167–169頁.
  13. ^ Johnson, Kemp & Kotz 2005,第140頁.
  14. ^ Johnson, Kemp & Kotz 2005,第115頁.
  15. ^ Johnson, Kemp & Kotz 2005,第112頁.
  16. ^ Kaas & Buhrman 1980.
  17. ^ Hamza 1995.
  18. ^ Johnson, Kemp & Kotz 2005,第119頁.
  19. ^ Johnson, Kemp & Kotz 2005,第110頁.
  20. ^ Feller 1968,第182–185頁.
  21. ^ Feller 1968,第185–186頁.
  22. ^ Schader & Schmid 1989.
  23. ^ Johnson, Kemp & Kotz 2005,第116–117頁.
  24. ^ Feller 1968,第153–154頁.
  25. ^ Sheu 1984.
  26. ^ Johnson, Kemp & Kotz 2005,第126頁.
  27. ^ Feller 1968,第123–124頁.
  28. ^ Chew 1971.
  29. ^ Johnson, Kemp & Kotz 2005,第130–131頁.
  30. ^ Johnson, Kemp & Kotz 2005,第132頁.
  31. ^ Blyth 1986.

參考文獻