內曼-皮爾遜引理

統計學中,內曼-皮爾遜引理(英語:Neyman–Pearson lemma)是假設檢驗的基本引理,由耶日·內曼埃貢·皮爾遜於1933年提出。引理指出當零假設備擇假設均為簡單假設時,似然比檢驗英語Likelihood-ratio test在所有顯著性水平相同的檢驗中統計功效最大。

假設檢驗是根據樣本的觀察結果,判斷關於總體的命題真偽的方法。若要對某一命題的真偽做出判斷,兩種錯誤可能會發生:在命題為真時判斷它為假,和在命題為假時判斷它為真,兩者分別稱為第一類錯誤與第二類錯誤。發生第一類錯誤的概率即稱作顯著性水平,而不發生第二類錯誤的概率稱作統計功效。儘管理想的判斷方法應該同時最小化兩種錯誤,但這一點很難實現。內曼-皮爾遜引理給出了,在發生第一類錯誤的概率上限固定時,能儘量減少第二類錯誤的檢驗方法。

背景

工廠驗收、飛機試飛、新藥研發等場合會從總體抽樣進行檢查。總體的某一性質,比如合格品的占比、藥品的效力,可被視作擁有未知概率分布隨機變量 ,比如期望值方差不明確的正態分布。對樣本中這一性質的觀察結果可視為 的取值,記為 。通過這些觀察結果,對有關 的假設做出判斷,例如分布的期望值是否大於某一特定值,便是假設檢驗的目標。這種判斷稱作接受或拒絕這一假設。[1] 有兩種可能的分布  ,記 服從分布 這一假設為 ,而 不服從分布 ,亦即服從分布 這一假設為 。用 表示對假設的檢驗,其中 表示根據 的值接受了假設 ,而 則代表拒絕了假設 。兩種假設稱作零假設備擇假設[2]

內曼和皮爾遜認為,僅靠概率論無法證實或證偽單一的假設。然而,可以建立一套用於判斷一系列假說的規則,使得長遠來看依靠這一規則做出的判斷大多數時候是正確的。[3]在判斷觀測到的數據 來自於哪一種分布時,正如預算有限的消費者在購物時會分析商品的性價比,時間緊迫的旅客會思考不同交通方式的速度,一種可能的檢驗方法在於計算兩種分布下出現這一觀測結果的概率之比

 

比值中的兩種概率稱作似然,而該檢驗方法稱作似然比檢驗。[4]

無論對假設作出怎樣的判斷,不可避免地會出現第一類錯誤與第二類錯誤:在假設為真時拒絕假設,和在假設為假時接受假設。取決於假設檢驗運用的場合,兩種錯誤的結果會相當不同。若是用假設檢驗判斷患者是否患有某一疾病,則第一類錯誤代表着患者沒有患病時仍進行治療,可能造成患者的不適和金錢損失;第二類錯誤則代表患者患病但沒有診出,若病情因而惡化可能導致患者死亡。在樣本大小固定的情況下,無法同時控制這兩種錯誤。發生第一類錯誤的概率稱作顯著性水平統計功效則指不發生第二類錯誤的概率。[5]似然比檢驗即是顯著性水平上限固定時,統計功效最大的檢驗方法。[4]

陳述

埃里希·萊曼英語Erich Leo Lehmann使用拉東-尼科迪姆導數定義概率分布的概率密度函數,對引理的表述為:[6]

內曼-皮爾遜引理 —  為概率分布,其關於測度 的概率密度函數分別為 

  • 存在性:存在有檢驗 和常數 使得
  1
  2
  • 最大功效檢驗的充分條件:滿足上述條件1和2的檢驗在顯著性水平為 的所有檢驗中統計功效最大。
  • 最大功效檢驗的必要條件:若檢驗 的顯著性水平為 ,且在顯著性水平相同的所有檢驗中統計功效最大,則存在常數 使得 在測度 幾乎處處滿足條件2。除非存在顯著性水平小於 且統計功效為 的檢驗,檢驗 亦滿足條件1。

上述表述中的 表示假設 為真時 的期望值。

另一種簡化後的表述則只包含了充分條件部分:[2]

內曼-皮爾遜引理 — 若檢驗 的顯著性水平為 ,其方法為在比值

 

大於某常數 時拒絕 ,即此時 。則任何其他顯著性水平小於等於 的檢驗方法的統計功效均小於等於 的統計功效。

證明

記概率分布 的概率密度函數或概率質量函數分別為 。一種檢驗方法 只取 兩個值,故 是一個服從伯努利分布的隨機變量。它的顯著性水平

 

即是假設 為真時 的期望值

 

它的統計功效

 

即是假設 為真時 的期望值

 

 是顯著性水平為 的似然比檢驗,即  時取值為 ,且 。設有另一個顯著性水平小於等於 的檢驗 ,即 ,則有不等式

 

這是因為若 ,則依 的定義 ;若 ,則 

對不等式兩側關於 積分或求和,則

 

因此

 

由於 的顯著性水平小於等於 ,此時不等式左側非負。因此不等式右側同樣非負,即 的統計功效亦小於等於 

例子

 取自期望值為 ,方差為 的正態分布,其中 已知但 為未知。如果假設  ,假設  ,則似然比為

 

由於指數函數單調遞增,似然比 等價於 大於另一常數,即 

顯著性水平為 的檢驗需要滿足 ,因此 ,其中 表示標準正態分布的第 分位數。因此,對這一問題統計功效最大的檢驗方法為在 時拒絕 [7][8]

參見

注釋

  1. ^ Lehmann & Romano 2022,第3–7頁.
  2. ^ 2.0 2.1 Rice 2007,第331–332頁.
  3. ^ Neyman & Pearson 1933.
  4. ^ 4.0 4.1 Lehmann & Romano 2022,第64–65頁.
  5. ^ Lehmann & Romano 2022,第61–64頁.
  6. ^ Lehmann & Romano 2022,第66頁.
  7. ^ Lehmann & Romano 2022,第68–69頁.
  8. ^ Rice 2007,第333頁.

參考文獻

書籍

  • Lehmann, E. L.; Romano, Joseph P., Testing Statistical Hypotheses, Fourth Edition, Springer, 2022, ISBN 978-3-030-70578-7 (英語) 
  • Rice, John A., Mathematical Statistics and Data Analysis, Third Edition, Duxbury, 2007, ISBN 0-534-39942-8 (英語) 

期刊論文

  • Neyman, J.; Pearson, E. S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, Philosophical Transactions of the Royal Society of London, Series A, 1933, 231: 289–337, doi:10.1098/rsta.1933.0009 (英語)