辛普森悖論

数据统计悖论

辛普森悖論(英語:Simpson's paradox),是概率統計中的一種現象,其中趨勢出現在幾組數據中,但當這些組被合併後趨勢消失或反轉。 這個結果在社會科學和醫學科學統計中經常遇到[1][2][3], 當頻率數據被不恰當地給出因果解釋時尤其成問題[4]。當干擾變數和因果關係在統計建模中得到適當處理時,這個悖論就可以得到解決[4][5]。 辛普森悖論已被用來說明統計誤用可能產生的誤導性結果[6][7]

定量數據的辛普森悖論:兩個獨立的小組出現正的趨勢( ,  ),而當小組合併時出現負的趨勢( )。
辛普森悖論在類似於現實世界變異性的數據上的可視化表明,誤判真實關係的風險可能難以發現。

該現象於20世紀初就有人討論,但一直到1951年,愛德華·H·辛普森在他發表的論文中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。此悖論的最終原因和選擇偏差英語selection bias倖存者偏差、以及柏克森悖論英語Berkson's paradox一樣,是源自對撞因子(存疑!應為混淆變數(confounder))。

舉例

一所美國高校的兩個學院,分別是法學院和商學院。新學期招生,人們懷疑這兩個學院有性別歧視。現作如下統計:

法學院

性別 錄取 拒收 總數 錄取比例
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合計 59 146 205

商學院

性別 錄取 拒收 總數 錄取比例
男生 201 50 251 80.1%
女生 92 9 101 91.1%
合計 293 59 352

根據上面兩個表格來看,女生在兩個學院都被優先錄取,即女生的錄取比率較。現在將兩學院的數據匯總:

性別 錄取 拒收 總數 錄取比例
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合計 352 205 557

在總評中,女生的錄取比率反而比男生

 
女生單獨兩個向量斜率都比男生大,說明它們的比率都比較高。但最後男生總體向量斜率卻大於女生

藉助一幅向量圖可以更好的了解情況(右圖)

這個例子說明,簡單的將分組數據相加匯總,是不能反映真實情況的。

就上述例子說,導致辛普森悖論有兩個前提。

  1. 兩個分組的錄取率相差很大,就是說法學院錄取率很低,而商學院卻很高。而同時兩種性別的申請者分佈比重相反。女性申請者的大部分分佈在法學院,相反,男性申請者大部分分佈於商學院。結果在數量上來說,拒收率高的法學院拒收了很多的女生,男生雖然有更拒收率,但被拒收的數量卻相對不算多。而錄取率很高的商學院錄取了很多男生,使得最後匯總的時候,男生在數量上反而佔優。
  2. 潛在因素影響着錄取情況。就是說,性別並非是錄取率高低的唯一因素,甚至可能是毫無影響的。至於在學院中出現的比率差,可能是隨機事件。又或者是其他因素作用,比如入學成績,卻剛好出現這種錄取比例,使人誤認為這是由性別差異而造成的。

為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的系數去消除以分組數據基數差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。

相關條目

參考文獻

Skript zur Statistik in der Naturwissenschaften(Gerhard Osius, Universität Bremen)

  1. ^ Clifford H. Wagner. Simpson's Paradox in Real Life. The American Statistician. February 1982, 36 (1): 46–48. JSTOR 2684093. doi:10.2307/2684093. 
  2. ^ Holt, G. B. (2016). Potential Simpson's paradox in multicenter study of intraperitoneal chemotherapy for ovarian cancer.頁面存檔備份,存於互聯網檔案館) Journal of Clinical Oncology, 34(9), 1016–1016.
  3. ^ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai. Post-transcriptional regulation across human tissues. PLOS Computational Biology. 2017, 13 (5): e1005535. Bibcode:2017PLSCB..13E5535F. ISSN 1553-7358. PMC 5440056 . PMID 28481885. arXiv:1506.00219 . doi:10.1371/journal.pcbi.1005535. 
  4. ^ 4.0 4.1 Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
  5. ^ Kock, N., & Gaskins, L. (2016). Simpson's paradox, moderation and the emergence of quadratic relationships in path models: An information systems illustration.頁面存檔備份,存於互聯網檔案館) International Journal of Applied Nonlinear Science, 2(3), 200–234.
  6. ^ Robert L. Wardrop (February 1995). "Simpson's Paradox and the Hot Hand in Basketball". The American Statistician, 49 (1): pp. 24–28.
  7. ^ Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7