信賴區間
此條目可參照英語維基百科相應條目來擴充。 (2016年9月13日) |
在統計學中,一個機率樣本的信賴區間(英語:confidence interval,CI),是對產生這個樣本的母體的母數分布(parametric distribution)中的某一個未知母數值,以區間形式給出的估計。相對於點估計(point estimation)用一個樣本統計量來估計母數值,信賴區間還蘊含了估計的精確度的資訊。在現代機器學習中越來越常用的信賴集合(confidence set)概念是信賴區間在多維分析的推廣[1]。
信賴區間在頻率學派中間使用,其在貝氏統計中的對應概念是可信區間(credible interval)。兩者建立在不同的概念基礎上的,貝氏統計將分布的位置母數視為隨機變數,並對給定觀測到的數據之後未知母數的事後分布進行描述,故無論對隨機樣本還是已觀測數據,構造出來的可信區間,其可信水準都是一個合法的機率[2];而信賴區間的信心水準,只在考慮隨機樣本時可以被理解為一個機率。
定義
對隨機樣本的定義
定義信賴區間最清晰的方式是從一個隨機樣本出發。考慮一個一維隨機變數 服從分布 ,又假設 是 的母數之一。假設我們的數據採集計劃將要獨立地抽樣 次,得到一個隨機樣本 ,注意這裡所有的 都是隨機的,我們是在討論一個尚未被觀測的數據集。如果存在統計量(統計量定義為樣本 的一個函數,且不得依賴於任何未知母數) 滿足 使得:
則稱 為一個用於估計母數 的 信賴區間,其中的, 稱為信心水準, 在假說檢定中也稱為顯著水準。
對觀測到的數據的定義
接續隨機樣本版本的定義,現在,對於隨機變數 的一個已經觀測到的樣本 ,注意這裡用小寫x表記的 都是已經觀測到的數字,沒有隨機性了,定義基於數據的 信賴區間為:
注意,信賴區間可以是單尾或者雙尾的,單尾的信賴區間中設定 或者 ,具體前者還是後者取決於所構造的信賴區間的方向。
初學者常犯一個概念性錯誤,是將基於觀測到的數據所同樣構造的信賴區間的信心水準,誤認為是它包含真實未知母數的真實值的機率。正確的理解是:信心水準只有在描述這個同樣構造信賴區間的過程(或稱方法)的意義下才能被視為一個機率。一個基於已經觀測到的數據所構造出來的信賴區間,其兩個端點已經不再具有隨機性,因此,類似的構造的間隔將會包含真正的值的比例在所有值中,其包含未知母數的真實值的機率是0或者1,但我們不能知道是前者還是後者[3]。
例子
例1:常態分布,已知母體變異數
水準的常態信賴區間為:
- (雙尾)
- (單尾)
- (單尾)
以下為方便起見,只列出雙尾信賴區間的例子,且區間中用" "進行簡記:
例2:常態分布,未知母體變異數
水準的雙尾常態信賴區間為:
例3:兩個獨立常態樣本
設有兩個獨立常態樣本 和 ,樣本大小為 和 ,估計母體均值之差 ,假設母體變異數未知但相等: (如果未知且不等就要應用Welch公式來確定t分布的自由度) 水準的雙尾常態信賴區間為:
- ,其中 且 分別表示 和 的樣本標準差。
常見誤解
信賴區間及信心水準常被誤解,出版的研究也顯示出既使是專業的科學家也常做出錯誤的詮釋。[4][5][6][7][8][9]
- 以95%的信賴區間來說,建構出一個信賴區間,不代表分布的母數有95%的機率會落在該信賴區間內(也就是說該區間有95%的機率涵蓋了分布母數)。 [10]依照嚴格的頻率學派詮釋,一旦信賴區間被建構完全,此區間不是涵蓋了母數就是沒涵蓋母數,已經沒有機率可言。95%機率指的是建構信賴區間步驟的可靠性,不是針對一個特定的區間。[11]內曼本人(信賴區間的原始提倡者)在他的原始論文提出此點:[12]
「在上面的敘述中可以注意到,機率是指統計學家在未來關心的估計問題。事實上,我已多次說明,正確結果的頻率會趨向於α。考慮到一個樣本已被抽取,[特定端點]也已被計算完成。我們能說在這個特定的例子裡真值[落到端點中]的機率等於α嗎?答案明顯是否定的。母數是未知的常數,無法做出對其值的機率敘述……」
- Deborah Mayo針對此點進一步說道:[13]
「無論如何必須強調,在看到[資料的]數值後,Neyman–Pearson理論從不允許做出以下結論,特定產生的信賴區間涵蓋了真值的機率或信心為(1 − α)100%。Seidenfeld的評論似乎源於一種(並非不尋常的)期望值,Neyman–Pearson信賴區間能提供他們無法合理提供的,也就是未知母數落入特定區間的機率大小、信心高低或支持程度的測度。隨著Savage (1962)之後,母數落入特定區間的機率可能是指最終精密度的測度。最終精密度的測度令人嚮往而且信賴區間又常被(錯誤地)解釋成可提供此測度,然而此解釋是不被保證的。無可否認的,『信賴』二字助長了此誤解。」
- 95%信賴區間不代表有95%的樣本資料落在此信賴區間。
- 信賴區間不是樣本母數的可能值的確定範圍,雖然它常被啟發為可能值的範圍。
- 從一個實驗中算出的一個95%信賴區間,不代表從不同實驗得到的樣本母數有95%落在該區間中 [8]
構造法
一般來說,信賴區間的構造需要先找到一個樞軸變量(pivotal quantity,或稱pivot),其表達式依賴於樣本以及待估計的未知母數(但不能依賴於母體的其它未知母數),其分布不依賴於任何未知母數。
下面以上述例2為例,說明如何利用樞軸變量構造信賴區間。對於一個常態分布的隨機樣本 ,可以證明(此證明對初學者並不容易)如下統計量互相獨立:
- 和
它們的分布是:
- 和
所以根據t分布的定義,有
於是反解如下等式左邊括號中的不等式
就得到了例2中雙尾信賴區間的表達式。
與母數檢定的聯繫
有時,信賴區間可以用來進行母數檢定。例如在上面的例1中構造的雙尾 水準信賴區間,可以用來檢定具有相應的顯著水準為 的雙尾對立假說,具體地說是如下檢定: 常態分布母體,知道母體變異數 ,在 顯著水準下檢定:
- vs
檢定方法是:當(且唯若)相應的 水準信賴區間不包含 時拒絕虛無假說
例1中構造的雙尾 水準信賴區間也可以用來檢定如下兩個顯著水準為 的單尾對立假設:
- vs
和
- vs
檢定方法是完全類似的,比如對於上述第一個單尾檢定 ,若且唯若雙尾信賴區間的左端點大於 時拒絕虛無假說。
參考文獻
- ^ Brittany Terese Fasy; Fabrizio Lecci; Alessandro Rinaldo; Larry Wasserman; Sivaraman Balakrishnan; Aarti Singh. Confidence sets for persistence diagrams. The Annals of Statistics. 2014, 42 (6): 2301–2339.
- ^ Box, George EP; Tiao, George C. Bayesian inference in statistical analysis. John Wiley & Sons. 2011.
- ^ Moore, D; McCabe, George P; Craig, B. Introduction to the Practice of Statistics. San Francisco, CA: Freeman. 2012.
- ^ Kalinowski, Pawel. Identifying Misconceptions about Confidence Intervals (PDF). 2010 [2021-12-22]. (原始內容 (PDF)存檔於2022-01-21).
- ^ Archived copy (PDF). [2014-09-16]. (原始內容 (PDF)存檔於2016-03-04).
- ^ Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [1] (頁面存檔備份,存於網際網路檔案館)
- ^ Scientists』 grasp of confidence intervals doesn’t inspire confidence (頁面存檔備份,存於網際網路檔案館), Science News, July 3, 2014
- ^ 8.0 8.1 Greenland, Sander; Senn, Stephen J.; Rothman, Kenneth J.; Carlin, John B.; Poole, Charles; Goodman, Steven N.; Altman, Douglas G. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology. April 2016, 31 (4): 337–350. ISSN 0393-2990. PMC 4877414 . PMID 27209009. doi:10.1007/s10654-016-0149-3.
- ^ Helske, Jouni; Helske, Satu; Cooper, Matthew; Ynnerman, Anders; Besancon, Lonni. Can Visualization Alleviate Dichotomous Thinking? Effects of Visual Representations on the Cliff Effect. IEEE Transactions on Visualization and Computer Graphics (Institute of Electrical and Electronics Engineers (IEEE)). 2021-08-01, 27 (8): 3397–3409. ISSN 1077-2626. PMID 33856998. S2CID 233230810. arXiv:2002.07671 . doi:10.1109/tvcg.2021.3073466.
- ^ Morey, R. D.; Hoekstra, R.; Rouder, J. N.; Lee, M. D.; Wagenmakers, E.-J. The Fallacy of Placing Confidence in Confidence Intervals. Psychonomic Bulletin & Review. 2016, 23 (1): 103–123. PMC 4742505 . PMID 26450628. doi:10.3758/s13423-015-0947-8.
- ^ 1.3.5.2. Confidence Limits for the Mean. nist.gov. [2014-09-16]. (原始內容存檔於2008-02-05).
- ^ Neyman, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society A. 1937, 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. JSTOR 91337. doi:10.1098/rsta.1937.0005 .
- ^ Mayo, D. G. (1981) "In defence of the Neyman–Pearson theory of confidence intervals" (頁面存檔備份,存於網際網路檔案館), Philosophy of Science, 48 (2), 269–280.
參考書目
- 羅納德·費雪 (1956) Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh. (See p. 32.)
- 弗羅因德 (1962) Mathematical Statistics Prentice Hall, Englewood Cliffs, NJ. (See pp. 227–228.)
- 伊安·海金 (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge
- 齊平 (1962) Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ.
- 傑克·基弗(1977) "Conditional Confidence Statements and Confidence Estimators (with discussion)" Journal of the American Statistical Association, 72, 789–827.
- 澤西·內曼 (1937) "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability" Philosophical Transactions of the Royal Society of London A, 236, 333–380. (Seminal work.)
- G.K.羅賓遜 (1975) "Some Counterexamples to the Theory of Confidence Intervals." Biometrika, 62, 155–161.