變異數分析
此條目需要精通或熟悉數學的編者參與及協助編輯。 (2011年2月11日) |
變異數分析(英語:Analysis of variance,簡稱:ANOVA)為資料分析中常見的統計模型,主要為探討連續型(Continuous)資料型態之應變數與類別型資料型態之自變數的關係,當自變項的因子中包含等於或超過三個類別情況下,檢定其各類別間平均數是否相等的統計模式,廣義上可將T檢定中變異數相等(Equality of variance)的合併T檢定(Pooled T-test)視為是變異數分析的一種,基於T檢定為分析兩組平均數是否相等,並且採用相同的計算概念,而實際上當變異數分析套用在合併T檢定的分析上時,產生的F值則會等於T檢定的平方項。
變異數分析依靠F-分布為機率分布的依據,利用平方和(Sum of square)與自由度(Degree of freedom)所計算的組間與組內均方(Mean of square)估計出F值,若有顯著差異則考量進行事後比較或稱多重比較(Multiple comparison),較常見的為薛費法(事後比較法)、杜其範圍檢定與邦佛洛尼校正,用於探討其各組之間的差異為何。
在變異數分析的基本運算概念下,依照所感興趣的因子數量而可分為單因子變異數分析、雙因子變異數分析、多因子變異數分析三大類,依照因子的特性不同而有三種型態,固定效應變異數分析(fixed-effect analysis of variance)、隨機效應變異數分析(random-effect analysis of variance)與混合效應變異數分析(Mixed-effect analaysis of variance),然而第三種型態在後期發展上被認為是Mixed model的分支,關於更進一步的探討可參考Mixed model的部份。
變異數分析優於兩組比較的T檢定之處,在於後者會導致多重比較(multiple comparisons)的問題而致使型一錯誤(Type one error)的機會增高,因此比較多組平均數是否有差異則是變異數分析的主要命題。
在統計學中,變異數分析(ANOVA)是一系列統計模型及其相關的過程總稱,其中某一變數的變異數可以分解為歸屬於不同變數來源的部分。其中最簡單的方式中,變異數分析的統計測試能夠說明幾組資料的平均值是否相等,因此得到兩組的T檢定。在做多組雙變數T檢定的時候,錯誤的機率會越來越大,特別是型一錯誤,因此變異數分析只在二到四組平均值的時候比較有效。
背景和名稱
變異數分析(ANOVA)是一種特殊形式的統計假說檢定,廣泛應用於實驗資料的分析中。統計假說檢定是一種根據資料進行決策的方法。測試結果(通過虛無假說進行計算)如果不僅僅是因為運氣,則在統計學上稱為顯著。統計顯著的結果(當可能性的p值小於臨界的「顯著值」)則可以推翻虛無假說。
在變異數分析的經典應用中,虛無假說是假設所有資料組都是整體測試物件的完全隨機抽樣。這說明所有方法都有相同效果(或無效果)。推翻虛無假說說明不同的方法,會得到不同的效果。在操作中,假設測試限定I類型錯誤(假陽性導致的假科學論斷)達到某一具體的值。實驗者也希望II型錯誤(假陰性導致的缺乏科學發現)有限。II型錯誤受到多重因素作用,例如取樣範圍(很可能與試驗成本有關),相關度(當實驗標準高的時候,忽視發現的可能性也大)和效果範圍(當對一般觀察者來說效果明顯,II型錯誤發生率就低)。
ANOVA的模式型態
變異數分析分為三種型態:
固定效應模式(Fixed-effects models)
用於變異數分析模型中所考慮的因子為固定的情況,換言之,其所感興趣的因子是來自於特定的範圍,例如要比較五種不同的汽車銷售量的差異,感興趣的因子為五種不同的汽車,反應變數為銷售量,該命題即限定了特定範圍,因此模型的推論結果也將全部著眼在五種汽車的銷售差異上,故此種狀況下的因子便稱為固定效應。
隨機效應模式(Random-effects models)
不同於固定效應模式中的因子特定性,在隨機效應中所考量的因子是來自於所有可能的母群體中的一組樣本,因子變異數分析所推論的並非著眼在所選定的因子上,而是推論到因子背後的母群體,例如,藉由一間擁有全部車廠種類的二手車公司,從所有車廠中隨機挑選5種車廠品牌,用於比較其銷售量的差異,最後推論到這間二手公司的銷售狀況。因此在隨機效應模型下,研究者所關心的並非侷限在所選定的因子上,而是希望藉由這些因子推論背後的母群體特徵。
混合效應模式(Mixed-effects models)
此種混合效應絕對不會出現在單因子變異數分析中,當雙因子或多因子變異數分析同時存在固定效應與隨機效應時,此種模型便是典型的混合型模式。
ANOVA的模式假設
變異數分析之統計分析假設通常會依照各種模式型態不同而有差異,但廣義而言,變異數分析一共有三大前提假設:
- 各組樣本背後所隱含的族群分布必須為常態分布或者是逼近常態分布。
- 各組樣本必須獨立。
- 族群的變異數必須相等。
總變數(TSS):
i為組別(i=1,2...,I),j為觀測值個數(j=1,2,3,...,J), 為第i組第j個觀測值, 為所有觀測值的平均數。
組間變異量(BSS):
為i組內觀測值總數, 為第i組的平均數
組內變異量(WSS):
由上述的計算公式可知,BSS代表所有觀測值的期望值與分組後各組內的期望值差異,換言之,當各組的期望值沒有差異的時候,BSS=0,這個時候我們會認為各組間平均值就沒有差異存在,但並不代表所有觀測值的一致性也會很高,因此計算WSS來幫助我們判斷所有期望值的差異量多寡,當WSS=0的情況,代表各組內的所有觀測值與各組的期望值沒有差異存在,因此只有WSS與BSS都為0情況下,我們才能斷定所有觀測值達到完美的一致,然而當WSS>0, BSS=0的情況,則是各組期望值達到一致,但組內卻存在變異,WSS=0, BSS>0,則是組內沒有變異存在,但各組間卻存在差異,然後真實狀況不可能如此極端,因此必須比較WSS與BSS的差異來判斷變異數分析的結果,也就是各組期望值是否有差異存在。而這個部份在比較變異量的過程中,必須考量到各組變易量會受到觀測數量與組別數量的多寡而有所差異,因此必須進行自由度的調整,也就是計算出均方值來比較組內變異與組間變異量。
組間均方BMSS(between means sum of squares): = =
組內均方WMSS(within means sum of squares): = =
其中k為組別數量,N為觀測值總數。兩個均方值的比較為
此比較值也就是目前慣稱的F檢定值,F越大,則組間均方大於組內均方,也就是組間變異量大於組內變異量,各組間的差異遠超出總期望值離差,代表各組的平均數存在明顯的差異,相反的,F越小甚至於逼近於0,則是組間變異量小於組內變異量,代表各組間的差異很小,各組平均數則不存在明顯的差異。整個分析概念中,受到變異數分析所規範的族群的變異數必須相等的條件下,組內變異量成為了基準,因此組間變異量的多寡就成了判定變異數分析結論的重要數值,然而F值僅為提供判斷虛擬假設存在的可能性,為了方便下結論,由alpha值決定可容許的錯誤判斷機率為5%,因此F值所計算的虛擬假設機率值若小於0.05,則下定論為各組存在差異,其隱含的意義則是否定了各組間無差異的機率,也就是容許了各組無差異可能成真的錯誤判斷機率,因為判斷錯誤的機率太小而能容許,但並不代表不可能判斷錯誤,因此任何F檢定的結果均只能下定論為達到統計上的意義,而非絕對意義。
隨機效應
雖然在單因子變異數分析中有隨機效應的存在,但運算上與Fixed-effect並無太大差異,其F檢定的結果相同,唯一的差別是在於均方期望值上。
雙因子變異數分析(Two-way ANOVA)
在許多情境下,某現象並非僅受單一因子的影響,甚至存在另一個因子的效應,例如要比較五個都市的空氣汙染總指標差異,除了都市別的因素之外,還必須考量汽機車密度的因素,在這樣的情境下,都市別與汽機車密度可能就存在著某種效應影響著空氣汙染的多寡,因此在雙因子變異數分析中,除了考量雙因子彼此的效應之外,也可能存在因子之間的聯合效應,也就是因子間的互動作用(interaction),這也使得雙因子變異數分析變的比較複雜。
1. 固定效應
延續單因子變異數分析的基本概念,雙因子變異數分析也能將總變異量分解成雙因子的主效應與雙因子的聯合效應,還有表示誤差項的組內差異量,為了簡化問題,其下列的計算均表示為各組間樣本數一致的情況下,其線性關係為TSS=ASS+BSS+WSS+ABSS。
- 總變異量(TSS):
- A因子的主效應(ASS): 其均方AMSS為:
- B因子的主效應(BSS): 其均方BMSS為:
- AB因子的互動作用(ABSS): 其均方ABMSS為:
- 組內差異量(WSS): 其均方WMSS為:
- 在F檢定中,由於考慮的雙因子的個別主效應與互動作用,因此會出現三個檢定方向,其一為A因子檢定、B因子檢定與互動作用的檢定。
- A因子的F檢定為:
- B因子的F檢定為:
- 互動作用的F檢定為:
在互動作用不顯著的情況下,才會考慮依照各別因子主效應的檢定結果做為雙因子變異數分析的結論。
2. 隨機效應
3. 混合效應
多因子變異數分析(Factorial ANOVA)
重複測量變異數分析(Repeated measure ANOVA)
共變數分析(ANCOVA)
多變數變異數分析(MANOVA)
事後檢定
當變異數分析檢定結果呈現統計顯著,代表反應變數的平均值在與所感興趣的因子有差異存在,因此事後檢定用於進一步探討其反應變數的平均數差異為何。在其事後檢定的統計發展上有不少各具特色的方法,至今仍然陸續有新方法發表,但其運算理念都大同小異,都是為了修正第一型誤差因為多重比較而出現誤差上升的狀況。較常用的為Bonferroni、Tukey、Duncan、Scheffé四種,其餘方法如下所列:
- 邦佛洛尼檢定(Bonferroni T tests)
- 杜奇範圍檢定(Tukey's range test)
- 丹肯新多重範圍檢定(Duncan's new multiple range test)
- Dunnett's two-tailed test
- Dunnett's one-tailed test
- Gabriel's multiple-comparison procedure
- 雷文檢定(Levene's test)
- Waller-Duncan test
- Ryan-Einot-Gabriel-Welsch multiple range test
- Scheffé's multiple-comparison procedure
- Student-Newman-Keuls multiple range test
- Fisher's least-significant-difference test
- Waller-Duncan K-ratio T test
參考文獻
- Anscombe, F. J. The Validity of Comparative Experiments. Journal of the Royal Statistical Society. Series A (General). 1948, 111 (3): 181–211. JSTOR 2984159. MR 0030181. doi:10.2307/2984159.
- Bailey, R. A. Design of Comparative Experiments. Cambridge University Press. 2008 [2013-12-22]. ISBN 978-0-521-68357-9. (原始內容存檔於2013-12-24). Pre-publication chapters are available on-line.
- Belle, Gerald van. Statistical rules of thumb 2nd. Hoboken, N.J: Wiley. 2008. ISBN 978-0-470-14448-0.
- Cochran, William G.; Cox, Gertrude M. Experimental designs 2nd. New York: Wiley. 1992. ISBN 978-0-471-54567-5.
- Cohen, Jacob (1988). Statistical power analysis for the behavior sciences (2nd ed.). Routledge ISBN 978-0-8058-0283-2
- Cohen, Jacob. Statistics a power primer. Psychology Bulletin. 1992, 112 (1): 155–159. PMID 19565683. doi:10.1037/0033-2909.112.1.155.
- Cox, David R. (1958). Planning of experiments. Reprinted as ISBN 978-0-471-57429-3
- Cox, D. R. Principles of statistical inference. Cambridge New York: Cambridge University Press. 2006. ISBN 978-0-521-68567-2.
- Freedman, David A.(2005). Statistical Models: Theory and Practice, Cambridge University Press. ISBN 978-0-521-67105-7
- Gelman, Andrew. Analysis of variance? Why it is more important than ever. The Annals of Statistics. 2005, 33: 1–53. doi:10.1214/009053604000001048.
- Gelman, Andrew. Variance, analysis of. The new Palgrave dictionary of economics 2nd. Basingstoke, Hampshire New York: Palgrave Macmillan. 2008. ISBN 978-0-333-78676-5.
- Hinkelmann, Klaus & Kempthorne, Oscar. Design and Analysis of Experiments. I and II Second. Wiley. 2008. ISBN 978-0-470-38551-7.
- Howell, David C. Statistical methods for psychology 5th. Pacific Grove, CA: Duxbury/Thomson Learning. 2002. ISBN 0-534-37770-X.
- Kempthorne, Oscar. The Design and Analysis of Experiments Corrected reprint of (1952) Wiley. Robert E. Krieger. 1979. ISBN 0-88275-105-0.
- Lehmann, E.L. (1959) Testing Statistical Hypotheses. John Wiley & Sons.
- Montgomery, Douglas C. Design and Analysis of Experiments 5th. New York: Wiley. 2001. ISBN 978-0-471-31649-7.
- Moore, David S. & McCabe, George P. (2003). Introduction to the Practice of Statistics (4e). W H Freeman & Co. ISBN 978-0-7167-9657-2
- Rosenbaum, Paul R. (2002). Observational Studies (2nd ed.). New York: Springer-Verlag. ISBN 978-0-387-98967-9
- Scheffé, Henry. The Analysis of Variance. New York: Wiley. 1959.
- Stigler, Stephen M. The history of statistics : the measurement of uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. 1986. ISBN 0-674-40340-1.
- Wilkinson, Leland. Statistical Methods in Psychology Journals; Guidelines and Explanations. American Psychologist. 1999, 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594.
延伸閱讀
- Box, G. e. p. Non-Normality and Tests on Variances. Biometrika. 1953, 40 (3/4): 318–335. JSTOR 2333350. doi:10.1093/biomet/40.3-4.318.
- Box, G. E. P. Some Theorems on Quadratic Forms Applied in the Study of Analysis of Variance Problems, I. Effect of Inequality of Variance in the One-Way Classification. The Annals of Mathematical Statistics. 1954, 25 (2): 290. doi:10.1214/aoms/1177728786.
- Box, G. E. P. Some Theorems on Quadratic Forms Applied in the Study of Analysis of Variance Problems, II. Effects of Inequality of Variance and of Correlation Between Errors in the Two-Way Classification. The Annals of Mathematical Statistics. 1954, 25 (3): 484. doi:10.1214/aoms/1177728717.
- Caliński, Tadeusz; Kageyama, Sanpei. Block designs: A Randomization approach, Volume I: Analysis. Lecture Notes in Statistics 150. New York: Springer-Verlag. 2000. ISBN 978-0-387-98578-7.
- Christensen, Ronald. Plane Answers to Complex Questions: The Theory of Linear Models Third. New York: Springer. 2002. ISBN 978-0-387-95361-8.
- Cox, David R. & Reid, Nancy M. (2000). The theory of design of experiments. (Chapman & Hall/CRC). ISBN 978-1-58488-195-7
- Fisher, Ronald. Studies in Crop Variation. I. An examination of the yield of dressed grain from Broadbalk (PDF). Journal of Agricultural Science. 1918, 11 (2): 107–135. doi:10.1017/S0021859600003750. (原始內容 (PDF)存檔於12 June 2001).
- Freedman, David A.; Pisani, Robert; Purves, Roger (2007) Statistics, 4th edition. W.W. Norton & Company ISBN 978-0-393-92972-0
- Hettmansperger, T. P.; McKean, J. W. Edward Arnold , 編. Robust nonparametric statistical methods. Kendall's Library of Statistics. Volume 5 First. New York: John Wiley & Sons, Inc. 1998: xiv+467 pp. ISBN 978-0-340-54937-7. MR 1604954.
- Lentner, Marvin; Thomas Bishop. Experimental design and analysis Second. P.O. Box 884, Blacksburg, VA 24063: Valley Book Company. 1993. ISBN 978-0-9616255-2-8.
- Tabachnick, Barbara G. & Fidell, Linda S. (2007). Using Multivariate Statistics (5th ed.). Boston: Pearson International Edition. ISBN 978-0-205-45938-4
- Wichura, Michael J. The coordinate-free approach to linear models. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. 2006: xiv+199. ISBN 978-0-521-86842-6. MR 2283455.
- Phadke, Madhav S. Quality Engineering using Robust Design. New Jersey: Prentice Hall PTR. 1989. ISBN 978-0-13-745167-8.
相關條目
外部連結
- 變異數分析線上計算
- SOCR ANOVA Activity (頁面存檔備份,存於網際網路檔案館) and interactive applet (頁面存檔備份,存於網際網路檔案館).
- Examples of all ANOVA and ANCOVA models with up to three treatment factors, including randomized block, split plot, repeated measures, and Latin squares, and their analysis in R (頁面存檔備份,存於網際網路檔案館)
- NIST/SEMATECH e-Handbook of Statistical Methods, section 7.4.3: "Are the means equal?" (頁面存檔備份,存於網際網路檔案館)