協方差

統計學名詞

概率論統計學中,協方差(英語:Covariance)用於衡量隨機變量間的相關程度。

「Covariance」的各地常用譯名
中國大陸協方差
臺灣共變異數
港澳協方差
日本、韓國共分散
兩變量X與Y在3種不同的協方差情況下的關係

定義

定義 — 
 樣本空間  是定義在  事件族   上的概率。(換句話說,   是個概率空間

   是定義在   上的兩個實數隨機變量期望值分別為:

 
 

則兩者間的協方差定義為:

 

根據測度積分的線性性質,上面的原始定義可以進一步簡化為:

 

協方差矩陣

協方差的定義可以推廣到兩列隨機變量之間

定義 — 
 概率空間   是定義在   上的兩列實數隨機變量序列(也可視為有序對行向量

若二者對應的期望值分別為:

 
 

則這兩列隨機變量間的協方差定義成一個   矩陣

 

以上的定義,以矩形來表示就是:

 

性質

統計獨立

定理 — 若隨機變量    是相互獨立的,則

 

計算性質

如果  是實數隨機變量,  是常數,那麼根據協方差的定義可以得到:

 
 
 

對於隨機變量序列  ,有

 

對於隨機變量序列 ,有

 

相關系數

取決於協方差的相關性 

 

更準確地說是線性相關性,是一個衡量線性獨立的無量綱數,其取值在 之間。相關性 時稱為「完全線性相關」(相關性 時稱為「完全線性負相關」),此時將  作Y-X 散點圖,將得到一組精確排列在直線上的點;相關性數值介於-1到1之間時,其絕對值越接近1表明線性相關性越好,作散點圖得到的點的排布越接近一條直線。

相關性為0(因而協方差也為0)的兩個隨機變量又被稱為是不相關的,或者更準確地說叫作「線性無關」、「線性不相關」,這僅僅表明  兩隨機變量之間沒有線性相關性,並非表示它們之間一定沒有任何內在的(非線性)函數關係,和前面所說的「  二者並不一定是統計獨立的」說法一致。

參見