互信息

在概率論和信息論中，兩個隨機變量的互信息（mutual Information，MI）度量了兩個變量之間相互依賴的程度。具體來說，對於兩個隨機變量，MI是一個隨機變量由於已知另一個隨機變量而減少的「信息量」（單位通常為比特）。互信息的概念與隨機變量的熵緊密相關，熵是信息論中的基本概念，它量化的是隨機變量中所包含的「信息量」。

MI不僅僅是度量實值隨機變量和線性相關性(如相關係數)，它更為通用。MI決定了隨機變量 ${\displaystyle (X,Y)}$ 的聯合分布與 $X$ 和 $Y$ 的邊緣分布的乘積之間的差異。MI是點互信息（Pointwise Mutual Information（英語：pointwise mutual information），PMI）的期望。克勞德·香農在他的論文A Mathematical Theory of Communication（英語：A Mathematical Theory of Communication）中定義並分析了這個度量，但是當時他並沒有將其稱為「互信息」。這個詞後來由羅伯特·法諾^[1]創造。互信息也稱為信息增益。

互信息的定義

設隨機變量 ${\displaystyle (X,Y)}$ 是空間 ${\displaystyle {\mathcal {X}}\times {\mathcal {Y}}}$ 中的一對隨機變量。若他們的聯合分布是 ${\displaystyle p(x,y)}$ ，邊緣分布分別是 ${\displaystyle p(x)}$ 和 ${\displaystyle p(y)}$ ，那麼，它們之間的互信息可以定義為：

{\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)\otimes p(y))}

其中， ${\displaystyle D_{\mathrm {KL} }}$ 為KL散度(Kullback–Leibler divergence)。注意，根據KL散度的性質，若聯合分布 $p(x,y)$ 等於邊緣分布 $p(x)$ 和 $p(y)$ 的乘積，則 $I(X;Y)=0$ ，即當 $X$ 和 $Y$ 相互獨立的時候，觀測到Y對於我們預測X沒有任何幫助，此時他們的互信息為0。

離散變量的互信息

離散隨機變量 X 和 Y 的互信息可以計算為：

I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)},\,\!

其中 p(x, y) 是 X 和 Y 的聯合概率質量函數，而 $p(x)$ 和 $p(y)$ 分別是 X 和 Y 的邊緣概率質量函數。

連續變量的互信息

在連續隨機變量的情形下，求和被替換成了二重定積分：

I(X;Y)=\int _{Y}\int _{X}p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}\;dx\,dy,

其中 p(x, y) 當前是 X 和 Y 的聯合概率密度函數，而 $p(x)$ 和 $p(y)$ 分別是 X 和 Y 的邊緣概率密度函數。

如果對數以 2 為基底，互信息的單位是bit。

直觀上，互信息度量 X 和 Y 共享的信息：它度量知道這兩個變量其中一個，對另一個不確定度減少的程度。例如，如果 X 和 Y 相互獨立，則知道 X 不對 Y 提供任何信息，反之亦然，所以它們的互信息為零。在另一個極端，如果 X 是 Y 的一個確定性函數，且 Y 也是 X 的一個確定性函數，那麼傳遞的所有信息被 X 和 Y 共享：知道 X 決定 Y 的值，反之亦然。因此，在此情形互信息與 Y（或 X）單獨包含的不確定度相同，稱作 Y（或 X）的熵。而且，這個互信息與 X 的熵和 Y 的熵相同。（這種情形的一個非常特殊的情況是當 X 和 Y 為相同隨機變量時。）

互信息是 X 和 Y 的聯合分布相對於假定 X 和 Y 獨立情況下的聯合分布之間的內在依賴性。於是互信息以下面方式度量依賴性：I(X; Y) = 0 當且僅當 X 和 Y 為獨立隨機變量。從一個方向很容易看出：當 X 和 Y 獨立時，p(x,y) = p(x) p(y)，因此：

\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}=\log 1=0.\,\!

此外，互信息是非負的（即 $I(X;Y)\geq 0$ ; 見下文），而且是對稱的（即 $I(X;Y)=I(Y;X)$ ）。

與其他量的關係

互信息又可以等價地表示成

{\begin{aligned}I(X;Y)&{}=H(X)-H(X|Y)\\&{}=H(Y)-H(Y|X)\\&{}=H(X)+H(Y)-H(X,Y)\\&{}=H(X,Y)-H(X|Y)-H(Y|X)\end{aligned}}

其中 $\ H(X)$ 和 $\ H(Y)$ 是邊緣熵，H(X|Y) 和 H(Y|X) 是條件熵，而 H(X,Y) 是 X 和 Y 的聯合熵。注意到這組關係和併集、差集和交集的關係類似，於是用Venn圖表示。

在互信息定義的基礎上使用琴生不等式，我們可以證明 I(X;Y) 是非負的，因此 $\ H(X)\geq H(X|Y)$ 。這裡我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細推導:

{\begin{aligned}I(X;Y)&{}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)p(y)}}\\&{}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)}}-\sum _{x,y}p(x,y)\log p(y)\\&{}=\sum _{x,y}p(x)p(y|x)\log p(y|x)-\sum _{x,y}p(x,y)\log p(y)\\&{}=\sum _{x}p(x)\left(\sum _{y}p(y|x)\log p(y|x)\right)-\sum _{y}\log p(y)\left(\sum _{x}p(x,y)\right)\\&{}=-\sum _{x}p(x)H(Y|X=x)-\sum _{y}\log p(y)p(y)\\&{}=-H(Y|X)+H(Y)\\&{}=H(Y)-H(Y|X).\\\end{aligned}}

上面其他性質的證明類似。

直觀地說，如果把熵 H(Y) 看作一個隨機變量於不確定度的量度，那麼 H(Y|X) 就是"在已知 X 事件後Y事件會發生"的不確定度。於是第一個等式的右邊就可以讀作「將"Y事件的不確定度"，減去 --- "在基於X事件後Y事件因此發生的不確定度"」。

這證實了互信息的直觀意義為: "因X而有Y事件"的熵( 基於已知隨機變量的不確定性) 在"Y事件"的熵之中具有多少影響地位( "Y事件所具有的不確定性" 其中包含了多少 "Y|X事件所具有的不確性" )，意即"Y具有的不確定性"有多少程度是起因於X事件;

    舉例來說，當 I(X;Y) = 0時，也就是 H(Y) = H(Y|X)時，即代表此時 "Y的不確定性" 即為 "Y|X的不確定性"，這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性。

所以具體的解釋就是: 互信息越小，兩個來自不同事件空間的隨機變量彼此之間的關聯性越低; 互信息越高，關聯性則越高。

注意到離散情形 H(X|X) = 0，於是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y)，我們可以制定」一個變量至少包含其他任何變量可以提供的與它有關的信息「的基本原理。

互信息也可以表示為兩個隨機變量的邊緣分布 X 和 Y 的乘積 p(x) × p(y) 相對於隨機變量的聯合熵 p(x,y) 的相對熵：

I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)p(y)).

此外，令 p(x|y) = p(x, y) / p(y)。則

{\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x|y)\log _{2}{\frac {p(x|y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }(p(x|y)\|p(x))\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(p(x|y)\|p(x))\}.\end{aligned}}

注意到，這裡相對熵涉及到僅對隨機變量 X 積分，表達式 $D_{\mathrm {KL} }(p(x|y)\|p(x))$ 現在以 Y 為變量。於是互信息也可以理解為相對熵 X 的單變量分布 p(x) 相對於給定 Y 時 X 的條件分布 p(x|y) ：分布 p(x|y) 和 p(x) 之間的平均差異越大，信息增益越大。

連續互信息的量化

對連續型隨機變數量化的定義如下：

$f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}$

量化後的隨機變數 $X^{\Delta }$ :

$X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$ 。

則,

$I(X^{\Delta };Y^{\Delta })=H(X^{\Delta })-H(X^{\Delta }|Y^{\Delta })$

$\approx h(X)-log{\Delta }-(h(X|Y)-log{\Delta })$

$=I(X;Y)$

廣義而言，我們可以將互信息定義在有限多個連續隨機變數值域的劃分。

令 $\chi$ 為連續型隨機變數的值域， $P_{i}\in P$ , 其中 $P$ 為 $\chi$ 劃分所構成的集合，意即 $\cup _{i}P_{i}=\chi$ 。

以 $P$ 量化連續型隨機變數 $X$ 後，所得結果為離散型隨機變數,

$Pr([X]_{P}=i)=\int _{P_{i}}dF(x)$ 。

對於兩連續型隨機變數X、Y，其劃分分別為P、Q，則其互信息可表示為：

$I(X;Y)={\underset {P,Q}{sup}}I([X]_{P};[Y]_{Q})$ 。

參見

點間互信息（英語：Pointwise mutual information）
量子互信息（英語：Quantum mutual information）

注釋

^ Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418.

參考文獻

Cilibrasi, Rudi; Paul M.B. Vitan´ yi. Clustering by compression (PDF). IEEE Transactions on Information Theory. 2005, 51 (4): 1523–1545. doi:10.1109/TIT.2005.844059.
Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in Henry Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
Church, Kenneth Ward; Hanks, Patrick. Word association norms, mutual information, and lexicography (PDF). Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989. ^{[永久失效連結]}
Guiasu, Silviu. Information Theory with Applications. McGraw-Hill, New York. 1977. ISBN 978-0070251090.
Li, Ming; Paul M.B. Vitan´ yi. An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. February 1997. ISBN 0-387-94868-6.
Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1–10.
David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online)
Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Witten, Ian H. & Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam. 2005 [2015-04-02]. ISBN 978-0-12-374856-0. （原始內容存檔於2020-11-27）.
Peng, H.C., Long, F., and Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (8): 1226–1238 [2015-04-02]. doi:10.1109/tpami.2005.159. （原始內容存檔於2009-05-22）.
Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008, 77 (1). arXiv:0707.3642  .
Wells, W.M. III; Viola; P.; Atsumi; H.; Nakajima; S.; Kikinis; R. Multi-modal volume registration by maximization of mutual information (PDF). Medical Image Analysis. 1996, 1 (1): 35–51 [2015-04-02]. PMID 9873920. doi:10.1016/S1361-8415(01)80004-9. （原始內容 (PDF)存檔於2008-09-06）.

[1] Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418.

[1]