信息論中,條件熵描述了在已知第二個隨機變量 的值的前提下,隨機變量 的信息熵還有多少。同其它的信息熵一樣,條件熵也用Sh、nat、Hart等信息單位表示。基於 條件的 的信息熵,用 表示。

定義

如果   爲變數   在變數   取特定值   條件下的熵,那麼   就是    取遍所有可能的   後取平均的結果。

給定隨機變量   ,定義域分別爲   ,在給定   條件下   的條件熵定義爲:[1]

 

注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。

當且僅當   的值完全由   確定時, 。相反,當且僅當   獨立隨機變數 

鏈式法則

假設兩個隨機變數 XY 確定的組合系統的聯合熵 ,即我們需要   bit的信息來描述它的確切狀態。 現在,若我們先學習   的值,我們得到了   bits的信息。 一旦知道了  ,我們只需   bits來描述整個系統的狀態。 這個量正是  ,它給出了條件熵的鏈式法則

 

鏈式法則接著上面條件熵的定義:

 

貝葉斯規則

條件熵的貝葉斯規則英語Bayes' rule表述爲

 

證明.   and  。對稱性意味著  。將兩式相減即爲貝葉斯規則。

推廣到量子理論

量子信息論中,條件熵都概括為量子條件熵

參考文獻

  1. ^ Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6.