信息论中,条件熵描述了在已知第二个随机变量 的值的前提下,随机变量 的资讯熵还有多少。同其它的资讯熵一样,条件熵也用Sh、nat、Hart等资讯单位表示。基于 条件的 的资讯熵,用 表示。

定义

如果   为变量   在变量   取特定值   条件下的熵,那么   就是    取遍所有可能的   后取平均的结果。

给定随机变量   ,定义域分别为   ,在给定   条件下   的条件熵定义为:[1]

 

注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。

当且仅当   的值完全由   确定时, 。相反,当且仅当   独立随机变量 

链式法则

假设两个随机变量 XY 确定的组合系统的联合熵 ,即我们需要   bit的资讯来描述它的确切状态。 现在,若我们先学习   的值,我们得到了   bits的资讯。 一旦知道了  ,我们只需   bits来描述整个系统的状态。 这个量正是  ,它给出了条件熵的链式法则

 

链式法则接着上面条件熵的定义:

 

贝叶斯规则

条件熵的贝叶斯规则英语Bayes' rule表述为

 

证明.   and  。对称性意味着  。将两式相减即为贝叶斯规则。

推广到量子理论

量子资讯论中,条件熵都概括为量子条件熵

参考文献

  1. ^ Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6.