微分熵消息理论中的一个概念,是从以离散随机变数所计算出的夏农熵推广,以连续型随机变数计算所得之,微分熵与离散随机变数所计算出之夏农熵,皆可代表描述一信息所需码长的下界,然而,微分熵与夏农熵仍存在著某些相异的性质。

定义

 为一连续型随机变数,其机率密度函数 ,其中 支撑集 。微分熵 :

 

与夏农熵为类比,计算夏农熵之算式中的 通常以2为底,而微分熵为计算方便,常以 计算后再转换为 的结果。微分熵与夏农熵最大的不同点在于 可为大于1的数值,此时可能会造成 为负值,而夏农熵 恒不为负。

例如, 均匀分布 

       

  

相关计算

  之联合机率密度函数,其条件熵为:

 

又称KL散度Kullback–Leibler divergence),两机率密度函数f、g的相对熵定义为:

 

两连续型随机变数的联合机率密度函数为 ,其互信息:

 

广义而言,我们可以将互信息定义在有限多个连续随机变数值域的划分。 可参考连续互信息的量化

性质

相对熵恒正

与夏农相对熵性质相同,恒正。

 

  (延森不等式)

 

链式法则

一次观测所有随机变数所测得的联合熵,与个别接收随机变数后计算的条件熵总和相同,即观测顺序与间隔不影响微分熵。

 

平移

随机变数的平移不影响微分熵,因为固定的平移不会增加随机变数的方差。

 

缩放

将随机变数缩放会增加其方差,微分熵亦会随之增加。

 

上界

期望值为0,方差为 且值域为 之随机变数 的微分熵,其上界为常态分布 的微分熵。

 

估计误差

随机变数 与其估计子 之均方误差存在下界,当 为常态分布且 无偏估计子时,等号成立。

 

渐进等分性

离散随机变数的夏农熵中,独立同分布的随机变数序列,在渐进等分性(Asymptotic equipartition property)之下其机率质量函数 趋近于 

连续型随机变数之渐进等分性:

 

典型集

典型集(Typical set)定义如下

 , 

体积

集合包含于 , ,其体积(Volume) 定义如下:

 

典型集 的体积有以下性质:

1. 

2. 

证明

1.

 

可得:

 

 

 

 

 

2.

当n足够大时, 

因此:

 

 

 

 

量化

我们可以将机率密度函数量化后,以夏农熵来计算微分熵。首先将连续随机变数X以 分为数个区间,根据均值定理 满足:

 

量化后的随机变数 :

 

夏农熵为:

 

意即,当  

例子:

1.

对X做n位元量化 

 

上式表示,若我们想得到n位元精确度,则需要n-3个位元来表示。

2.

对X做n位元量化 

 

上式表示,若我们想得到n位元精确度,需要 个位元来表示。

最大熵

常态分布

随机变数  值域为 ,方差为  为任意分布, 为常态分布,机率密度函数分别为 

 

证明:

 

其中,

 

指数分布

随机变数  值域为 ,期望值为  为任意分布, 为指数分布,机率密度函数分别为 

 

证明:

 

其中,

 

参考文献

  • Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1