统计距离

在统计学、概率论和信息论中,统计距离量化了两个统计对象之间的距离。统计对象可以是两个随机变量,两个概率分布或样本,或者一个独立样本点和一个点群之间的距离,或者更加广泛的样本点。

统计距离很多情况下不是由度量诱导的,它们不一定是对称的。一些统计距离也被称为统计区别度(statistical divergence)。

专用术语

各种统计距离常常有许多名称。有时名称的相似性容易引起误解,有时不同作者或不同时期一些术语的意义也不尽相同。常见的有统计偏差(deviation),区分度(discriminant),区别度(divergence),对比函数(contrast function),度量等。信息论中也称为交叉熵(cross entropy),相对熵(relative entropy),discrimination information, information gain等。

度量距离

给定一个集合 X,,其上的度量距离是一个非负实值函数 d : X × XR 对任意的 X中的 x, y, z,这个函数满足如下条件:

  1. d(x, y) ≥ 0     (非负性)
  2. d(x, y) = 0   if and only if   x = y    
  3. d(x, y) = d(y, x)     (对称性)
  4. d(x, z) ≤ d(x, y) + d(y, z)     (次可加性 / 三角不等式).

广义距离

许多统计距离不满足度量距离的要求。不满足正定性的常常被称为伪度量,不满足对称性的通常被称为准度量,不满足三角不等式被称为半度量。 只满足上述(1)和(2)条件的统计距离被称为区别度(divergence)。

例子

f-区别度:KL区别度(相对熵), Hellinger区别度,全变差距离;

仁义熵;

延森-香浓区别度。