統計距離

在統計學、概率論和資訊理論中,統計距離量化了兩個統計對象之間的距離。統計對象可以是兩個隨機變量,兩個概率分布或樣本,或者一個獨立樣本點和一個點群之間的距離,或者更加廣泛的樣本點。

統計距離很多情況下不是由度量誘導的,它們不一定是對稱的。一些統計距離也被稱為統計區別度(statistical divergence)。

專用術語

各種統計距離常常有許多名稱。有時名稱的相似性容易引起誤解,有時不同作者或不同時期一些術語的意義也不盡相同。常見的有統計偏差(deviation),區分度(discriminant),區別度(divergence),對比函數(contrast function),度量等。資訊理論中也稱為交叉熵(cross entropy),相對熵(relative entropy),discrimination information, information gain等。

度量距離

給定一個集合 X,,其上的度量距離是一個非負實值函數 d : X × XR 對任意的 X中的 x, y, z,這個函數滿足如下條件:

  1. d(x, y) ≥ 0     (非負性)
  2. d(x, y) = 0   if and only if   x = y    
  3. d(x, y) = d(y, x)     (對稱性)
  4. d(x, z) ≤ d(x, y) + d(y, z)     (次可加性 / 三角不等式).

廣義距離

許多統計距離不滿足度量距離的要求。不滿足正定性的常常被稱為偽度量,不滿足對稱性的通常被稱為準度量,不滿足三角不等式被稱為半度量。 只滿足上述(1)和(2)條件的統計距離被稱為區別度(divergence)。

例子

f-區別度:KL區別度(相對熵), Hellinger區別度,全變差距離;

仁義熵;

延森-香濃區別度。