離散程度

在統計學裡,離散程度(英語:statistical dispersion,scatter,spread)或離散度,又稱統計變異性(statistical variability)[1],簡稱 變異變差(variation)、變率,是指一個分布隨機變數的拉伸或壓縮程度[2]習慣上,「離散」常用來描述數據分布[3],而「變異」(指:變異數、方差)更常用來描述隨機變數的變異程度[4][需要解釋]用以描述離散程度或變異的量主要有變異數標準差變異係數四分位距等。

離散程度與集中趨勢相對,因此,離散度就是指各個變量值與集中趨勢的偏離程度。

衡量

衡量離散程度的值,通常是非負實數:當衡量值取零時,表示分布集中在同一個值上;隨著衡量值的增加,隨機變數的取值越來越分散。

部分描述離散程度的量是帶單位的,並且,這些量的單位與隨機變數本身的單位相同。也就是說,如果隨機變數的單位是公尺或秒,則這些量的單位也是公尺或秒。這些量舉例如下:

此外,也有一些無因次量

另外,還有一些帶單位的量,但是他們的單位和隨機變數本身的單位不同:

可解釋性

變差的可解釋性,通常是對於一個隨機變數而言的。當觀測到隨機變數的一些取值(例如訓練集中的標籤可視作是一個隨機變數的一些觀測值),需要推斷隨機變數服從的分布時,就會遇到這個問題。一般而言,推斷有限觀測值的隨機變數服從的分布的過程,即是建立模型的過程。

假設有隨機變數 及其服從的真實分布 。則對於該隨機變數的觀測值,可計算其變差(以變異數表示) ;對於分布,亦可計算其變差 。則 是相對該隨機變數的可解釋變異(英語:explainable variation),其餘的部分則是不可解釋變異(英語:unexplainable variation)。為了衡量不可解釋變異,可引入不可解釋變異分數(英語:fraction of unexplainable variation) 。不可解釋變異亦稱為統計雜訊

假設 是模型給出的隨機變數的分布。則對於該預測分布,我們可以計算器變異(以變異數表示) 。則 是該模型相對該隨機變數的已解釋變異(英語:explained variation),其餘部分則是未解釋變異(英語:unexplained variation)。同樣,為了衡量未解釋變異,可引入未解釋變異分數(英語:fraction of unexplained variation) 

參考資料

  1. ^ 賀睿傑. 統計活動視角下的高中生統計學習研究[D]. 華東師範大學, 2020.
  2. ^ NIST/SEMATECH e-Handbook of Statistical Methods. 1.3.6.4. Location and Scale Parameters. www.itl.nist.gov. U.S. Department of Commerce. [2022-11-14]. (原始內容存檔於2022-11-14). 
  3. ^ 米小琴. 统计计算与分析. 清華大學出版社有限公司. 2004: 68–75. ISBN 9787302064343. 
  4. ^ 安德森. 王峰 , 編. 商务与经济统计. 中信出版社. 2003: 202. ISBN 9787800738753.