正則化 (數學)

數學計算機科學中,尤其是在機器學習逆問題領域中,正則化(英語:regularization)是指為解決適定性問題過擬合而加入額外信息的過程。[1]

在機器學習和逆問題的優化過程中,正則項往往被加在目標函數當中。

概述

概括來講,機器學習的訓練過程,就是要找到一個足夠好的函數 用以在新的數據上進行推理[2]為了定義什麼是「好」,人們引入了損失函數的概念。一般地,對於樣本 和模型 ,有預測值 。損失函數是定義在 上的二元函數 ,用來描述基準真相和模型預測值之間的差距。一般來說,損失函數是一個有下確界的函數;當基準真相和模型預測值足夠接近,損失函數的值也會接近該下確界。

因此,機器學習的訓練過程可以被轉化為訓練集 上的最小化問題。我們的目標是在泛函空間內,找到使得全局損失 最小的模型 

 

由於損失函數隻考慮在訓練集上的經驗風險,這種做法可能會導致過擬合。為了對抗過擬合,我們需要向損失函數中加入描述模型複雜程度的正則項 ,將經驗風險最小化問題轉化為結構風險最小化。

 

這裡, 稱為目標函數,它描述模型的結構風險 是訓練集上的損失函數; 是正則項,描述模型的複雜程度; 是用於控制正則項重要程度的參數。正則項通常包括對光滑度向量空間範數上界的限制。[3] -範數是一種常見的正則項。

貝葉斯學派的觀點英語Bayesian_interpretation_of_kernel_regularization看來,正則項是在模型訓練過程中引入了某種模型參數的先驗分布。

Lp正則項

所謂範數即是抽象之長度,通常意義上滿足長度的三種性質:非負性齊次性三角不等式

以函數的觀點來看,範數是定義在 的函數;並且它和損失函數類似,也具有下確界。後一性質是由範數的非負性和齊次性保證的[4]。這一特性使得 -範數天然適合做正則項,因為目標函數仍可用梯度下降等方式求解最優化問題。 -範數作為正則項時被稱為 -正則項。

L0和L1正則項

機器學習模型當中的參數,可形式化地組成參數向量,記為 。不失一般性,以線性模型為例:

 

由於訓練集當中統計噪聲的存在,冗餘的特徵可能成為過擬合的一種來源。這是因為,對於統計噪聲,模型無法從有效特徵當中提取信息進行擬合,故而會轉向冗餘特徵。為了對抗此類過擬合現象,人們會希望讓儘可能多的 為零。為此,最直觀地,可以引入 -正則項

 

通過引入 -正則項,人們實際上是向優化過程引入了一種懲罰機制:當優化算法希望增加模型複雜度(此處特指將原來為零的參數 更新為非零的情形)以降低模型的經驗風險(即降低全局損失)時,在結構風險上進行大小為 的懲罰。於是,當增加模型複雜度在經驗風險上的收益不足 時,整個結構風險實際上會增大而非減小。因此優化算法會拒絕此類更新。

引入 -正則項可使模型參數稀疏化,以及使得模型易於解釋。但 -正則項也有無法避免的問題:非連續、非凸、不可微。因此,在引入 -正則項的目標函數上做最優化求解,是一個無法在多項式時間內完成的問題。於是,人們轉而考慮 -範數的最緊凸放鬆—— -範數,令

 

和引入 -正則項的情況類似,引入 -正則項是在結構風險上進行大小為 的懲罰,以達到稀疏化的目的。

 -正則項亦稱LASSO-正則項。[5][6]

L2正則項

 
圖中左側是訓練集,右側是驗證集。訓練集和驗證集數據均是由線性函數加上一定的隨機擾動生成的。圖中橙色直線是以線性模型擬合訓練集數據得到模型的函數曲線;綠色虛線則是以15-階多項式模型擬合訓練數據得到模型的函數曲線。由此可見,儘管多項式模型在訓練集上的誤差小於線性模型,但在驗證集上的誤差則顯著大於線性模型。此外,多項式模型為了擬合噪聲點,在噪聲點附近進行了高曲率的彎折。這說明多項式模型過擬合了訓練集數據。

在發生過擬合時,模型的函數曲線往往會發生劇烈的彎折,這意味着模型函數在局部的切線之斜率非常高。一般地,函數的曲率是函數參數的線性組合或非線性組合。為了對抗此類過擬合,人們會希望使得這些參數的值相對稠密且均勻地集中在零附近。於是,人們引入了 -範數,作為 -正則項。令

 

於是有目標函數

 

於是對於參數 取偏微分

 

因此,在梯度下降時,參數 的更新

 

注意到 通常是介於 之間的數[7] -正則項會使得參數接近零,從而對抗過擬合。

 -正則項又稱Tikhonov-正則項或Ridge-正則項。

提前停止

提前停止可看做是時間維度上的正則化。直覺上,隨着迭代次數的增加,如梯度下降這樣的訓練算法傾向於學習愈加複雜的模型。在時間維度上進行正則化有助於控制模型複雜度,提升泛化能力。在實踐中,提前停止一般是在訓練集上進行訓練,而後在統計上獨立的驗證集上進行評估;當模型在驗證集上的性能不再提升時,就提前停止訓練。最後,可在測試集上對模型性能做最後測試。

參考文獻

  1. ^ Bühlmann, Peter; Van De Geer, Sara. Statistics for High-Dimensional Data. Springer Series in Statistics: 9. 2011. ISBN 978-3-642-20191-2. doi:10.1007/978-3-642-20192-9. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary. 
  2. ^ Ron Kohavi; Foster Provost. Glossary of terms. Machine Learning. 1998, 30: 271–274 [2019-12-10]. (原始內容存檔於2019-11-11). 
  3. ^ Bishop, Christopher M. Pattern recognition and machine learning Corr. printing. New York: Springer. 2007. ISBN 978-0387310732. 
  4. ^ 範數的非負性保證了範數有下界。當齊次性等式 中的 取零時可知,零向量的範數是零,這保證了範數有下確界。
  5. ^ Santosa, Fadil; Symes, William W. Linear inversion of band-limited reflection seismograms.. SIAM Journal on Scientific and Statistical Computing (SIAM). 1986, 7 (4): 1307–1330. doi:10.1137/0907087. 
  6. ^ Tibshirani, Robert. Regression Shrinkage and Selection via the lasso. Journal of the Royal Statistical Society. Series B (methodological) (Wiley). 1996, 58 (1): 267–88. JSTOR 2346178. 
  7. ^ 可通過恰當地調整學習率 與正則係數 來滿足這一點。

外部連結