归纳偏置

歸納偏置（英語：Inductive bias），指的是學習演算法中，當學習器去預測其未遇到過的輸入結果時，所做的一些假設的集合（Mitchell, 1980）。

機器學習試圖去建造一個可以學習的演算法，用來預測某個目標的結果。要達到此目的，要給於學習演算法一些訓練样本，样本說明輸入與輸出之間的預期關係。然后假设學習器在预测中逼近正确的结果，其中包括在訓練中未出現的样本。既然未知状况可以是任意的結果，若沒有其它額外的假設，這任務就無法解決。這種關於目標函數的必要假設就称为歸納偏置（Mitchell, 1980; desJardins and Gordon, 1995）。

一個典型的歸納偏置例子是奧卡姆剃刀，它假設最簡單而又一致的假设是最佳的。這裡的一致是指學習器的假设會對所有樣本產生正確的結果。

歸納偏置比較正式的定義是基於數學上的邏輯。這裡，歸納偏置是一個與訓練样本一起的邏輯式子，其邏輯上會蘊涵學習器所產生的假设。然而在实际应用中，這種嚴謹形式常常無法適用。在有些情况下，学习器的歸納偏置可能只是一個很粗糙的描述（如在人工神經網路中），甚至更加简单。

歸納偏置的種類

以下是機器學習中常見的歸納偏置列表：

最大條件獨立性（conditional independence）：如果假說能轉成貝葉斯模型架構，則試著使用最大化條件獨立性。這是用於朴素貝葉斯分類器（Naive Bayes classifier）的偏置。
最小交叉驗證误差：當試圖在假說中做選擇時，挑選那個具有最低交叉驗證误差的假說，雖然交叉驗證看起來可能無關偏置，但天下没有免费的午餐（英语：No free lunch in search and optimization）理論顯示交叉驗證已是偏置的。
最大邊界：當要在兩個類別間畫一道分界線時，試圖去最大化邊界的寬度。這是用於支持向量機的偏置。這個假設是不同的類別是由寬界線來區分。
最小描述長度（Minimum description length）：當构成一個假设時，試圖去最小化其假设的描述長度。假设越简单，越可能為真的。見奧卡姆剃刀。
最少特徵數（Minimum features）：除非有充分的證據顯示一個特徵是有效用的，否則它應当被刪除。這是特徵選择（feature selection）算法背後所使用的假設。
最近鄰居：假設在特徵空間（feature space）中一小區域內大部分的样本是同屬一類。給一個未知類別的样本，猜測它與它最緊接的大部分鄰居是同屬一類。這是用於最近鄰居法的偏置。這個假設是相近的样本應傾向同屬於一類別。

偏置变换

雖然大部分的學習演算法使用固定的偏置，但有些算法在获得更多数据時可以變換它們的偏置。這不會取消偏置，因為偏置变换的過程本身就是一種偏置。

另見

認知偏誤
天下没有免费的午餐（英语：No free lunch in search and optimization）

參考文獻

desJardins, M., and Gordon, D.F. (1995). Evaluation and selection of biases in machine learning （页面存档备份，存于互联网档案馆）. Machine Learning Journal, 5:1--17, 1995.

Mitchell, T.M. (1980). The need for biases in learning generalizations （页面存档备份，存于互联网档案馆）. CBM-TR 5-110, Rutgers University, New Brunswick, NJ.

Utgoff, P.E. (1984). Shift of bias for inductive concept learning. Doctoral dissertation, Department of Computer Science, Rutgers University, New Brunswick, NJ.