機器學習之評估假設 & 模型選擇和交叉驗證集

機器學習之評估假設 & 模型選擇和交叉驗證集

評估假設

為了對假設函數進行過擬合檢驗,我們將數據分成測試集和訓練集。通常70%為訓練集,30%為測試集。

1.對於線性迴歸模型,我們利用測試集數據計算代價函數J,進行誤差計算

機器學習之評估假設 & 模型選擇和交叉驗證集

2.對於邏輯迴歸模型,我們可以使用代價函數J計算誤差,進行評估。

機器學習之評估假設 & 模型選擇和交叉驗證集

除此,我們也可以使用誤分類的比率進行計算誤差:

機器學習之評估假設 & 模型選擇和交叉驗證集

機器學習之評估假設 & 模型選擇和交叉驗證集

模型選擇和交叉驗證集

假設要在10個同次數的二項式模型之間進行選擇:

機器學習之評估假設 & 模型選擇和交叉驗證集

這裡d為H(X)的最高項次數

對於H(X)我們知道d越大,相對於訓練集,其效果越好,但其泛化能力也可能很弱,所以應該選擇一個泛化能力更強的模型。

在這裡,我們將數據分為訓練集,交叉驗證集,測試集,比例 6:2:2

  1. 使用訓練集訓練出10個模型
  2. 用10個模型分別對交叉驗證集計算得出交叉驗證集誤差(代價函數的值)
  3. 選取代價函數值最小的模型
  4. 用步驟三中選出的模型對測試集計算的出推廣誤差

Training Error:

機器學習之評估假設 & 模型選擇和交叉驗證集

Cross Validation Error:

機器學習之評估假設 & 模型選擇和交叉驗證集

Test Error:

機器學習之評估假設 & 模型選擇和交叉驗證集

歡迎關注小烏,小烏持續發力。

下一篇:機器學習之診斷偏差和方差


分享到:


相關文章: