機器學習之評估假設 & 模型選擇和交叉驗證集
評估假設
為了對假設函數進行過擬合檢驗,我們將數據分成測試集和訓練集。通常70%為訓練集,30%為測試集。
1.對於線性迴歸模型,我們利用測試集數據計算代價函數J,進行誤差計算。
2.對於邏輯迴歸模型,我們可以使用代價函數J計算誤差,進行評估。
除此,我們也可以使用誤分類的比率進行計算誤差:
模型選擇和交叉驗證集
假設要在10個同次數的二項式模型之間進行選擇:
這裡d為H(X)的最高項次數
對於H(X)我們知道d越大,相對於訓練集,其效果越好,但其泛化能力也可能很弱,所以應該選擇一個泛化能力更強的模型。
在這裡,我們將數據分為訓練集,交叉驗證集,測試集,比例 6:2:2
使用訓練集訓練出10個模型用10個模型分別對交叉驗證集計算得出交叉驗證集誤差(代價函數的值)選取代價函數值最小的模型用步驟三中選出的模型對測試集計算的出推廣誤差Training Error:
Cross Validation Error:
Test Error:
歡迎關注小烏,小烏持續發力。
下一篇:機器學習之診斷偏差和方差