隨機森林爲什麼不會過度擬合?

勒克兒


過擬合、高方差的問題發生在機器學習算法被允許無用地探究非常複雜的假設空間,將抽樣誤差也進行擬合,最終得出帶有誤導性的複雜答案。

過擬合發生的原因通常有:

· 相對於訓練數據行數來說過多的自由參數

· Boosting的次數過多

· 神經網絡層數過多

· 樹的深度過大

· 在SGD類型的算法中迭代次數過多

事實上所有高度複雜的機器學習模型都有過擬合的傾向,但是題主的問題可以理解為為什麼在樹的數量增加時隨機森林不會過擬合。

隨機森林相比於單個決策樹不容易過擬合。過擬合的主要原因是模型學習了過多樣本中的隨機誤差,但是隨機森林隨機選擇樣本和特徵,並且將很多的隨機樹進行平均,從而將隨機誤差也進行了平均。

總的來說,集成方法可以大幅度地減小預測方差到近乎零從而提高整體的準確率。如果我們將單個隨機模型的期望泛化錯誤的方差定義為下圖:

因此,一個整體的期望泛化錯誤的方差可以寫為:

公式中的p(x)是基於來自兩個獨立的種子(seeds)的相同數據訓練出的隨機模型預測值的皮爾遜相關係數。如果我們增加隨機森林中決策樹的數量,反目M增大,並且當p(x)<1時整體的方差減小。因此整體的方差將會嚴格小於單個模型的方差。

簡單來說,增加整體中單個隨機模型的數量永遠不會增加泛化錯誤。


ICMLL實驗室


不是說不會過擬合,RF也會過擬合,只不過是訓練輪數相近的情況下,RF相對其它模型更不容易過擬合。

道理很簡單,直觀地說。每個基學習器學到的都是訓練集的子集。而"過擬合"通俗地來講就是擬合了整個訓練集的大部分數據。所以只訓練子集顯然更難做到擬合該子集以外的其它數據。


分享到:


相關文章: