改進機器學習模型的兩個重要概念

改進機器學習模型的兩個重要概念

> Photo by Kristina Tripkovic on Unsplash

瞭解偏差和方差如何提高模型的準確性

如果您不瞭解自己在做對還是做錯,那麼訓練任何新模型都會很困難。 大多數時候,模型是黑匣子,它們吸收數據並吐出精度數字。 瞭解模型為什麼表現不佳是瞭解如何改進模型的關鍵。

· 通過識別偏差和方差來了解模型為何表現不佳。

· 瞭解如何通過減少偏差和方差來改善模型。

識別偏差和方差

讓我們從談論錯誤開始。 錯誤是模型在測試數據上的不準確程度。

改進機器學習模型的兩個重要概念

如果您的模型在測試集上達到86%的準確性,則存在14%的誤差。 這種誤差有些是偏差,有些是方差。

改進機器學習模型的兩個重要概念

上圖有兩點:1。 偏差是訓練set2的錯誤。 差異是訓練和測試準確性之間的差距

偏差

偏差描述了模型從訓練數據中學習的能力。 較大的偏差意味著該模型很難從訓練數據中學習。 如果模型對訓練數據的準確性為90%,則模型的偏差為10%。 這種偏見中的一些是可以避免的,而某些則不是。

改進機器學習模型的兩個重要概念

改進機器學習模型的兩個重要概念

不可避免的偏見

不可避免的偏差被稱為最佳錯誤率。 這是模型性能的上限。 它認識到某些任務,例如字幕或庫存預測,即使對於人類,也無法100%準確地預測。 因此,我們可以期望,即使在一個完美的世界中,我們的模型至少在某些時候是錯誤的。

如果您確定模型至少有4%的時間是錯誤的,則模型會有4%的不可避免的偏差。

可以避免的偏差是最佳錯誤率和訓練錯誤之間的差異。 這是我們可以嘗試減少以實現最佳錯誤率的錯誤。

改進機器學習模型的兩個重要概念

方差

方差描述了您的模型可以很好地推廣到尚未看到的數據的能力。 我們將方差定義為訓練準確性和測試準確性之間的差異。

改進機器學習模型的兩個重要概念

改進機器學習模型的兩個重要概念

偏差與方差的權衡

用於減少偏差或方差的大多數方法都會以一種為代價來減少一種。 有一些例外,但是大多數時候建立最佳模型意味著將偏差和方差最小化。

改進機器學習模型的兩個重要概念

減少偏差和方差

改進機器學習模型的兩個重要概念

減少可避免的偏差

· 增加模型大小增加模型大小是減少可避免的偏差的一種方法。模型越大,調整的參數越多。 更多參數使模型可以學習更復雜的關係。 您可以通過向模型添加更多的層或節點來增加模型的大小。 模型從數據中學習得越好,它越接近最佳錯誤率。

改進機器學習模型的兩個重要概念

· 減少規則減少模型的規則可以使模型更好地擬合訓練數據。 但是,較少的正則化意味著您的模型也不會一概而論,從而增加了方差。 這是偏置與方差權衡的經典示例。

改進機器學習模型的兩個重要概念

· 更改模型的體系結構更改模型的體系結構可以幫助其更好地適應數據集。 這類似於增加模型的大小,但具有更大的自由度。 您可以更改以下任何內容以及更多內容,但要謹慎行事。

· 這些技術可以改變偏差和方差1。 圖層激活功能(tanh,relu,Sigmoid等)2。 該模型正在學習什麼(ANN,CNN,RNN,KNN等)3。 模型的學習方式(Adam,SGD,RMSprop等)4。 更改其他超參數(學習率,圖像大小等)

改進機器學習模型的兩個重要概念

· 添加新功能向訓練數據添加新功能可以為模型提供更多信息,以供其學習。 這可以通過稱為功能工程的過程來完成。 在此過程中,您還可以添加功能,以早日在開發中削減功能。

改進機器學習模型的兩個重要概念

減少差異Variance

· 添加更多數據添加數據是幾乎總是提高模型性能的最簡單方法。 在Andrej Karpathy的文章"數據的不合理有效性"中可以看到添加更多數據的效果。 這通常不會影響偏差,因此是減少差異的首選方法。

改進機器學習模型的兩個重要概念

· 增加正則化添加正則化可防止模型過度擬合數據。 儘管這減少了方差,但始終會增加偏差。 除了減少方差外,添加正則化還可以產生明顯的積極影響。 我最喜歡的是使用輟學實現蒙特卡洛輟學。

改進機器學習模型的兩個重要概念

· 減小模型大小減小模型大小將有助於減少訓練數據的過擬合。 儘管這項技術最簡單,但會降低模型學習數據集複雜模式的能力。 通過添加正則化通常可以看到相同的結果,因此該方法更為可取。

改進機器學習模型的兩個重要概念

· 特徵選擇通過刪除不需要的特徵來減少數據集的維數是減少模型差異的一種好方法。 您可以使用主成分分析(PCA)過濾出要素或將它們組合為幾個主要成分。

改進機器學習模型的兩個重要概念

全貌

將所有因素放在一起後,您應該能夠識別偏差和方差並知道如何減少偏差和方差。

改進機器學習模型的兩個重要概念

摘要備忘單

減少偏見Bias

· 增加模型尺寸

· 減少正則化

· 變更模型架構

· 新增特徵

減少差異Variance

· 添加更多數據

· 縮小模型尺寸

· 添加正則化

· 特徵選擇

資源資源

所有這些概念以及更多概念都在Andrew Ng的《機器學習渴望》一書中介紹。 它是免費閱讀,打印和分發的。 我強烈建議您檢查一下。

所有的圖表都是由作者創建的:

Mikian Musser-中

閱讀Mikian Musser在Medium上的文章。 數據科學家https://mm909.github.io/Mikian/。 每天,Mikian Musser和……

(本文翻譯自Mikian Musser的文章《Two Important Machine Learning Concepts to Improve Every Model》,參考:https://towardsdatascience.com/two-important-machine-learning-concepts-to-improve-every-model-62fd058916b)


分享到:


相關文章: