統計機器學習是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科。統計機器學習通過對已知數據構建模型,從而完成對未知的數據進行預測和分析,預測和分析這種行為可以使得計算機看起來很智能,這就是
人工智能的一種體現。統計機器學習的總目標就是考慮學什麼樣的模型和如何學習模型,以使得模型能夠對未知數據進行準確的預測和分析。統計機器學習方法的三要素就是:模型、策略和算法。模型
統計學習首要考慮的問題是學習什麼樣的模型。在監督學習過程中,模型就是所要學習的條件概率分佈或決策函數。
數據構成假設空間,在這個假設空間中包含所有可能的條件概率分佈或者決策函數,每一個條件概率分佈或者決策函數對應一個模型,那麼這個樣本空間中的模型個數有無數個。
怎樣理解模型呢?簡單來說就是使用什麼映射函數來表示特徵X和Y標籤之間的關係F,F有兩種形式:F={f|y=f(x)}或者F={P|P(Y|X)}
F={f|y=f(x)}為決策函數,它表示的模型為非概率模型。F={P|P(Y|X)}是條件概率表示,它的模型為概率模型。
策略
策略即從假設空間中挑選出參數最優的模型的準則。模型的分類或預測結果與實際情況的誤差(損失函數)越小,模型就越好。
我們前面已經知道在樣本空間中有無數的模型,但模型有好有壞,現在的問題考慮的是按照什麼樣的準則學習或者選擇最優模型,而策略就是通過引入損失函數的方式來度量模型的好壞。
設定損失函數,這樣監督學習問題就變成了最小化損失函數,那麼按照這樣的策略,就可以求解出最優化的模型了。
算法
算法是指學習模型的具體計算方法,也就是如何求解全局最優解,並使得這個過程高效而且準確,本質上就是計算機算法,怎麼去求數學問題的最優化解。
前面我們知道了模型有無數種,獲取最好模型的方法就是最小化損失函數,那麼此時的模型就是最好的,現在的問題就是如何才能獲取到這個最優化的解呢?是正規方程還是梯度下降等等。
總結
統計機器學習基於訓練數據集,根據學習策略,從假設空間中選擇最優模型、最後需要考慮用什麼樣的計算方法求解最優模型,所以我們可以認為統計機器學習都是由模型、策略和算法構成的。統計學習方法之間的不同,主要來自其模型、策略、算法的不同。確定了模型、策略、算法,統計學習的方法也就確定了。
閱讀更多 幻風的AI之路 的文章