什麼是統計學習?
統計學習是計算機基於數據構建概率統計模型,來對數據進行預測和分析的學考,一般目前應用於機器學習中
統計學習的特點是什麼?
統計學習的特點一般有以下5個
- 基於計算機的科學
- 研究對象:數據,是數據驅動的學科。從數據出發,提取數據特徵,抽象數據模型,發現數據知識,回到數據的分析和預測中去。
- 研究目的:對數據進行預測和分析。通過構建概率統計模型實現數據的預測和分析,總的目標是考慮學習什麼樣的模型和如何學習模型。以使模型能夠對數據進行準確地預測和分析
- 研究核心:學習方法,通過構建模型並應用模型來進行預測和分析
基於數據構建統計模型,從而對數據進行預測分析,一般由四種方法組成,監督學習,非監督學習,半監督學習和強化學習
統計學習的方法
監督學習:輸入與輸出有唯一確定的關係
非監督學習:輸入與輸出沒有確定關係,需要模型自己判斷哪些輸入輸入要歸到哪一類
半監督學習:部分的輸入與輸出有確定關係,但大部分的輸入與輸出沒有確定關係
強化學習:輸入與輸出沒有確定關係的情況下,通過先嚐試做出一些行為得到一個結果,再通過結果不斷優化調整,使算法能夠學習到在什麼樣的情況下,選擇什麼樣的結果
實現統計學習的步驟
監督學習
1、分類,標註與迴歸
監督學習中主要包括用於分類,標註和迴歸的問題,其中分類,標註和迴歸分別表示
迴歸:輸入變量與輸出變量均為連續變量的預測問題
標註:輸入變量與輸出變量均為變量序列的預測問題
分類:輸出變量為有限個離散變量的預測問題
2、基本概念
輸入和輸出空間:將輸入和輸出所有可能取值的集合,分別稱為輸入控件和輸出空間
特徵空間:輸入通常由特徵向量表示,特徵向量所在的空間為特徵空間,通常特徵空間的每一維表示一個特徵
假設空間:模型由輸入到輸出空間映射的集合,一般分為概率模型和非概率模型
表示:
X:輸入變量
Y:輸出變量
x:輸入變量的值
y:輸出變量的值
3、監督學習的形式化表現
學習過程中,學習系統試圖通過訓練數據集中的樣本來學習模型,如果模型具有很好的預測能力,則對於新的輸入,通過預測系統的模型,可以得到和真實值誤差足夠小,以實現預測
4、統計學習的三要素
統計學習的三要素:模型,策略和算法
- 模型:在監督學習過程中,模型就是所要學習的條件概率分佈或決策函數
- 策略:按照什麼樣的準則學習或選擇最優模型
- 算法:學習模型的具體計算方法
在策略中,我們需要引入兩個函數:損失函數和風險函數
(a)損失函數:損失函數:度量模型一次預測的好壞
常用的損失函數
(b)風險函數:度量平均意義下模型預測的好壞
後續不定期補充機器學習相關文章~
閱讀更多 努力呀coco 的文章