機器學習入門-統計學習理論-day1

什麼是統計學習?

統計學習是計算機基於數據構建概率統計模型,來對數據進行預測和分析的學考,一般目前應用於機器學習中

統計學習的特點是什麼?

統計學習的特點一般有以下5個

  1. 基於計算機的科學
  2. 研究對象:數據,是數據驅動的學科。從數據出發,提取數據特徵,抽象數據模型,發現數據知識,回到數據的分析和預測中去。
  3. 研究目的:對數據進行預測和分析。通過構建概率統計模型實現數據的預測和分析,總的目標是考慮學習什麼樣的模型和如何學習模型。以使模型能夠對數據進行準確地預測和分析
  4. 研究核心:學習方法,通過構建模型並應用模型來進行預測和分析

基於數據構建統計模型,從而對數據進行預測分析,一般由四種方法組成,監督學習,非監督學習,半監督學習和強化學習

統計學習的方法

監督學習:輸入與輸出有唯一確定的關係

非監督學習:輸入與輸出沒有確定關係,需要模型自己判斷哪些輸入輸入要歸到哪一類

半監督學習:部分的輸入與輸出有確定關係,但大部分的輸入與輸出沒有確定關係

強化學習:輸入與輸出沒有確定關係的情況下,通過先嚐試做出一些行為得到一個結果,再通過結果不斷優化調整,使算法能夠學習到在什麼樣的情況下,選擇什麼樣的結果

實現統計學習的步驟


機器學習入門-統計學習理論-day1

監督學習

1、分類,標註與迴歸

監督學習中主要包括用於分類,標註和迴歸的問題,其中分類,標註和迴歸分別表示

迴歸:輸入變量與輸出變量均為連續變量的預測問題

標註:輸入變量與輸出變量均為變量序列的預測問題

分類:輸出變量為有限個離散變量的預測問題

2、基本概念

輸入和輸出空間:將輸入和輸出所有可能取值的集合,分別稱為輸入控件和輸出空間

特徵空間:輸入通常由特徵向量表示,特徵向量所在的空間為特徵空間,通常特徵空間的每一維表示一個特徵

假設空間:模型由輸入到輸出空間映射的集合,一般分為概率模型和非概率模型

表示:

X:輸入變量

Y:輸出變量

x:輸入變量的值

y:輸出變量的值

3、監督學習的形式化表現


機器學習入門-統計學習理論-day1

學習過程中,學習系統試圖通過訓練數據集中的樣本來學習模型,如果模型具有很好的預測能力,則對於新的輸入,通過預測系統的模型,可以得到和真實值誤差足夠小,以實現預測

4、統計學習的三要素

統計學習的三要素:模型,策略和算法

  • 模型:在監督學習過程中,模型就是所要學習的條件概率分佈或決策函數
  • 策略:按照什麼樣的準則學習或選擇最優模型
  • 算法:學習模型的具體計算方法

在策略中,我們需要引入兩個函數:損失函數和風險函數

(a)損失函數:損失函數:度量模型一次預測的好壞

常用的損失函數

機器學習入門-統計學習理論-day1

(b)風險函數:度量平均意義下模型預測的好壞

機器學習入門-統計學習理論-day1


後續不定期補充機器學習相關文章~


分享到:


相關文章: