01.06 機器學習入門:一文讓你快速瞭解機器學習

機器學習是人工智能(AI)研究和應用的一個分支,它是一門“古老”又“新興”的計算機科學技術。早在1950年,圖靈在發表的論文《計算及其與智能》中提出了“圖靈測試”,用來判斷機器是否具備人工智能的標準。

機器學習入門:一文讓你快速瞭解機器學習

圖靈測試:“如果通過問答這種方式,我們已經無法區分對話那端到底是機器還是人類,那麼就可以說這樣的機器已經具備人工智能”

機器學習發展歷程

從20世紀50年代開始,人工智能進入“推理期”,該階段通過賦予機器邏輯推理能力使機器獲得智能,當時的AI程序能夠證明一些著名的數學定理,但由於機器缺乏知識,遠不能實現真正的智能。因此,70年代,人工智能進入了“知識期”,該階段主要是總結人類的知識,並將知識灌入機器,從而使機器獲得智能。在這一階段,大量的專家系統問世,在許多領域取得很大的成果,但是由於人類的知識量巨大,故出現了“知識工程瓶頸”。 無論是“推理期”還是“知識期”,機器都是按照人類設定的規則和總結的知識運作,永遠無法超越其創造者,另外人力資源成本太高,不適合人工智能的進一步發展。

機器學習入門:一文讓你快速瞭解機器學習

需要轉換思路進行探索,這個思路就是“機器學習(Machine Learning)”,至此人工智能進入“機器學習時期”。“機器學習時期”也分為三個階段:

  1. 80年代,連接主義較為流行,代表工作有感知機(Perceptron)和神經網絡(Neural Network)。
  2. 90年代,統計學習方法開始佔據主流舞臺,代表性方法有支持向量機(Support Vector Machine)
  3. 進入21世紀,深度神經網絡被提出,連接主義捲土從來,隨著數據量和計算能力的不斷提升,以深度學習(Deep Learning)為基礎的諸多AI應用逐漸成熟。

機器學習系統特點

從機器學習的各個階段來看,我們可以總結出機器學習系統具備如下特點

  • ① 機器學習系統所解決的都是無法直接使用固定規則或流程代碼完成的問題,通常這些問題都是人類很輕易都能做到的;
  • ② 具備“學習”能力的程序都是指它能夠不斷地從歷史數據中吸取教訓,從而應對未來的預測任務。
  • ③ 機器學習系統具備不斷改善自身應對具體任務的能力。
機器學習入門:一文讓你快速瞭解機器學習

機器學習的經典定義來自於美國卡內基梅隆大學的著名教授Tom Mitchell,定義如下:

如果一個程序在使用既有經驗(E)執行某類任務(T)的過程中被認定是“具備學習能力的”,那麼它一定需要展現出:利用現有經驗(E),不斷改善其完成既定任務(T)的性能(P)的特質。 

下面重點介紹一下機器學習三要素:任務(T)、經驗(E)、性能(P)

機器學習任務(T)

機器學習的任務分類有三種,分別是監督學習、無監督學習 和半監督學習,其中半監督學習可以理解為部分監督 和 部分無監督的學習,本文將重點介紹前兩種。

機器學習入門:一文讓你快速瞭解機器學習

監督學習

監督學習主要關注對事物未知表現的預測,一般分為分類問題(classification) 和 迴歸問題(regression)。

分類問題:是對其所在的類別進行預測。類別是離散的,同時預先知道數量的。比如:通過身高、體重、三圍、穿衣情況 預測這個人的性別。
迴歸問題:同樣是預測問題,只是預測的目標是連續的變量。例如:通過性別、體重、身高、年齡 預測基礎代謝率(BMR)。

無監督學習

無監督學習傾向於對事物本身特性的分析,常用的技術包括數據降維(dimensionality Reduction) 和 聚類問題(clustering)等。

數據降維:是對事物的特徵進行壓縮和篩選,比如人臉識別任務中,我們通常會使用降維技術對圖像進行降維,保留最具有區分度的像素組合。
聚類:依賴於數據的相似性,把相似的數據劃分為一類。但大多數情況下,我們不知道類的個數及類的含義。比如根據股票的價格、成交量等進行聚類,看看是否統計出相似的股票集群。

機器學習經驗(E)

機器學習經驗就是我們所說的數據。並不是所有的信息對學習任務都有用,通常把這些反映數據內在規律的信息叫做特徵(Feature)。比如 人臉圖識別任務並不是把圖像最原始的像素信息直接交給學習系統,而是通過降維和其他數據處理方法得到更加有利特徵。

機器學習入門:一文讓你快速瞭解機器學習

監督學習數據

監督學習使用的數據,包括特徵和目標(Label/Target)兩個部分。我們一般用一個特徵向量(Feature Vector)來描述一個數據樣本,目標的表現形式則取決於監督學習的種類。

無監督學習數據

無監督學習使用的數據沒有目標,因此也無法從事預測任務,因此只能對數據結構進行分析。正是因為無監督數據的沒有目標,所以不用耗費大量的時間、金錢和人力,所以數據量相對較多。

另外,除了目標的表現形式存在離散、連續變量的區別,從原始數據到特徵向量轉化的過程中也會遇到多種數據類型:類別型(Categorical)特徵、數值型(Numerical)特徵,甚至是缺失的數據(Missing Value)等。實際操作過程中,我們都需要把這些特徵轉化為具體的數值參與運算。

機器學習性能(P)

機器學習性能是評價所完成任務質量的指標。為了評價學習模型完成任務的質量,需要將模型的預測結果同正確答案進行對比。我們稱這樣的數據集為測試集。

另外出現在測試集中的數據樣本一定不能被用於模型訓練,否則會出現過擬合現象。簡而言之,訓練集與測試集之間應該是彼此互斥的。

機器學習入門:一文讓你快速瞭解機器學習

對待預測性質的問題,需要關注預測的精準度。分類問題,我們要根據預測正確類別的百分比來評價其性能,這個指標通常被稱作準確性(Accuracy);而回歸問題則無法使用類似的指標,通常會衡量預測值與實際值之間的偏差大小來進行判斷。

好了,看到這裡大家是否瞭解機器學習具體是什麼,要做什麼什麼事情呢?如有疑問,歡迎大家留言!


分享到:


相關文章: