人工智能之機器學習（ML，machine Learning）淺談科技頭條網

人工智能在最近兩年大出風頭，無人駕駛汽車，阿爾法狗戰勝人類最強棋手，演唱會人臉識別抓捕逃犯，手機多國語言在線翻譯，這一切一切無不給我們帶來深深的震撼，可以說人工智能將在不久的未來引來巨大的爆發式增長，對我們每個人的生活帶來深刻的影響。

機器學習（ML，machine Learning）是人工智能的一個分支，是讓機器自己做主，而不是我們告訴計算機幹什麼它就幹什麼，我只告訴計算機，做成什麼樣子“自己看著辦”，計算機你自己需要能學會"察言觀色"，到時候給我滿意的解決方案就OK了。

最早的機器學習定義是Arthur Samuel，在50年代，他編寫了一個西洋棋程序，但Samuel卻並不是下西洋棋的高手，開始當然這個計算機程序的棋力很差，但這個計算機勤學苦練，從不偷懶，善於學習，於是計算機下著下著，不斷的積累經驗和吸取教訓，最後棋藝竟然超過了Samuel。Arthur Samuel認為，不要使用具體的代碼，使用一定的訓練數據，使用泛型編程，機器從訓練數據中可以學到贏棋的經驗，這就是一個機器學習的最初定義。比較嚴謹一點的機器學習是由卡內基梅隆大學的Tom Mitchell提出的，一個計算機程序從經驗E中學習，解決任務 T，達到性能P。那個下棋的例子中下很多盤棋就是經驗E，下棋就是任務T，P就是這個程序能夠贏棋的概率。再舉一個例子，我們都是有Email，我們打開Email後會發現除了收件箱之外還有一個垃圾郵件箱，我們打開垃圾郵件箱一看，啊，果然絕大多數都是垃圾郵件，我們很納悶，郵件服務器是怎麼知道那些是正常郵件那些是垃圾郵件？在這個例子中，郵件服務器學習那些是垃圾郵件那些是正常郵件是經驗E，把垃圾郵件放入垃圾收件箱是任務T，正確放入垃圾收件箱的概率是P。

有一種計算機算法叫分類算法，無需改動任何代碼，可以將輸入的不同數據分成不同的種類。如下圖所示，第一個算法是輸入不同的手寫阿拉伯字母，算法可以識別出來1、2、3...9，第二個算法輸入郵件信息，它可以分類出垃圾郵件和正常郵件。兩個看起起來完全不同的輸入，卻能完成相同的歸類功能。

機器學習主要有兩種，監督學習和非監督學習。監督學習就是督促計算機去學習，明確告訴它目標是什麼，非監督學習是讓計算機“自學成才”，沒有設定目標，學習完告訴我你學到了什麼。

首先說下監督學習，監督學習是告訴計算機目標，讓計算機從訓練數據中得到經驗，從而對其他問題可以“舉一反三”。比如房地產中介要估算一個房子的價格，它需要從不同面積，不同地段，不同價格的數據中學得統計曲線，從而生成一個複雜的計算公式，這樣以後再有新的房子信息輸入就可以估算出房子的價格。

如下圖所示，500平方英尺對應的價格是100K，後續的紅叉叉表示已知的價格，計算機學習這些樣本，形成一個弧形的曲線函數。以後就用這個函數來估算房產的價格。

再舉一個人工智能判斷癌症的例子，看下面圖片

這個圖片的縱座標是年齡，橫座標是腫瘤大小，藍色的圓圈是良性腫瘤採樣數據，紅色的叉叉是惡性腫瘤採樣數據，黑色斜線就是良性腫瘤和惡性腫瘤的分界線，如果在下方良性腫瘤的概率很大，如果是上方，惡性腫瘤的概率大。如果判斷一個病人的座標落在紅色箭頭指的地方，那他是良性腫瘤的概率要大一些。當然這個例子非常簡單，僅僅有兩個特徵變量，年齡和腫瘤大小，實際上可能會有更多的特徵變量，比如腫瘤的塊厚度，腫瘤細胞的一致性等等。現實的問題可能特徵變量會更多。

再介紹下無監督學習，無監督學習沒有給計算機目標，只是給出一大堆數據，我不知道這些數據都包括什麼，請計算機告訴我這些數據都有哪些，給我分類。