機器學習術語?其實沒那麼複雜!


機器學習術語?其實沒那麼複雜!

人工智能和數學很像,總會用一些意義不太明確的術語表達理解上並不複雜的概念。如果你把二維線性空間理解成平面直角座標系,把線性變換理解成這個座標系扭來扭曲或者找一個新的座標系,雖不嚴謹,概念上卻也不復雜。人工智能作為近年來的熱門領域,為了便於各位(不太瞭解相關領域)的職場朋友們能快速談笑風生起來。本文將用一些奇奇怪怪的類比進行完全不嚴謹(但很合邏輯)的術語解讀。


1. PCA

注意,想要談笑風生就要記住英文縮寫。PCA 的中文翻譯叫做主成分分析,知道就好,別說。

機器學習術語?其實沒那麼複雜!

這是一種機器學習裡經典的降維方法。所謂降維... 你看過「三體」麼?裡面有個二向箔降維打擊。別深究物理原理,地球本來是個三維球體,拍成一個二維球面,這就是降維。PCA 就是一種降維方法。宗旨是把地球拍扁的時候要儘可能多的保留地球上所有人類的座標信息,為此要選擇合適的角度拍。如果利用 PCA 進行合理計算,你就能發現從某一個方向拍下去,能讓拍下去後的人類散佈最廣,並且新座標之間的相關性最小。




2. Objective / Cost / Loss Function

Objective / Cost / Loss Function 可謂是機器學習裡的函數三連。他們有時說的是一個東西,在不同的場合下也許又有不同的指代,很迷。沒有語境誰也不能確切說明他們究竟指的什麼。我們經常需要找最優解,比如陸地的最高點是珠穆拉瑪峰,海洋的最低點是馬裡亞納海溝。在機器學習裡我們往往想知道最優解,一個能被尋找到最高點/最低點的函數,就是所謂的 Objective / Cost / Loss Function。

機器學習術語?其實沒那麼複雜!

更精確的說:Loss Function 通常用來表示沒達到考核標準的懲罰;Cost Function 更廣義一些,Objective 要比 Cost Function 更加普遍。




3. Gradient Descent

Gradient Descent 的中文翻譯叫做梯度下降,這個中文大家都在說。

機器學習術語?其實沒那麼複雜!


還記得函數三連麼?為了找最優解,就需要一個方法,這種方法被稱為優化方法。梯度下降就是機器學習裡的經典優化方法。原理很簡單啦,你要找一個山谷的最低點,現在你站在半山腰,首先你的步子不能跨太大,但要儘可能的大,這個步子就是你的 Learning Rate,中文步長。怎麼邁步呢?你環視四周,找到一個一步邁下去高度下降最多的方向。每步都這麼走直到走到最低點,這就是梯度下降。

梯度下降的問題是,如果山谷地形很複雜,你走到的可能是一個自以為的最低點,卻忽視了整個山谷還有更低的地方。




4. Data Mining

Data Mining 中文名是數據挖掘。這個中文名詞非常有畫面感,讓人想象程序員鑽進礦洞裡鑿來鑿去,挖出滿滿一箱數據。可惜這個詞並不是這個意思...「 挖掘」在這裡很抽象,表示的是深入探索和挖掘數據的深層意義和價值,從而更好的使用數據。別被騙了,數據挖掘不僅僅是寫爬蟲爬數據。




5. Supervised / Unsupervised Learning

監督學習和無監督學習。監督學習不是有個人盯著你不讓你偷懶,它更像是在應試教育階段,每道題都有一個標準答案。機器通過尋找規律,發現題目和答案之間的聯繫,在面對新題目時,就能通過總結的規律作答。無監督學習就意味著沒有標準答案。一個經典的無監督學習類別就是聚類(clustering),把具有類似性質的聚集到一起。

機器學習術語?其實沒那麼複雜!

介於有監督學習和無監督學習之間還有半監督學習(Semi-Supervised Learning),顧名思義,機器學習的時候,一部分題有答案,一部分沒有。




6. Genetic Algorithm

遺傳算法。還記得你在生物課上學的遺傳、突變、自然選擇嗎?遺傳算法就是借鑑模擬了生物學現象的一種解決最優化問題的算法。生物經過數代的自然選擇,會逐步適應環境,獲得近似完美的基因。在遺傳算法裡,我們可以自己定義生存壓力,比如把長得最不像茶壺的書桌淘汰掉。慢慢我們就能獲得很像茶壺的書桌們。

感謝達爾文。

Natural Language Processing,自然語言處理。什麼是自然語言?


分享到:


相關文章: