机器学习术语?其实没那么复杂!


机器学习术语?其实没那么复杂!

人工智能和数学很像,总会用一些意义不太明确的术语表达理解上并不复杂的概念。如果你把二维线性空间理解成平面直角坐标系,把线性变换理解成这个坐标系扭来扭曲或者找一个新的坐标系,虽不严谨,概念上却也不复杂。人工智能作为近年来的热门领域,为了便于各位(不太了解相关领域)的职场朋友们能快速谈笑风生起来。本文将用一些奇奇怪怪的类比进行完全不严谨(但很合逻辑)的术语解读。


1. PCA

注意,想要谈笑风生就要记住英文缩写。PCA 的中文翻译叫做主成分分析,知道就好,别说。

机器学习术语?其实没那么复杂!

这是一种机器学习里经典的降维方法。所谓降维... 你看过「三体」么?里面有个二向箔降维打击。别深究物理原理,地球本来是个三维球体,拍成一个二维球面,这就是降维。PCA 就是一种降维方法。宗旨是把地球拍扁的时候要尽可能多的保留地球上所有人类的坐标信息,为此要选择合适的角度拍。如果利用 PCA 进行合理计算,你就能发现从某一个方向拍下去,能让拍下去后的人类散布最广,并且新坐标之间的相关性最小。




2. Objective / Cost / Loss Function

Objective / Cost / Loss Function 可谓是机器学习里的函数三连。他们有时说的是一个东西,在不同的场合下也许又有不同的指代,很迷。没有语境谁也不能确切说明他们究竟指的什么。我们经常需要找最优解,比如陆地的最高点是珠穆拉玛峰,海洋的最低点是马里亚纳海沟。在机器学习里我们往往想知道最优解,一个能被寻找到最高点/最低点的函数,就是所谓的 Objective / Cost / Loss Function。

机器学习术语?其实没那么复杂!

更精确的说:Loss Function 通常用来表示没达到考核标准的惩罚;Cost Function 更广义一些,Objective 要比 Cost Function 更加普遍。




3. Gradient Descent

Gradient Descent 的中文翻译叫做梯度下降,这个中文大家都在说。

机器学习术语?其实没那么复杂!


还记得函数三连么?为了找最优解,就需要一个方法,这种方法被称为优化方法。梯度下降就是机器学习里的经典优化方法。原理很简单啦,你要找一个山谷的最低点,现在你站在半山腰,首先你的步子不能跨太大,但要尽可能的大,这个步子就是你的 Learning Rate,中文步长。怎么迈步呢?你环视四周,找到一个一步迈下去高度下降最多的方向。每步都这么走直到走到最低点,这就是梯度下降。

梯度下降的问题是,如果山谷地形很复杂,你走到的可能是一个自以为的最低点,却忽视了整个山谷还有更低的地方。




4. Data Mining

Data Mining 中文名是数据挖掘。这个中文名词非常有画面感,让人想象程序员钻进矿洞里凿来凿去,挖出满满一箱数据。可惜这个词并不是这个意思...「 挖掘」在这里很抽象,表示的是深入探索和挖掘数据的深层意义和价值,从而更好的使用数据。别被骗了,数据挖掘不仅仅是写爬虫爬数据。




5. Supervised / Unsupervised Learning

监督学习和无监督学习。监督学习不是有个人盯着你不让你偷懒,它更像是在应试教育阶段,每道题都有一个标准答案。机器通过寻找规律,发现题目和答案之间的联系,在面对新题目时,就能通过总结的规律作答。无监督学习就意味着没有标准答案。一个经典的无监督学习类别就是聚类(clustering),把具有类似性质的聚集到一起。

机器学习术语?其实没那么复杂!

介于有监督学习和无监督学习之间还有半监督学习(Semi-Supervised Learning),顾名思义,机器学习的时候,一部分题有答案,一部分没有。




6. Genetic Algorithm

遗传算法。还记得你在生物课上学的遗传、突变、自然选择吗?遗传算法就是借鉴模拟了生物学现象的一种解决最优化问题的算法。生物经过数代的自然选择,会逐步适应环境,获得近似完美的基因。在遗传算法里,我们可以自己定义生存压力,比如把长得最不像茶壶的书桌淘汰掉。慢慢我们就能获得很像茶壶的书桌们。

感谢达尔文。

Natural Language Processing,自然语言处理。什么是自然语言?


分享到:


相關文章: