04.19 機器學習入門精講,這40個知識點不可錯過(二)

大家晚上好~

兩週前給大家科普了集成學習,很多同學都反饋說還想再學點機器學習的入門知識。

今天晚上就帶大家來學習機器學習中另外一個很重要的算法——決策樹

在開講之前,咱們先來看個例子。

機器學習入門精講,這40個知識點不可錯過(二)

玩過狼人殺的同學都知道,不管遊戲過程多麼激烈,該遊戲的最終結局只有4種。

為了讓同學們更直觀地看到這4種結局,班主任畫了個非常生動形象(簡單粗暴)的圖:

機器學習入門精講,這40個知識點不可錯過(二)

這幅圖完整表達了狼人殺結局的各種情況,箭頭指向一個判斷條件在不同情況下的遊戲結果,最後通過場上剩餘的人來判斷是誰獲勝。

我們可以看出,在每一個關鍵節點(比如村人殺死所有的狼人?),依據判斷條件,可以將答案劃分為Yes or No,最後輸出獲勝一方。

通過樹形結構,根據條件判斷輸出相應的結局,這種簡單的算法,便是決策樹的原型。

決策樹——機器學習中的“倚天寶劍”

決策樹是機器學習中很經典的一種算法。它既是分類算法,也是迴歸算法,還可以用在隨機森林中。

關於隨機森林的知識點,可以回顧上期課程機器學習入門精講,這40個知識點不可錯過(一)

咱們學計算機的同學經常敲if 、else if、else其實就已經在用到決策樹的思想了。

決策樹是一種簡單常用的分類器,通過訓練好的決策樹可以實現對未知的數據進行高效分類。

從開頭狼人殺的例子中也可以看出,決策樹模型具有較好的可讀性和描述性,能夠幫助我們更高效率地去分析問題。

舉個例子,普通人去銀行貸款的時候,銀行會根據相應條件,來判斷貸款人是否具有還貸能力。

貸款用戶主要具備三個屬性:房產、婚姻、平均月收入。

擁有房產或結過婚或月收入大於4000的貸款用戶具備償還能力。

機器學習入門精講,這40個知識點不可錯過(二)

例如:用戶甲沒有房產,沒有結婚,月收入5K,通過上圖的判斷條件可以判斷出用戶甲具備償還貸款能力。

這整個判斷還貸能力的過程,就用到了決策樹的思想。

決策樹算法——基尼不純度、熵

基尼不純度,是指將來自集合中的某種結果隨機應用在集合中,某一數據項的預期誤差率,可以用來度量任何不均勻分佈。

下圖是組合1和組合2的基尼不純度:

機器學習入門精講,這40個知識點不可錯過(二)

從圖中我們可以看出,組合1的基尼不純度大於組合2。

打個比方,基尼不純度就像男生挑鑽石向女生求婚,所有的鑽石看著都很閃,但仔細比較價格卻差很多,因為每顆鑽石的的純度不一樣,純度越高,價格也就越貴。

由此可總結出這樣2種情況:

A、基尼不純度越小,純度越高,集合的有序程度越高,分類的效果越好

B、基尼不純度為 0 時,表示集合類別一致

熵度量的是事物的不確定性,越不確定的事物,它的熵就越大。

熵是信息論中的概念,用來表示集合的無序程度,熵越大表示集合越混亂,反之則表示集合越有序。

決策樹算法——信息增益

信息增益越大,說明整個集合從無序到有序的速度越快,本次拆分越有效,則越適合用來分類。

通俗來講,信息增益代表了在一個條件下,信息複雜度(不確定性)減少的程度。

我們以《非誠勿擾》為例,在男嘉賓出場之前,如果女嘉賓對男嘉賓一無所知,成為他女朋友的不確定性就比較高,如果知道其中的幾個特徵(如身高、性格等),不確定性就會減少很多。

由上面的例子可見,一個屬性的信息增益越大,表明這個屬性使得數據由不確定性變成確定性的能力越強

決策樹算法的補充要點

關於剪枝

利用決策樹算法構建一個初始的樹之後,為了有效的分類,還要對其進行剪枝,剪枝是為了減少過擬合現象。

剪枝思路主要是兩種:

一種是預剪枝,即在生成決策樹的時候就決定是否剪枝。

另一個是後剪枝,即先生成決策樹,再通過交叉驗證來剪枝。

關於過擬合

為了得到一致假設而使假設變得過度複雜稱為過擬合。

比如,考試的時候,有的人採用題海戰術,把每個題目都背下來。

但是題目稍微變化一下,他就不會做了,因為他沒有總結出通用的規則。

過擬合的原因一般有兩種:

A.模型太過複雜而樣本量不足

B.訓練集和測試機特徵分佈不一致

好啦,今晚的機器學習中關於決策樹的部分就講到這裡了,大家可以好好消化下。點擊原文鏈接,進入微信頁面,在留言區寫下關於決策樹的一些問題和想法,抽10位幸運的童鞋送出「機器學習神秘大禮包」


分享到:


相關文章: