BAT機器學習面試1000題(431~435題)

BAT機器學習面試1000題(431~435題)

431、什麼時候Ridge迴歸優於Lasso迴歸?

解析:

答:你可以引用ISLR的作者Hastie和Tibshirani的話,他們斷言在對少量變量有中等或大尺度的影響的時候用lasso迴歸。在對多個變量只有小或中等尺度影響的時候,使用Ridge迴歸。

從概念上講,我們可以說,Lasso迴歸(L1)同時做變量選擇和參數收縮,而ridge迴歸只做參數收縮,並最終在模型中包含所有的係數。在有相關變量時,ridge迴歸可能是首選。此外,ridge迴歸在用最小二乘估計有更高的偏差的情況下效果最好。因此,選擇合適的模型取決於我們的模型的目標。

432、全球平均溫度的上升導致世界各地的海盜數量減少。這是否意味著海盜的數量減少引起氣候變化?

解析:

答:看完這個問題後,你應該知道這是一個“因果關係和相關性”的經典案例。我們不能斷定海盜的數量減少是引起氣候變化的原因,因為可能有其他因素(潛伏或混雜因素)影響了這一現象。全球平均溫度和海盜數量之間有可能有相關性,但基於這些信息,我們不能說因為全球平均氣溫的上升而導致了海盜的消失。

注意:多瞭解關於因果關係和相關性的知識。

433、如何在一個數據集上選擇重要的變量?給出解釋。

解析:

答:以下是你可以使用的選擇變量的方法:

1.選擇重要的變量之前除去相關變量

2.用線性迴歸然後基於P值選擇變量

3.使用前向選擇,後向選擇,逐步選擇

4.使用隨機森林和Xgboost,然後畫出變量重要性圖

5.使用lasso迴歸

6.測量可用的特徵集的的信息增益,並相應地選擇前n個特徵量。

434、是否有可能捕獲連續變量和分類變量之間的相關性?如果可以的話,怎樣做?

解析:

是的,我們可以用ANCOVA(協方差分析)技術來捕獲連續型變量和分類變量之間的相關性。

435、Gradient boosting算法(GBM)和隨機森林都是基於樹的算法,它們有什麼區別?

解析:

答:最根本的區別是,隨機森林算法使用bagging技術做出預測。 GBM採用boosting技術做預測。在bagging技術中,數據集用隨機採樣的方法被劃分成使n個樣本。然後,使用單一的學習算法,在所有樣本上建模。接著利用投票或者求平均來組合所得到的預測。

Bagging是平行進行的。而boosting是在第一輪的預測之後,算法將分類出錯的預測加高權重,使得它們可以在後續一輪中得到校正。這種給予分類出錯的預測高權重的順序過程持續進行,一直到達到停止標準為止。隨機森林通過減少方差(主要方式)提高模型的精度。生成樹之間是不相關的,以把方差的減少最大化。在另一方面,GBM提高了精度,同時減少了模型的偏差和方差。

注意:多瞭解關於基於樹的建模知識。


分享到:


相關文章: