「人工智能」No.8 特徵工程之特徵選擇

【導讀:當今人類即將或者已然了進入智能時代,這是·情報通·人工智能科普系列第[8]篇文章,歡迎閱讀和收藏!】

1 基本概念

數據是實現機器學習的重要輸入,而特徵選擇就是當數據預處理完成後,我們需要選擇有意義的特徵輸入機器學習的算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵:

1) 特徵是否發散:如果一個特徵不發散,例如方差接近於 0 ,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。

2) 特徵與目標的相關性:這點比較顯見,與目標相關性高的特徵,應當優選選擇。

「人工智能」No.8 特徵工程之特徵選擇

2 術語解釋

特徵 :一個客體或一組客體特性的抽象結果。

Filter : 方差選擇法,按照發散性或者相關性對各個特徵進行評分,設定閾值或者待選擇閾值的個數,選擇特徵。

Wrapper : 包裝法,根據目標函數(通常是預測效果評分),每次選擇若干特徵,或者排除若干特徵。

Embedded : 嵌入法,先使用某些機器學習的算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於 Filter 方法,但是是通過訓練來確定特徵的優劣。

3 過濾法

3.1 方差選擇法

使用方差選擇法,先要計算各個特徵的方差,然後根據閾值,選擇方差大於閾值的特徵。

3.2 相關係數法

使用相關係數法,先要計算各個特徵對目標值的相關係數以及相關係數的 P 值。

3.3 卡方校驗

經典的卡方檢驗是檢驗定性自變量對定性因變量的相關性。

3.4 互信息法

經典的互信息也是評價定性自變量對定性因變量的相關性的

4 包裝法

4.1 遞歸特徵消除法

遞歸消除特徵法使用一個基模型來進行多輪訓練,每輪訓練後,消除若干權值係數的特徵,再基於新的特徵集進行下一輪訓練。

5 嵌入法

5.1 基於懲罰項的選擇

使用帶懲罰項的基模型,除了篩選出特徵外,同時也進行了降維。

5.2 基於樹模型的選擇

樹模型中 GBDT 也可用來作為基模型進行特徵選擇。


分享到:


相關文章: