機器學習教程：帶你從Kaggle入門到殺入前5%（下）

2018-08-20 18:34:31 深度學習中文社區

Introduction

(點擊可閱讀)中我們按照一次完整比賽流程的順序介紹了一些Kaggle比賽技巧.在這篇文章中將結合以上技巧介紹一次完整的進入前5%的Kaggle參賽經歷.參加的比賽名字叫做

Home Depot Search Relevance, 代碼已經上傳至github,關注我頭條號後發送私信"Kaggle"獲取代碼.

首先簡單介紹這個比賽。Task 是判斷用戶搜索的關鍵詞和網站返回的結果之間的相關度有多高。相關度是由 3 個人類打分取平均得到的，每個人可能打 1 ~ 3 分，所以這是一個迴歸問題。數據中包含用戶的搜索詞，返回的產品的標題和介紹，以及產品相關的一些屬性比如品牌、尺寸、顏色等。使用的評分基準是 RMSE。

這個比賽非常像 Crowdflower Search Results Relevance 那場比賽。不過那邊用的評分基準是 Quadratic Weighted Kappa，把 1 誤判成 4 的懲罰會比把 1 判成 2 的懲罰大得多，所以在最後 Decode Prediction 的時候會更麻煩一點。除此以外那次比賽沒有提供產品的屬性。

1. EDA

由於加入比賽比較晚，當時已經有相當不錯的 EDA 了。尤其是這個。從中我得到的啟發有：

同一個搜索詞/產品都出現了多次，數據分佈顯然不 i.i.d.。
文本之間的相似度很有用。

產品中有相當大一部分缺失屬性，要考慮這會不會使得從屬性中得到的 Feature 反而難以利用。
產品的 ID 對預測相關度很有幫助，但是考慮到訓練集和測試集之間的重疊度並不太高，利用它會不會導致 Overfitting？

2. Preprocessing

這次比賽中我的 Preprocessing 和 Feature Engineering 的具體做法都可以在這裡看到。我只簡單總結一下和指出重要的點。

利用 Forum 上的 Typo Dictionary 修正搜索詞中的錯誤。
統計屬性的出現次數，將其中出現次數多又容易利用的記錄下來。
將訓練集和測試集合並，並與產品描述和屬性 Join 起來。這是考慮到後面有一系列操作，如果不合並的話就要重複寫兩次了。
對所有文本能做 Stemming 和 Tokenizing，同時手工做了一部分格式統一化（比如涉及到數字和單位的）和同義詞替換
。

3. Feature

*Attribute Features
是否包含某個特定的屬性（品牌、尺寸、顏色、重量、內用/外用、是否有能源之星認證等）
這個特定的屬性是否匹配
Meta Features
各個文本域的長度
是否包含屬性域
品牌（將所有的品牌做數值離散化）
產品 ID
簡單匹配
搜索詞是否在產品標題、產品介紹或是產品屬性中出現
搜索詞在產品標題、產品介紹或是產品屬性中出現的數量和比例
*搜索詞中的第 i 個詞是否在產品標題、產品介紹或是產品屬性中出現
搜索詞和產品標題、產品介紹以及產品屬性之間的文本相似度
BOWCosine Similairty
TF-IDF Cosine Similarity
Jaccard Similarity
*Edit Distance
Word2Vec Distance（由於效果不好，最後沒有使用，但似乎是因為用的不對）
Latent Semantic Indexing：通過將 BOW/TF-IDF Vectorization 得到的矩陣進行 SVD 分解，我們可以得到不同搜索詞/產品組合的 Latent 標識。這個 Feature 使得 Model 能夠在一定程度上對不同的組合做出區別，從而解決某些產品缺失某些 Feature 的問題。

值得一提的是，上面打了 * 的 Feature 都是我在最後一批加上去的。問題是，使用這批 Feature 訓練得到的 Model 反而比之前的要差，而且還差不少。我一開始是以為因為 Feature 的數量變多了所以一些參數需要重新調優，但在浪費了很多時間做 Grid Search 以後卻發現還是沒法超過之前的分數。這可能就是之前提到的 Feature 之間的相互作用導致的問題。當時我設想過一個看到過好幾次的解決方案，就是將使用不同版本 Feature 的 Model 通過 Ensemble 組合起來。但最終因為時間關係沒有實現。事實上排名靠前的隊伍分享的解法裡面基本都提到了將不同的 Preprocessing 和 Feature Engineering 做 Ensemble 是獲勝的關鍵。

4. Model

我一開始用的是 RandomForestRegressor，後來在 Windows 上折騰 Xgboost 成功了就開始用 XGBRegressor。XGB 的優勢非常明顯，同樣的數據它只需要不到一半的時間就能跑完，節約了很多時間。

比賽中後期我基本上就是一邊臺式機上跑 Grid Search，一邊在筆記本上繼續研究 Feature。

這次比賽數據分佈很不獨立，所以期間多次遇到改進的 Feature 或是 Grid Search 新得到的參數訓練出來的模型反而 LB 分數下降了。由於被很多前輩教導過要相信自己的 CV，我的決定是將 5-Fold 提到 10-Fold，然後以 CV 為標準繼續前進。

5. Ensemble

最終我的 Ensemble 的 Base Model 有以下四個：

RandomForestRegressor
ExtraTreesRegressor

GradientBoostingRegressor
XGBRegressor

第二層的 Model 還是用的 XGB。

因為 Base Model 之間的相關都都太高了（最低的一對也有 0.9），我原本還想引入使用 gblinear 的 XGBRegressor 以及 SVR，但前者的 RMSE 比其他幾個 Model 高了 0.02（這在 LB 上有幾百名的差距），而後者的訓練實在太慢了。最後還是隻用了這四個。

值得一提的是，在開始做 Stacking 以後，我的 CV 和 LB 成績的提高就是完全同步的了。

在比賽最後兩天，因為身心疲憊加上想不到還能有什麼顯著的改進，我做了一件事情：用 20 個不同的隨機種子來生成 Ensemble，最後取 Weighted Average。這個其實算是一種變相的 Bagging。其意義在於按我實現 Stacking 的方式，我在訓練 Base Model 時只用了 80% 的訓練數據，而訓練第二層的 Model 時用了 100% 的數據，這在一定程度上增大了 Overfitting 的風險。而每次更改隨機種子可以確保每次用的是不同的 80%，這樣在多次訓練取平均以後就相當於逼近了使用 100% 數據的效果。

這給我帶來了大約 0.0004 的提高，也很難受說是真的有效還是隨機性了。

比賽結束後我發現我最好的單個 Model 在 Private LB 上的得分是 0.46378，而最終 Stacking 的得分是 0.45849。這是 174 名和 98 名的差距。也就是說，我單靠 Feature 和調參進到了前 10%，而 Stacking 使我進入了前 5%。

6. Lessons Learned

比賽結束後一些隊伍分享了他們的解法，從中我學到了一些我沒有做或是做的不夠好的地方：

產品標題的組織方式是有 Pattern 的，比如一個產品是否帶有某附件一定會用 With/Without XXX 的格式放在標題最後。
使用外部數據，比如 WordNet，Reddit 評論數據集等來訓練同義詞和上位詞（在一定程度上替代 Word2Vec）詞典。
基於字母而不是單詞的 NLP Feature。這一點我讓我十分費解，但請教以後發現非常有道理。舉例說，排名第三的隊伍在計算匹配度時，將搜索詞和內容中相匹配的單詞的長度也考慮進去了。這是因為他們發現
越長的單詞約具體，所以越容易被用戶認為相關度高。此外他們還使用了逐字符的序列比較（difflib.SequenceMatcher），因為這個相似度能夠衡量視覺上的相似度。像這樣的 Feature 的確不是每個人都能想到的。
標註單詞的詞性，找出中心詞，計算基於中心詞的各種匹配度和距離。這一點我想到了，但沒有時間嘗試。
將產品標題/介紹中 TF-IDF 最高的一些 Trigram 拿出來，計算搜索詞中出現在這些 Trigram 中的比例；反過來以搜索詞為基底也做一遍。這相當於是從另一個角度抽取了一些 Latent 標識。
一些新穎的距離尺度，比如 Word Movers Distance
除了 SVD 以外還可以用上 NMF。
最重要的 Feature 之間的 Pairwise Polynomial Interaction。
針對數據不 i.i.d. 的問題，在 CV 時手動構造測試集與驗證集之間產品 ID 不重疊和重疊的兩種不同分割，並以與實際訓練集/測試集的分割相同的比例來做 CV 以逼近 LB 的得分分佈
。

至於 Ensemble 的方法，我暫時還沒有辦法學到什麼，因為自己只有最簡單的 Stacking 經驗。

7. Summary

7.1 Takeaways

比較早的時候就開始做 Ensemble 是對的，這次比賽到倒數第三天我還在糾結 Feature。
很有必要搭建一個 Pipeline，至少要能夠自動訓練並記錄最佳參數。
Feature 為王。我花在 Feature 上的時間還是太少。
可能的話，多花點時間去手動查看原始數據中的 Pattern。

7.2 Issues Raised

我認為在這次比賽中遇到的一些問題是很有研究價值的：

在數據分佈並不 i.i.d. 甚至有 Dependency 時如何做靠譜的 CV。
如何量化 Ensemble 中 Diversity vs. Accuracy 的 Trade-off。
如何處理 Feature 之間互相影響導致性能反而下降。

7.3 Beginner Tips

給新手的一些建議：

選擇一個感興趣的比賽。如果你對相關領域原本就有一些洞見那就更理想了。
根據我描述的方法開始探索、理解數據並進行建模。
通過 Forum 和 Scripts 學習其他人對數據的理解和構建 Feature 的方式。
如果之前有過類似的比賽，可以去找當時獲獎者的 Interview 和 Blog Post 作為參考，往往很有用。
在得到一個比較不錯的 LB 分數（比如已經接近前 10%）以後可以開始嘗試做 Ensemble。
如果覺得自己有希望拿到獎金，開始找人組隊吧！
到比賽結束為止要繃緊一口氣不能斷，儘量每天做一些新嘗試。
比賽結束後學習排名靠前的隊伍的方法，思考自己這次比賽中的不足和發現的問題，
可能的話再花點時間將學到的新東西用實驗進行確認，為下一次比賽做準備。
好好休息！

相關實驗代碼已經上傳至github,關注我頭條號後發送私信"Kaggle"獲取代碼.

分享到:

閱讀更多 深度學習中文社區 的文章

關鍵字: Word GitHub 教程

Python北京空氣質量數據處理

Kaggle M5 Forecasting：傳統預測方法與機器學習預測方法對比

Pandas Groupby —解釋

特徵工程（下）「金融風控實戰筆記」

kaggle數據下載問題

R 無監督聚類算法（1）K-means和層次聚類

機器學習常用數據集大全

5種高效利用value-counts函數的方法，一鍵提升數據挖掘姿勢水平

Kaggle 比賽中如何劃分數據集？

每日一課 Kaggle 練習講解：House Prices(上)

三項驚人的 kaggle kernel 學習技巧

機器學習中最最好用的提升方法：Boosting 與 AdaBoost

用Python做數據處理需要知道的：6個使效率倍增的 Pandas 技巧

業界｜如何達到Kaggle競賽top 2%？這裡有一篇特徵探索經驗帖

AI 從業者都應該知道的實驗數據集

數據不足時如何做深度學習NLP

數據科學家最需要什麼技能？

如何交付機器學習項目：一份機器學習工程開發流程指南

BAT機器學習面試1000題（526~530題）

kaggle實戰之AlexNet遷移學習訓練貓狗分類器（一）

我參加的第一場Kaggle競賽！

吳恩達太老派了？這套所有程序員適用的機器學習課火了｜資源

2018年最流行的深度學習框架及學習建議

使用textfeatures自動生成文本數據

機器學習：使用TensorFlow構建LSTM模型詳細教程

數據科學101：Python比R更好嗎？

送你8個Python高效數據分析的技巧（附代碼）

機器學習教程：帶你從Kaggle入門到殺入前5%（上）

Python還能用於醫學方面！這就亮瞎了我的鈦合金人眼了！深度學習

在茫茫決策樹入門帖里，我強推這篇（附可視化圖）

kaggle神器：教你簡單部署XGBoost

Python即將納入全國性高考，你還一無所知？

7天速成、免費學習，這套Python入門課我收藏了丨資源帖

使用決策樹算法識別用戶喜歡或不喜歡的歌曲

如何進行特徵選擇，避開那些機器學習的「坑」！

使用FeatureSelector實現高效的機器學習工作流程

資源｜Feature Tools：可自動構造機器學習特徵的Python庫

改進模型架構遇到了瓶頸？你該考慮改善自己的數據了！

5月機器學習TOP 10熱文：Google Duplex，“換臉術”、網格單元

模型融合方法介紹

遇見困難不用“慫”，機器學習的“萬能藥”：決策樹

為什麼你會選擇python

入門｜機器學習第一課：決策樹學習概述與實現

通過 Python 入門數據科學（Data Science）

機器學習kaggle比賽—泰坦尼克號獲救預測

2017數據科學與機器學習行業現狀調查 Python是最受歡迎的語言

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"