數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

2020-12-22 06:24:40 佚名

作者：陳成龍

Kaggle 基本介紹

Kaggle 於 2010 年創立，專注數據科學，機器學習競賽的舉辦，是全球最大的數據科學社區和數據競賽平臺。在 Kaggle 上，企業或者研究機構發佈商業和科研難題，懸賞吸引全球的數據科學家，通過眾包的方式解決建模問題。而參賽者可以接觸到豐富的真實數據，解決實際問題，角逐名次，贏取獎金。諸如 Google，Facebook，Microsoft 等知名科技公司均在 Kaggle 上面舉辦過數據挖掘比賽。2017年3月，Kaggle 被 Google CloudNext 收購。

1.1 參賽方式

可以以個人或者組隊的形式參加比賽。組隊人數一般沒有限制，但需要在 Merger Deadline 前完成組隊。為了能參與到比賽中，需要在 Entry Deadline 前進行至少一次有效提交。最簡單地，可以直接提交官方提供的 Sample Submission。關於組隊，建議先單獨個人進行數據探索和模型構建，以個人身份進行比賽，在比賽後期（譬如離比賽結束還有 2~3 周）再進行組隊，以充分發揮組隊的效果（類似於模型集成，模型差異性越大，越有可能有助於效果的提升，超越單模型的效果）。當然也可以一開始就組好隊，方便分工協作，討論問題和碰撞火花。

Kaggle 對比賽的公正性相當重視。在比賽中，每個人只允許使用一個賬號進行提交。在比賽結束後 1~2 周內，Kaggle 會對使用多賬號提交的 Cheater 進行剔除（一般會對 Top 100 的隊伍進行 Cheater Detection）。在被剔除者的 Kaggle 個人頁面上，該比賽的成績也會被刪除，相當於該選手從沒參加過這個比賽。此外，隊伍之間也不能私自分享代碼或者數據，除非在論壇上面公開發布。

比賽一般只提交測試集的預測結果，無需提交代碼。每人（或每個隊伍）每天有提交次數的限制，一般為2次或者5次，在 Submission 頁面會有提示。

1.2 比賽獲獎

Kaggle 比賽獎金豐厚，一般前三名均可以獲得獎金。在最近落幕的第二屆 National Data Science Bowl 中，總獎金池高達 100W 美刀，其中第一名可以獲得 50W 美刀的獎勵，即使是第十名也能收穫 2.5W 美刀的獎金。

獲獎的隊伍需要在比賽結束後 1~2 周內，準備好可執行的代碼以及 README，算法說明文檔等提交給 Kaggle 來進行獲獎資格的審核。Kaggle 會邀請獲獎隊伍在 Kaggle Blog 中發表 Interview，來分享比賽故事和經驗心得。對於某些比賽，Kaggle 或者主辦方會邀請獲獎隊伍進行電話/視頻會議，獲獎隊伍進行 Presentation，並與主辦方團隊進行交流。

1.3 比賽類型

從 Kaggle 提供的官方分類來看，可以劃分為以下類型（如下圖1所示）：

◆ Featured：商業或科研難題，獎金一般較為豐厚；

◆ Recruitment：比賽的獎勵為面試機會；

◆ Research：科研和學術性較強的比賽，也會有一定的獎金，一般需要較強的領域和專業知識；

◆ Playground：提供一些公開的數據集用於嘗試模型和算法；

◆ Getting Started：提供一些簡單的任務用於熟悉平臺和比賽；

◆ In Class：用於課堂項目作業或者考試。

圖1. Kaggle 比賽類型

從領域歸屬劃分：包含搜索相關性，廣告點擊率預估，銷量預估，貸款違約判定，癌症檢測等。

從任務目標劃分：包含迴歸，分類（二分類，多分類，多標籤），排序，混合體（分類+迴歸）等。

從數據載體劃分：包含文本，語音，圖像和時序序列等。

從特徵形式劃分：包含原始數據，明文特徵，脫敏特徵（特徵的含義不清楚）等。

1.4 比賽流程

一個數據挖掘比賽的基本流程如下圖2所示，具體的模塊我將在下一章進行展開陳述。

圖2. 數據挖掘比賽基本流程

這裡想特別強調的一點是，Kaggle 在計算得分的時候，有Public Leaderboard (LB)和 Private LB 之分。具體而言，參賽選手提交整個測試集的預測結果，Kaggle 使用測試集的一部分計算得分和排名，實時顯示在 Public LB上，用於給選手提供及時的反饋和動態展示比賽的進行情況；測試集的剩餘部分用於計算參賽選手的最終得分和排名，此即為 Private LB，在比賽結束後會揭曉。用於計算 Public LB 和 Private LB 的數據有不同的劃分方式，具體視比賽和數據的類型而定，一般有隨機劃分，按時間劃分或者按一定規則劃分。

這個過程可以概括如下圖3所示，其目的是避免模型過擬合，以得到泛化能力好的模型。如果不設置 Private LB（即所有的測試數據都用於計算 Public LB），選手不斷地從 Public LB（即測試集）中獲得反饋，進而調整或篩選模型。這種情況下，測試集實際上是作為驗證集參與到模型的構建和調優中來。Public LB上面的效果並非是在真實未知數據上面的效果，不能可靠地反映模型的效果。劃分 Public LB 和 Private LB 這樣的設置，也在提醒參賽者，我們建模的目標是要獲得一個在未知數據上表現良好的模型，而並非僅僅是在已知數據上效果好。

數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

圖3. 劃分 Public LB 和 Private LB的目的

（圖參考 Owenzhang 的分享 [1]）

數據挖掘比賽基本流程

從上面圖2可以看到，做一個數據挖掘比賽，主要包含了數據分析，數據清洗，特徵工程，模型訓練和驗證等四個大的模塊，以下來一一對其進行介紹。

2.1 數據分析

數據分析可能涉及以下方面：

◆ 分析特徵變量的分佈

◇ 特徵變量為連續值：如果為長尾分佈並且考慮使用線性模型，可以對變量進行冪變換或者對數變換。

◇ 特徵變量為離散值：觀察每個離散值的頻率分佈，對於頻次較低的特徵，可以考慮統一編碼為“其他”類別。

◆ 分析目標變量的分佈

◇ 目標變量為連續值：查看其值域範圍是否較大，如果較大，可以考慮對其進行對數變換，並以變換後的值作為新的目標變量進行建模（在這種情況下，需要對預測結果進行逆變換）。一般情況下，可以對連續變量進行Box-Cox變換。通過變換可以使得模型更好的優化，通常也會帶來效果上的提升。

◇ 目標變量為離散值：如果數據分佈不平衡，考慮是否需要上採樣/下采樣；如果目標變量在某個ID上面分佈不平衡，在劃分本地訓練集和驗證集的時候，需要考慮分層採樣（Stratified Sampling）。

◆ 分析變量之間兩兩的分佈和相關度

◇ 可以用於發現高相關和共線性的特徵。

通過對數據進行探索性分析（甚至有些情況下需要肉眼觀察樣本），還可以有助於啟發數據清洗和特徵抽取，譬如缺失值和異常值的處理，文本數據是否需要進行拼寫糾正等。

2.2 數據清洗

數據清洗是指對提供的原始數據進行一定的加工，使得其方便後續的特徵抽取。其與特徵抽取的界限有時也沒有那麼明確。常用的數據清洗一般包括：

◆ 數據的拼接

◇ 提供的數據散落在多個文件，需要根據相應的鍵值進行數據的拼接。

◆ 特徵缺失值的處理

◇ 特徵值為連續值：按不同的分佈類型對缺失值進行補全：偏正態分佈，使用均值代替，可以保持數據的均值；偏長尾分佈，使用中值代替，避免受 outlier 的影響；

◇ 特徵值為離散值：使用眾數代替。

◆ 文本數據的清洗

◇ 在比賽當中，如果數據包含文本，往往需要進行大量的數據清洗工作。如去除HTML 標籤，分詞，拼寫糾正, 同義詞替換，去除停詞，抽詞幹，數字和單位格式統一等。

2.3 特徵工程

有一種說法是，特徵決定了效果的上限，而不同模型只是以不同的方式或不同的程度來逼近這個上限。這樣來看，好的特徵輸入對於模型的效果至關重要，正所謂”Garbage in, garbage out”。要做好特徵工程，往往跟領域知識和對問題的理解程度有很大的關係，也跟一個人的經驗相關。特徵工程的做法也是Case by Case，以下就一些點，談談自己的一些看法。

2.3.1 特徵變換

主要針對一些長尾分佈的特徵，需要進行冪變換或者對數變換，使得模型（LR或者DNN）能更好的優化。需要注意的是，Random Forest 和 GBDT 等模型對單調的函數變換不敏感。其原因在於樹模型在求解分裂點的時候，只考慮排序分位點。

2.3.2 特徵編碼

對於離散的類別特徵，往往需要進行必要的特徵轉換/編碼才能將其作為特徵輸入到模型中。常用的編碼方式有 LabelEncoder，OneHotEncoder（sklearn裡面的接口）。譬如對於”性別”這個特徵（取值為男性和女性），使用這兩種方式可以分別編碼為{0,1}和{[1,0], [0,1]}。

對於取值較多（如幾十萬）的類別特徵（ID特徵），直接進行OneHotEncoder編碼會導致特徵矩陣非常巨大，影響模型效果。可以使用如下的方式進行處理：

◆ 統計每個取值在樣本中出現的頻率，取 Top N 的取值進行 One-hot 編碼，剩下的類別分到“其他“類目下，其中 N 需要根據模型效果進行調優；

◆ 統計每個 ID 特徵的一些統計量（譬如歷史平均點擊率，歷史平均瀏覽率）等代替該 ID 取值作為特徵，具體可以參考 Avazu 點擊率預估比賽第二名的獲獎方案；

◆ 參考 word2vec 的方式，將每個類別特徵的取值映射到一個連續的向量，對這個向量進行初始化，跟模型一起訓練。訓練結束後，可以同時得到每個ID的Embedding。具體的使用方式，可以參考 Rossmann 銷量預估競賽第三名的獲獎方案，https://github.com/entron/entity-embedding-rossmann。

對於 Random Forest 和 GBDT 等模型，如果類別特徵存在較多的取值，可以直接使用 LabelEncoder 後的結果作為特徵。

2.4 模型訓練和驗證

2.4.1 模型選擇

在處理好特徵後，我們可以進行模型的訓練和驗證。

◆ 對於稀疏型特徵（如文本特徵，One-hot的ID類特徵），我們一般使用線性模型，譬如 Linear Regression 或者 Logistic Regression。Random Forest 和 GBDT 等樹模型不太適用於稀疏的特徵，但可以先對特徵進行降維（如PCA，SVD/LSA等），再使用這些特徵。稀疏特徵直接輸入 DNN 會導致網絡 weight 較多，不利於優化，也可以考慮先降維，或者對 ID 類特徵使用 Embedding 的方式；

◆ 對於稠密型特徵，推薦使用 XGBoost 進行建模，簡單易用效果好；

◆ 數據中既有稀疏特徵，又有稠密特徵，可以考慮使用線性模型對稀疏特徵進行建模，將其輸出與稠密特徵一起再輸入 XGBoost/DNN 建模，具體可以參考2.5.2節 Stacking 部分。

2.4.2 調參和模型驗證

對於選定的特徵和模型，我們往往還需要對模型進行超參數的調優，才能獲得比較理想的效果。調參一般可以概括為以下三個步驟：

1. 訓練集和驗證集的劃分。根據比賽提供的訓練集和測試集，模擬其劃分方式對訓練集進行劃分為本地訓練集和本地驗證集。劃分的方式視具體比賽和數據而定，常用的方式有：

a) 隨機劃分：譬如隨機採樣 70% 作為訓練集，剩餘的 30% 作為測試集。在這種情況下，本地可以採用 KFold 或者 Stratified KFold 的方法來構造訓練集和驗證集。

b) 按時間劃分：一般對應於時序序列數據，譬如取前 7 天數據作為訓練集，後 1 天數據作為測試集。這種情況下，劃分本地訓練集和驗證集也需要按時間先後劃分。常見的錯誤方式是隨機劃分，這種劃分方式可能會導致模型效果被高估。

c) 按某些規則劃分：在 HomeDepot 搜索相關性比賽中，訓練集和測試集中的 Query 集合並非完全重合，兩者只有部分交集。而在另外一個相似的比賽中（CrowdFlower 搜索相關性比賽），訓練集和測試集具有完全一致的 Query 集合。對於 HomeDepot 這個比賽中，訓練集和驗證集數據的劃分，需要考慮 Query 集合並非完全重合這個情況，其中的一種方法可以參考第三名的獲獎方案，https://github.com/ChenglongChen/Kaggle_HomeDepot。

2. 指定參數空間。在指定參數空間的時候，需要對模型參數以及其如何影響模型的效果有一定的瞭解，才能指定出合理的參數空間。譬如DNN或者XGBoost中學習率這個參數，一般就選 0.01 左右就 OK 了（太大可能會導致優化算法錯過最優化點，太小導致優化收斂過慢）。再如 Random Forest，一般設定樹的棵數範圍為 100~200 就能有不錯的效果，當然也有人固定數棵數為 500，然後只調整其他的超參數。

3. 按照一定的方法進行參數搜索。常用的參數搜索方法有，Grid Search，Random Search以及一些自動化的方法（如 Hyperopt）。其中，Hyperopt 的方法，根據歷史已經評估過的參數組合的效果，來推測本次評估使用哪個參數組合更有可能獲得更好的效果。有關這些方法的介紹和對比，可以參考文獻 [2]。

2.4.3 適當利用 Public LB 的反饋

在2.4.2節中我們提到本地驗證（Local Validation）結果，當將預測結果提交到 Kaggle 上時，我們還會接收到 Public LB 的反饋結果。如果這兩個結果的變化趨勢是一致的，如 Local Validation 有提升，Public LB 也有提升，我們可以藉助 Local Validation 的變化來感知模型的演進情況，而無需靠大量的 Submission。如果兩者的變化趨勢不一致，需要考慮2.4.2節中提及的本地訓練集和驗證集的劃分方式，是否跟訓練集和測試集的劃分方式一致。

另外，在以下一些情況下，往往 Public LB 反饋亦會提供有用信息，適當地使用這些反饋也許會給你帶來優勢。如圖4所示，(a)和(b)表示數據與時間沒有明顯的關係（如圖像分類），(c)和(d)表示數據隨時間變化（如銷量預估中的時序序列）。(a)和(b)的區別在於，訓練集樣本數相對於 Public LB 的量級大小，其中(a)中訓練集樣本數遠超於 Public LB 的樣本數，這種情況下基於訓練集的 Local Validation 更可靠；而(b)中，訓練集數目與 Public LB 相當，這種情況下，可以結合 Public LB 的反饋來指導模型的選擇。一種融合的方式是根據 Local Validation 和 Public LB 的樣本數目，按比例進行加權。譬如評估標準為正確率，Local Validation 的樣本數為 N_l，正確率為 A_l；Public LB 的樣本數為 N_p，正確率為 A_p。則可以使用融合後的指標：（N_l * A_l + N_p * A_p）/(N_l + N_p)，來進行模型的篩選。對於(c)和(d)，由於數據分佈跟時間相關，很有必要使用 Public LB 的反饋來進行模型的選擇，尤其對於(c)圖所示的情況。

數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

圖4. 適當利用 Public LB 的反饋

（圖參考 Owenzhang 的分享 [1]）

2.5 模型集成

如果想在比賽中獲得名次，幾乎都要進行模型集成（組隊也是一種模型集成）。關於模型集成的介紹，已經有比較好的博文了，可以參考 [3]。在這裡，我簡單介紹下常用的方法，以及個人的一些經驗。

2.5.1 Averaging 和 Voting

直接對多個模型的預測結果求平均或者投票。對於目標變量為連續值的任務，使用平均；對於目標變量為離散值的任務，使用投票的方式。

2.5.2 Stacking

數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

圖5. 5-Fold Stacking

（圖參考 Jeong-Yoon Lee 的分享 [4]）

圖5展示了使用 5-Fold 進行一次 Stacking 的過程（當然在其上可以再疊加 Stage 2, Stage 3 等）。其主要的步驟如下：

1. 數據集劃分。將訓練數據按照5-Fold進行劃分（如果數據跟時間有關，需要按時間劃分，更一般的劃分方式請參考3.4.2節，這裡不再贅述）；

2. 基礎模型訓練 I（如圖5第一行左半部分所示）。按照交叉驗證（Cross Validation）的方法，在訓練集（Training Fold）上面訓練模型（如圖灰色部分所示），並在驗證集（Validation Fold）上面做預測，得到預測結果（如圖黃色部分所示）。最後綜合得到整個訓練集上面的預測結果（如圖第一個黃色部分的CV Prediction所示）。

3. 基礎模型訓練 II（如圖5第二和三行左半部分所示）。在全量的訓練集上訓練模型（如圖第二行灰色部分所示），並在測試集上面做預測，得到預測結果（如圖第三行虛線後綠色部分所示）。

4. Stage 1 模型集成訓練 I（如圖5第一行右半部分所示）。將步驟 2 中得到的 CV Prediction 當作新的訓練集，按照步驟 2 可以得到 Stage 1模型集成的 CV Prediction。

5. Stage 1 模型集成訓練 II（如圖5第二和三行右半部分所示）。將步驟 2 中得到的 CV Prediction 當作新的訓練集和步驟 3 中得到的 Prediction 當作新的測試集，按照步驟 3 可以得到 Stage 1 模型集成的測試集 Prediction。此為 Stage 1 的輸出，可以提交至 Kaggle 驗證其效果。

在圖5中，基礎模型只展示了一個，而實際應用中，基礎模型可以多種多樣，如SVM，DNN，XGBoost 等。也可以相同的模型，不同的參數，或者不同的樣本權重。重複4和5兩個步驟，可以相繼疊加 Stage 2, Stage 3 等模型。

2.5.3 Blending

Blending 與 Stacking 類似，但單獨留出一部分數據（如 20%）用於訓練 Stage X 模型。

2.5.4 Bagging Ensemble Selection

Bagging Ensemble Selection [5] 是我在 CrowdFlower 搜索相關性比賽中使用的方法，其主要的優點在於可以以優化任意的指標來進行模型集成。這些指標可以是可導的（如 LogLoss 等）和不可導的（如正確率，AUC，Quadratic Weighted Kappa等）。它是一個前向貪婪算法，存在過擬合的可能性，作者在文獻 [5] 中提出了一系列的方法（如 Bagging）來降低這種風險，穩定集成模型的性能。使用這個方法，需要有成百上千的基礎模型。為此，在 CrowdFlower 的比賽中，我把在調參過程中所有的中間模型以及相應的預測結果保留下來，作為基礎模型。這樣做的好處是，不僅僅能夠找到最優的單模型（Best Single Model），而且所有的中間模型還可以參與模型集成，進一步提升效果。

2.6 自動化框架

從上面的介紹可以看到，做一個數據挖掘比賽涉及到的模塊非常多，若有一個較自動化的框架會使得整個過程更加的高效。在 CrowdFlower 比賽較前期，我對整一個項目的代碼架構進行了重構，抽象出來特徵工程，模型調參和驗證，以及模型集成等三大模塊，極大的提高了嘗試新特徵，新模型的效率，也是我最終能斬獲名次的一個有利因素。這份代碼開源在 Github 上面，目前是 Github 有關 Kaggle 競賽解決方案的 Most Stars，地址：https://github.com/ChenglongChen/Kaggle_CrowdFlower。

其主要包含以下部分：

1. 模塊化特徵工程

a) 接口統一，只需寫少量的代碼就能夠生成新的特徵；

b) 自動將單獨的特徵拼接成特徵矩陣。

2. 自動化模型調參和驗證

a) 自定義訓練集和驗證集的劃分方法；

b) 使用 Grid Search / Hyperopt 等方法，對特定的模型在指定的參數空間進行調優，並記錄最佳的模型參數以及相應的性能。

3. 自動化模型集成

a) 對於指定的基礎模型，按照一定的方法（如Averaging/Stacking/Blending 等）生成集成模型。

Kaggle競賽方案盤點

到目前為止，Kaggle 平臺上面已經舉辦了大大小小不同的賽事，覆蓋圖像分類，銷量預估，搜索相關性，點擊率預估等應用場景。在不少的比賽中，獲勝者都會把自己的方案開源出來，並且非常樂於分享比賽經驗和技巧心得。這些開源方案和經驗分享對於廣大的新手和老手來說，是入門和進階非常好的參考資料。以下筆者結合自身的背景和興趣，對不同場景的競賽開源方案作一個簡單的盤點，總結其常用的方法和工具，以期啟發思路。

3.1 圖像分類

3.1.1 任務名稱

National Data Science Bowl

3.1.2 任務詳情

隨著深度學習在視覺圖像領域獲得巨大成功，Kaggle 上面出現了越來越多跟視覺圖像相關的比賽。這些比賽的發佈吸引了眾多參賽選手，探索基於深度學習的方法來解決垂直領域的圖像問題。NDSB就是其中一個比較早期的圖像分類相關的比賽。這個比賽的目標是利用提供的大量的海洋浮游生物的二值圖像，通過構建模型，從而實現自動分類。

3.1.3 獲獎方案

● 1st place：Cyclic Pooling + Rolling Feature Maps + Unsupervised and Semi-Supervised Approaches。值得一提的是，這個隊伍的主力隊員也是Galaxy Zoo行星圖像分類比賽的第一名，其也是Theano中基於FFT的Fast Conv的開發者。在兩次比賽中，使用的都是 Theano，而且用的非常溜。方案鏈接：http://benanne.github.io/2015/03/17/plankton.html

● 2nd place：Deep CNN designing theory + VGG-like model + RReLU。這個隊伍陣容也相當強大，有前MSRA 的研究員Xudong Cao，還有大神Tianqi Chen，Naiyan Wang，Bing XU等。Tianqi 等大神當時使用的是 CXXNet（MXNet 的前身），也在這個比賽中進行了推廣。Tianqi 大神另外一個大名鼎鼎的作品就是 XGBoost，現在 Kaggle 上面幾乎每場比賽的 Top 10 隊伍都會使用。方案鏈接：https://www.kaggle.com/c/datasciencebowl/discussion/13166

● 17th place：Realtime data augmentation + BN + PReLU。方案鏈接：https://github.com/ChenglongChen/caffe-windows

3.1.4 常用工具

▲ Theano: http://deeplearning.net/software/theano/

▲ Keras: https://keras.io/

▲ Cuda-convnet2: https://github.com/akrizhevsky/cuda-convnet2

▲ Caffe: http://caffe.berkeleyvision.org/

▲ CXXNET: https://github.com/dmlc/cxxnet

▲ MXNet: https://github.com/dmlc/mxnet

▲ PaddlePaddle: http://www.paddlepaddle.org/cn/index.html

3.2 銷量預估

3.2.1 任務名稱

Walmart Recruiting - Store Sales Forecasting

3.2.2 任務詳情

Walmart 提供 2010-02-05 到 2012-11-01 期間的周銷售記錄作為訓練數據，需要參賽選手建立模型預測 2012-11-02 到 2013-07-26 周銷售量。比賽提供的特徵數據包含：Store ID, Department ID, CPI，氣溫，汽油價格，失業率，是否節假日等。

3.2.3 獲獎方案

● 1st place：Time series forecasting method: stlf + arima + ets。主要是基於時序序列的統計方法，大量使用了 Rob J Hyndman 的 forecast R 包。方案鏈接：https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/discussion/8125

● 2nd place：Time series forecasting + ML: arima + RF + LR + PCR。時序序列的統計方法+傳統機器學習方法的混合；方案鏈接：https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/discussion/8023

● 16th place：Feature engineering + GBM。方案鏈接：https://github.com/ChenglongChen/Kaggle_Walmart-Recruiting-Store-Sales-Forecasting

3.2.4 常用工具

▲ R forecast package: https://cran.r-project.org/web/packages/forecast/index.html

▲ R GBM package: https://cran.r-project.org/web/packages/gbm/index.html

3.3 搜索相關性

3.3.1 任務名稱

CrowdFlower Search Results Relevance

3.3.2 任務詳情

比賽要求選手利用約幾萬個 (query, title, description) 元組的數據作為訓練樣本，構建模型預測其相關性打分 {1, 2, 3, 4}。比賽提供了 query, title和description的原始文本數據。比賽使用 Quadratic Weighted Kappa 作為評估標準，使得該任務有別於常見的迴歸和分類任務。

3.3.3 獲獎方案

● 1st place：Data Cleaning + Feature Engineering + Base Model + Ensemble。對原始文本數據進行清洗後，提取了屬性特徵，距離特徵和基於分組的統計特徵等大量的特徵，使用了不同的目標函數訓練不同的模型（迴歸，分類，排序等），最後使用模型集成的方法對不同模型的預測結果進行融合。方案鏈接：https://github.com/ChenglongChen/Kaggle_CrowdFlower

● 2nd place：A Similar Workflow

● 3rd place： A Similar Workflow

3.3.4 常用工具

▲ NLTK: http://www.nltk.org/

▲ Gensim: https://radimrehurek.com/gensim/

▲ XGBoost: https://github.com/dmlc/xgboost

▲ RGF: https://github.com/baidu/fast_rgf

3.4 點擊率預估 I

3.4.1 任務名稱

Criteo Display Advertising Challenge

3.4.2 任務詳情

經典的點擊率預估比賽。該比賽中提供了7天的訓練數據，1 天的測試數據。其中有13 個整數特徵，26 個類別特徵，均脫敏，因此無法知道具體特徵含義。

3.4.3 獲獎方案

● 1st place：GBDT 特徵編碼 + FFM。臺大的隊伍，借鑑了Facebook的方案 [6]，使用 GBDT 對特徵進行編碼，然後將編碼後的特徵以及其他特徵輸入到 Field-aware Factorization Machine（FFM）中進行建模。方案鏈接：https://www.kaggle.com/c/criteo-display-ad-challenge/discussion/10555

● 3rd place：Quadratic Feature Generation + FTRL。傳統特徵工程和 FTRL 線性模型的結合。方案鏈接：https://www.kaggle.com/c/criteo-display-ad-challenge/discussion/10534

● 4th place：Feature Engineering + Sparse DNN

3.4.4 常用工具

▲ Vowpal Wabbit: https://github.com/JohnLangford/vowpal_wabbit

▲ XGBoost: https://github.com/dmlc/xgboost

▲ LIBFFM: http://www.csie.ntu.edu.tw/~r01922136/libffm/

3.5 點擊率預估 II

3.5.1 任務名稱

Avazu Click-Through Rate Prediction

3.5.2 任務詳情

點擊率預估比賽。提供了 10 天的訓練數據，1 天的測試數據，並且提供時間，banner 位置，site, app, device 特徵等，8個脫敏類別特徵。

3.5.3 獲獎方案

● 1st place：Feature Engineering + FFM + Ensemble。還是臺大的隊伍，這次比賽，他們大量使用了 FFM，並只基於 FFM 進行集成。方案鏈接：https://www.kaggle.com/c/avazu-ctr-prediction/discussion/12608

● 2nd place：Feature Engineering + GBDT 特徵編碼 + FFM + Blending。Owenzhang（曾經長時間雄霸 Kaggle 排行榜第一）的競賽方案。Owenzhang 的特徵工程做得非常有參考價值。方案鏈接：https://github.com/owenzhang/kaggle-avazu

3.5.4 常用工具

▲ LIBFFM: http://www.csie.ntu.edu.tw/~r01922136/libffm/

▲ XGBoost: https://github.com/dmlc/xgboost

參考資料

[1] Owenzhang 的分享： Tips for Data Science Competitions

[2] Algorithms for Hyper-Parameter Optimization

[3] MLWave博客：Kaggle Ensembling Guide

[4] Jeong-Yoon Lee 的分享：Winning Data Science Competitions

[5] Ensemble Selection from Libraries of Models

[6] Practical Lessons from Predicting Clicks on Ads at Facebook

結語

作為曾經的學生黨，十分感激和慶幸有 Kaggle 這樣的平臺，提供了不同領域極具挑戰的任務以及豐富多樣的數據。讓我這種空有滿（yi）腔（xie）理（wai）論（li）的數據挖掘小白，可以在真實的問題場景和業務數據中進行實操練手，提升自己的數據挖掘技能，一不小心，還能拿名次，贏獎金。如果你也躍躍欲試，不妨選一個合適的任務，開啟數據挖掘之旅吧。哦，對了，我們部門今年舉辦了“騰訊社交廣告高校算法大賽”，做移動 App 廣告轉化率預估，有大量的真實數據，豐厚的獎品和獎金，Top 20隊伍還能獲得校招綠色通道，你要不要來試試？傳送門：http://algo.tpai.qq.com

—END—

公眾號：datafa

新書鏈接：

【數據分析俠《人人都會數據分析》20萬字書籍】http://m.tb.cn/h.AJEkoq 點擊鏈接，再選擇瀏覽器打開；或複製這條信息￥fSnh09F0Vpy￥後打開手淘

分享到:

關鍵字: 訓練集 DNN F

2個工具教你在瀏覽器中運行開發notebooks中的python代碼

乾貨分享 | 11個數據競賽平臺大盤點，文末還有競賽實例詳解

學起來！趣味、技能和價值兼備的14個數據科學項目的清單

Kaggle競賽神器Facets：快速把控數據分析核心環節

可視化分析最新Kaggle活躍用戶調查報告

冠軍！現實版韓商言！支付寶「KK 戰隊」戰勝全球 1600 支隊伍

kaggle | 商城客戶細分數據

資深專家王維強：服務12億用戶的支付寶需要怎樣的安全人才？

數據科學的子彈庫-數據集大全

隔離太無聊？每天一個數據科學項目，數據集都準備好了！

為什麼要參加Kaggle數據科學競賽？

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

相關文章:

2個工具教你在瀏覽器中運行開發notebooks中的python代碼

乾貨分享 | 11個數據競賽平臺大盤點，文末還有競賽實例詳解

學起來！趣味、技能和價值兼備的14個數據科學項目的清單

Kaggle競賽神器Facets：快速把控數據分析核心環節

可視化分析最新Kaggle活躍用戶調查報告

冠軍！現實版韓商言！支付寶「KK 戰隊」戰勝全球 1600 支隊伍

kaggle | 商城客戶細分數據

資深專家王維強：服務12億用戶的支付寶需要怎樣的安全人才？

數據科學的子彈庫-數據集大全

隔離太無聊？每天一個數據科學項目，數據集都準備好了！

為什麼要參加Kaggle數據科學競賽？

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

備考消防的幾大錯覺，你有這個情況嗎？

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

應急科普丨“五一” 期間氣溫回升 謹防森林火災隱患

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

工程發承包、工程造價條款，或迎來大調整

新增四省！關於2019年一級建造師考試證書、複核發佈公告

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

幸福的人，總會忘記舊愛

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

驚了！這件事沒有做，一消證書等於白考！

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

高考延期：七月的高考，最熱的天，做最難的題！

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患