如期而至-用戶購買時間預測(下)

關注並標星索信達

每天打卡閱讀

更快走進金融人工智能世界

━━━━━━

如期而至-用戶購買時間預測(下)


我們是索信達集團旗下的金融人工智能實驗室團隊,微信公眾號(datamargin)將不定期推送原創AI科學文章。我們的作品都是由實戰經驗豐富的AI科學技術人員或資深顧問精心準備,志在分享結合實際業務的理論應用和心得體會。


文 | 嚴 文 輝 王 晨 楊 弦

相信已經閱讀了如期而至-用戶購買時間預測(上)的小夥伴已經迫不及待的想看接下來的精彩內容了吧,現在我們就一起來看看吧!


如期而至-用戶購買時間預測(下)


7.特徵構建


我們通常期望有一個龐大的數據集,以便使算法能夠識別數據集中的模式。機器學習為處理如此龐大的數據提出了有效的解決方案。

使用過去的觀測值計算的技術指標,已被用作特徵,因此,當執行bagging時,日期的順序變得無關緊要。我們用t - n數據計算這些指標,再利用它們來預測t + 1事件。一個極端的例子是我們使用第3天的特徵,30天的特徵來預測第45天。然而,這樣做並不會忽略連續幾天的相關信息。特徵提取是一種從觀察中計算數字或符號信息的機制。主要任務是選擇或組合保存大部分信息的特性,並刪除冗餘的組件,以提高後續的分類的效率,而不會降低性能。它是獲取更高層次信息的過程。特徵空間的維數可以通過選擇好特徵子集來減少。特徵提取在提高分類性能和降低計算複雜度方面起著重要的作用。它還提高了計算速度,因為對於較少的特性,需要估計較少的參數。


如期而至-用戶購買時間預測(下)




如期而至-用戶購買時間預測(下)



7.1 特徵提取算法

特徵提取,也稱為特徵子集選擇(FSS),或屬性選擇(屬性選擇),這是一種從所有的輸入特徵中選擇特徵子集的方法,使構建的模型更好。在機器學習的實際應用中,特徵量通常是非常大的,其中可能存在不相關的特徵,或者特徵可能相互依賴。特徵選擇可以去除不相關的或冗餘的特徵,從而減少特徵的數量以提高模型的準確性。選擇真正相關的特徵可以簡化模型,使數據生成過程易於理解。

7.2 特徵分類

(1)超短期特徵:訓練集觀察期為2017年3月15日—2017年3月31日,共計15天,訓練集預測期為2017年4月1日—2017年4月30日;

(2)短期特徵:訓練集觀察期為2017年3月1日—2017年3月31日,共計30天,訓練集預測期為2017年4月1日—2017年4月30日;

(3)中期特徵:訓練集觀察期為2017年1月1日—2017年3月31日,共計3個月,訓練集預測期為2017年4月1日—2017年4月30日;

(4)長期特徵:訓練集觀察期為2016年10月1日—2017年3月31日,共計6個月,訓練集預測期為2017年4月1日—2017年4月30日

7.3 特徵選取

由於目標是預測最有可能購買的用戶群體及其首次購買的時間,選擇構建與用戶基本信息、用戶購買特徵、用戶行為特徵、用戶評價特徵、時間特徵有關的特徵,力求考慮全面,以得到較優的訓練結果。

(1)用戶基本信息:選擇用戶年齡、用戶性別、用戶等級作為特徵;

(2)用戶購買特徵:選擇用戶下單數目、用戶購買次數、用戶購買天數、用戶購買件數、用戶購買總價、用戶購買均價作為特徵;

(3)用戶行為特徵:選擇瀏覽商品的用戶數目、關注商品的用戶數目、用戶瀏覽天數、用戶關注天數、最高瀏覽次數、最低瀏覽次數、最高關注次數、最低關注次數作為特徵;

(4)用戶評論特徵:選擇評論數目作為特徵;

(5)時間特徵:選擇用戶第一次購買時間、用戶最後一次購買時間、當月平均第幾天購買、用戶購買的月份數目作為特徵。


如期而至-用戶購買時間預測(下)


8.模型構建


前面所討論的特徵構建與特徵選擇都是為了接下來預測模型的建立提供具有對預測目標有較大區分度的數據。通常來說,對於同一個模型,運用不同的特徵進行建模,得到預測的效果是有區別的,一個好的特徵工程往往能夠很大程度地提高模型的預測能力。但是,在完成一個較好的體徵工程後,如何能夠進一步地提高我們模型的預測能力,就取決於不同模型對數據的解釋能力。發展到如今。機器學習領域已經積累了豐富的預測模型,每一種模型的背後都蘊含了不同的思想,這也就是模型對數據的解釋能力。如何能夠在眾多的模型中找到適合當前問題的模型往往從數據層面上是很難決定的,因此,一般是通過一定的評價標準來對不同模型的預測結果來進行度量,從而選擇其中效果最好的認為其是適合於當前問題的解決方案。

本次研究主要利用LightGBM集成模型框架。LightGBM算法包含兩個關鍵點:light即輕量級,GBM 梯度提升機。LightGBM 算法是一個梯度 boosting 框架,使用基於學習算法的決策樹。其目標是通過學習,得到集成模型M,其中:


如期而至-用戶購買時間預測(下)


M表示集成模型,T表示決策樹分類器

基於LightGBM算法,我們可以定義一個損失函數(Loss Function),對於迴歸,使用 (MSE),下一決策樹的目標就是擬合已有模型的預測值與真實值的殘差。

8.1 LightGBM VS XGBoost

優點:

(1)訓練速度快,訓練效率高;

(2)支持並行學習;

(3)基於Histogram的決策樹算法。

用途:

(1)分類問題

(2)迴歸問題

(3)排序問題

區別:

(1)算法:XGBoost使用的是pre-sorted算法(對所有特徵都按照特徵的數值進行預排序,基本思想是對所有特徵都按照特徵的數值進行預排序;然後在遍歷分割點的時候用O(#data)的代價找到一個特徵上的最好分割點最後,找到一個特徵的分割點後,將數據分裂成左右子節點。優點是能夠更精確的找到數據分隔點;但這種做法有以下缺點;LightGBM使用的是histogram算法,基本思想是先把連續的浮點特徵值離散化成k個整數,同時構造一個寬度為k的直方圖。在遍歷數據的時候,根據離散化後的值作為索引在直方圖中累積,當遍歷一次數據後,直方圖累積了需要的統計量,然後根據直方圖的離散值,遍歷尋找最優的分割點;

(2)決策樹生長策略:XGBoost採用的是帶深度限制的level-wise生長策略,Level-wise過一次數據可以能夠同時分裂同一層的葉子,容易進行多線程優化,不容易過擬合;但不加區分的對待同一層的葉子,帶來了很多沒必要的開銷(因為實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂);LightGBM採用leaf-wise生長策略,每次從當前所有葉子中找到分裂增益最大(一般也是數據量最大)的一個葉子,然後分裂,如此循環;但會生長出比較深的決策樹,產生過擬合(因此 LightGBM 在leaf-wise之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合)。


如期而至-用戶購買時間預測(下)


8.2 LightGBM參數設置

(1)num_leaves:LightGBM使用的是leaf-wise的算法,因此在調節樹的複雜程度時,使用的是num_leaves而不是max_depth。大致換算關係是num_leaves = 2^(max_depth)。

(2)Bagging參數:bagging_fraction和bagging_freq(必須同時設置)、feature_fraction。

(3)min_data_in_leaf、min_sum_hessian_in_leaf

8.3 模型框架

由於一個模型的好壞主要體現在模型的擬合能力和泛化能力上,因此,我們在使用集成模型的同時對模型進行了融合。原因在於基於梯度提升的集成模型擁有低偏差而高方差的特點,而基於bagging的模型集成具有低方差而高偏差的特點,對模型進行兩階段的融合,能夠兼顧兩種集成策略的優缺點,達到既能減少偏差,又能減少方差的目的。

本次研究解決問題的思路是把問題轉化成兩個迴歸問題,因此,我們針對迴歸問題搭建瞭如圖所示的模型結構框架:


如期而至-用戶購買時間預測(下)


基於以上的一個迴歸預測模型框架,我們整個問題的解決框架如下:


如期而至-用戶購買時間預測(下)


如期而至-用戶購買時間預測(下)


9.結果展示


9.1 評分標準

評價指標分為用戶評價和用戶下單日期評價兩部分:

(1)用戶評價


如期而至-用戶購買時間預測(下)


其中,Oi 表示選手預測的第 i 個用戶的正確標誌,當預測正確時Oi=1,否則 Oi=0。N為提交的記錄數。

(2)用戶下單日期評價


如期而至-用戶購買時間預測(下)


其中,Ur 為答案用戶集合,du表示用戶 u 的預測日期與真實日期之間的距離。結果的得分由以下表達式確定:


如期而至-用戶購買時間預測(下)


其中:α=0.4。

9.2 結論

隨著電子商務的迅猛發展,人們一方面欣喜於網上商城商品的極大豐富,一方面也為隨著商品的增多,在網上商城尋找自己想要並喜歡的商品越來越難了。網上商城通過個性化推薦系統的推薦引擎深度挖掘出商城用戶的行為偏好,打造個性化推薦欄,智能向用戶展示符合其興趣偏好和購買意圖的商品,幫助用戶更快速更容易找到所需要的商品,讓用戶購物有更流暢更舒心的體驗。另一方面個性化推薦欄也可以起到輔助用戶決策,提高網購效率的作用。這裡就存在著一個原理:因每個用戶的興趣而宜,智能向用戶推薦他最可能喜歡的商品,這不但是個性化營銷,更加是電子商務精準營銷的最好表現和做法。

本文研究基於近800萬條數據,通過多次地特徵增改、參數調整和模型訓練,得到共計50000條預測結果,包括在目標時段內最有可能購買目標商品的用戶id,以及這些用戶在目標時段內首次購買的日期。基於以上評分標準,預測結果的得分為0.3458,在所有提交結果中排名前15%,比基準得分提高近兩倍,預測效果較好。



分享到:


相關文章: