標籤binarize brand_name列。
為item_condition_id和shipping列創建虛擬變量。
創建合併稀疏。
刪除文檔頻率<= 1的功能。
從稀疏合併中分離出訓練和測試數據。
為lightgbm創建數據集。
將我們的參數指定為dict。
- 當我們處理迴歸問題的時候,將“迴歸”作為應用程序。
- 使用“RMSE”作為指標,因為這是一個迴歸問題。
- “num_leaves”= 100,因為我們的數據相對較大。
- 使用“max_depth”以避免過度擬合。
- 使用“verbosity”來控制LightGBM的詳細程度(<0:致命)。
- 用“learning_rate”確定每棵樹對最終結果的影響。
訓練開始
訓練模型需要參數列表和數據集。訓練需要一段時間。
預測
評估
預測的rmse是:0.46164222941613137
源代碼可以在Github上找到。(https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/Mercari%20Price%20Suggestion%20Lightgbm.ipynb)
閱讀更多 AI中國 的文章