04.19 使用logistic對評論的進行分類

在之前我們介紹了對電影評論的預處理的方法,分詞、提取詞幹、去除停用詞、提取句子的TF-IDF特徵向量。在這篇文章中,我們將介紹使用評論的TF-IDF特徵向量,使用logistic迴歸實現對評論的分類,並使用表格搜索來尋找最優參數。

使用logistic對評論的進行分類

1、導入相關包

使用logistic對評論的進行分類

2、評論的預處理

使用logistic對評論的進行分類

3、獲取數據集

使用logistic對評論的進行分類

4、訓練評價模型

使用logistic對評論的進行分類

使用logistic對評論的進行分類

通過網格搜索可以發現上面輸出的最佳參數是C的值為10.0,使用L2正則化。交叉驗證模型在訓練集上的準確率為89.9%與測試集的準確率90.6%很接近,說明模型沒有存在過擬合和欠擬合。

5、保存模型

使用logistic對評論的進行分類

保存模型之後,在當前目錄下會產生兩個pkl的文件,一個是停用詞的pkl文件,一個是模型相關參數的文件。在後面介紹將模型嵌入到web系統中,會使用到這兩個pkl文件。

總結:使用網格搜索可以得到最佳模型,同時也會造成的大量硬件資源消耗,需要較高的配置,不然等待的實際可能會更長。使用45000條評論進行模型訓練的時候,需要計算大量評論的特徵向量,以及大量的單詞,完成整個過程大概花了2到3個小時。後面會介紹使用在線算法來提高計算速度。


分享到:


相關文章: