04.19 使用logistic对评论的进行分类

在之前我们介绍了对电影评论的预处理的方法,分词、提取词干、去除停用词、提取句子的TF-IDF特征向量。在这篇文章中,我们将介绍使用评论的TF-IDF特征向量,使用logistic回归实现对评论的分类,并使用表格搜索来寻找最优参数。

使用logistic对评论的进行分类

1、导入相关包

使用logistic对评论的进行分类

2、评论的预处理

使用logistic对评论的进行分类

3、获取数据集

使用logistic对评论的进行分类

4、训练评价模型

使用logistic对评论的进行分类

使用logistic对评论的进行分类

通过网格搜索可以发现上面输出的最佳参数是C的值为10.0,使用L2正则化。交叉验证模型在训练集上的准确率为89.9%与测试集的准确率90.6%很接近,说明模型没有存在过拟合和欠拟合。

5、保存模型

使用logistic对评论的进行分类

保存模型之后,在当前目录下会产生两个pkl的文件,一个是停用词的pkl文件,一个是模型相关参数的文件。在后面介绍将模型嵌入到web系统中,会使用到这两个pkl文件。

总结:使用网格搜索可以得到最佳模型,同时也会造成的大量硬件资源消耗,需要较高的配置,不然等待的实际可能会更长。使用45000条评论进行模型训练的时候,需要计算大量评论的特征向量,以及大量的单词,完成整个过程大概花了2到3个小时。后面会介绍使用在线算法来提高计算速度。


分享到:


相關文章: