04.09 对电影评论进行情感分析之文本数据的准备(一)

通过电影评论来做情感分析,主要包括下面几个主要内容:

1、准备文本数据

2、基于文本文档来构建特征向量

3、训练机器学习模型来区分电影评论的正面评论和负面评论

4、使用外存学习和在线学习算法来处理大数据

在本篇文章中,主要介绍对于电影评论数据的准备工作。

一、情感分析

情感分析也称观点挖掘(opinion mining),是机器学习中自然语言处理(NLP)领域一个非常流行的分支,它主要是分析文档的情感倾向。

对电影评论进行情感分析之文本数据的准备(一)

二、下载数据

IMDb电影评论下载链接:http://ai.stanford.edu/~amaas/data/sentiment/

对电影评论进行情感分析之文本数据的准备(一)

该电影评论是来自IMDb中的电影评论,数据集一共包含了50000个关于电影的正面评论和负面评论,正面评论代表对于影片的评分超过了6颗星,而负面评论则表示评分低于5颗星。50000条评论被分成了四个文件夹train的neg和pos和test的neg和pos,其中每个文件夹中包含了12500个txt电影评论文件,其中pos代表正面评论,neg代表负面评论。所以,我们需要将这50000个txt文件整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)。

三、生成电影评论的表格文件

将50000个txt文件整合成一个表格文件的时候,需要十分钟左右。我们可以通过Python的pyprind库将整个处理过程可视化,同时它还能根据当前计算机的运行状态来估计剩余处理时间,处理完成之后,还能查看消耗的总时间。通过python的数据分析库pandas将电影评论保存成一个csv文件。

1、预计处理总时间

对电影评论进行情感分析之文本数据的准备(一)

2、统计处理总时间

对电影评论进行情感分析之文本数据的准备(一)

3、python实现代码

对电影评论进行情感分析之文本数据的准备(一)

对电影评论进行情感分析之文本数据的准备(一)


分享到:


相關文章: