什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

一、数据获取和清洗

现在爬虫泛滥,网络公开数据的获取并不再是一个难题。简单点可以利用一些互联网的爬虫服务(如神箭手、八爪鱼等),复杂点也可以自己写爬虫。这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言,京东比较坑。第一个坑是京东的反爬虫还不错,通过正常产品网址进去的那个评论列表是几乎爬不出数据来的,所有大部分网络爬虫服务都止步于此。第二个坑是一款产品的评论数只要超过一万条,那么京东就只会显示前一千条,没有公开的数据,那你爬虫技术再厉害也没办法,除非开着爬虫定时增量更新数据。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

一共有3497条评论,其中有些评论内容还是完全相同的。用户大概在购买9天后后评论(可能与到货日期有关),平均打分为4.87分,评论里面有些完全相同的,小米MIX2只有一种颜色等等。

接下来我们先做第一件事情

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

这种评论中它纯属凑字数和灌水,不含任何产品的特征。一种想法是看看评论中涉及的名词是否是手机领域中的词语,但是实际情况会非常复杂,比如

“用的很不错”、“太差了”...

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

这种情况在追评中出现的较多,还有就是京东默认的好评。虽然内容是差评,但是标记的分值是5分。理论上也可以通过算法找出大部分。在NLP领域中,有一个课题叫做情感分析(sentiment analysis), 它可以判断一句话的情感方向是正面的还是负面的(以概率大小给出,数值在0-1之间)。如果一段评论的情感方向与对应的评分差异过大,则我们有理由相信它的评分是有误的。当然这里有一个条件,那就是这个情感分析算法是非常准确的。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

嗯嗯,准确率为92.63%,看上去很高,但。。。因为我把所有评论都判定为好评,那正确率也有96.54%。再看上图中的ROC曲线,嗯,惨不忍睹。曲线跟x轴之间的面积(记作AUC)越大,说明模型的判别能力越好。一般情况曲线会在对角线之上(对角线相当于随机预测的结果),可以此时AUC=0.157,比随机结果差多啦。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

三、典型意见抽取和挖掘

电商评论不同于一般的网络文本,它主要的特点在于语料都是在针对产品的某些特征作出评价。这一节我们希望能通过算法找到这些特征。

细想下,语料主要在对特征做出评价,而特征一般是名词,评价一般是形容词。相对来讲产品的形容词不会很多,如“不错”、“流畅”、“很好”之类的,所以可以通过关联分析来发现初始的特征-形容词对,如("手机"-"不错")、("手机"-"流畅")等。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

可以看到与手机有关的大部分特征都找出来啦,另外有一些是关于京东的,如"速度"、"京东"、"快递"。还一些不是特征的,比如:"有点","想象"

在语料中搜索与"外观"有关的语句,先看看大家在讲"外观"时,都在聊些啥?

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

看来小米MIX2的外观还是很不错的,有很多人都是冲着外观买的。接下来我们来量化各个特征的好评占比和差评占比。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

可以看到提及最多的特征依次为:感觉、屏幕、速度、手感、系统、边框、摄像头、全面屏、拍照、体验、256g、外观、质量、性价比

其中比较好的依次为:性价比、质量、手感、速度、外观、感觉

其中稍差些的依次为:256g、屏幕、边框、拍照、摄像头、系统、体验、全面屏

最后的最后我们来看下这些特征对应的语料。

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

当然本文的pptx要复杂一些,相应的代码和生成的报告如下:

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门

什么是数据分析?什么是数据挖掘?通过这篇最详细的案例带你入门


分享到:


相關文章: