什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

一、數據獲取和清洗

現在爬蟲氾濫,網絡公開數據的獲取並不再是一個難題。簡單點可以利用一些互聯網的爬蟲服務(如神箭手、八爪魚等),複雜點也可以自己寫爬蟲。這裡我們用爬蟲來獲取京東的評論數據。相對於亞馬遜而言,京東比較坑。第一個坑是京東的反爬蟲還不錯,通過正常產品網址進去的那個評論列表是幾乎爬不出數據來的,所有大部分網絡爬蟲服務都止步於此。第二個坑是一款產品的評論數只要超過一萬條,那麼京東就只會顯示前一千條,沒有公開的數據,那你爬蟲技術再厲害也沒辦法,除非開著爬蟲定時增量更新數據。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

一共有3497條評論,其中有些評論內容還是完全相同的。用戶大概在購買9天后後評論(可能與到貨日期有關),平均打分為4.87分,評論裡面有些完全相同的,小米MIX2只有一種顏色等等。

接下來我們先做第一件事情

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

這種評論中它純屬湊字數和灌水,不含任何產品的特徵。一種想法是看看評論中涉及的名詞是否是手機領域中的詞語,但是實際情況會非常複雜,比如

“用的很不錯”、“太差了”...

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

這種情況在追評中出現的較多,還有就是京東默認的好評。雖然內容是差評,但是標記的分值是5分。理論上也可以通過算法找出大部分。在NLP領域中,有一個課題叫做情感分析(sentiment analysis), 它可以判斷一句話的情感方向是正面的還是負面的(以概率大小給出,數值在0-1之間)。如果一段評論的情感方向與對應的評分差異過大,則我們有理由相信它的評分是有誤的。當然這裡有一個條件,那就是這個情感分析算法是非常準確的。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

嗯嗯,準確率為92.63%,看上去很高,但。。。因為我把所有評論都判定為好評,那正確率也有96.54%。再看上圖中的ROC曲線,嗯,慘不忍睹。曲線跟x軸之間的面積(記作AUC)越大,說明模型的判別能力越好。一般情況曲線會在對角線之上(對角線相當於隨機預測的結果),可以此時AUC=0.157,比隨機結果差多啦。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

三、典型意見抽取和挖掘

電商評論不同於一般的網絡文本,它主要的特點在於語料都是在針對產品的某些特徵作出評價。這一節我們希望能通過算法找到這些特徵。

細想下,語料主要在對特徵做出評價,而特徵一般是名詞,評價一般是形容詞。相對來講產品的形容詞不會很多,如“不錯”、“流暢”、“很好”之類的,所以可以通過關聯分析來發現初始的特徵-形容詞對,如("手機"-"不錯")、("手機"-"流暢")等。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

可以看到與手機有關的大部分特徵都找出來啦,另外有一些是關於京東的,如"速度"、"京東"、"快遞"。還一些不是特徵的,比如:"有點","想象"

在語料中搜索與"外觀"有關的語句,先看看大家在講"外觀"時,都在聊些啥?

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

看來小米MIX2的外觀還是很不錯的,有很多人都是衝著外觀買的。接下來我們來量化各個特徵的好評佔比和差評佔比。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

可以看到提及最多的特徵依次為:感覺、屏幕、速度、手感、系統、邊框、攝像頭、全面屏、拍照、體驗、256g、外觀、質量、性價比

其中比較好的依次為:性價比、質量、手感、速度、外觀、感覺

其中稍差些的依次為:256g、屏幕、邊框、拍照、攝像頭、系統、體驗、全面屏

最後的最後我們來看下這些特徵對應的語料。

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

當然本文的pptx要複雜一些,相應的代碼和生成的報告如下:

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門

什麼是數據分析?什麼是數據挖掘?通過這篇最詳細的案例帶你入門


分享到:


相關文章: