R語言數據挖掘實踐——總理2015報告文本挖掘實戰

R語言數據挖掘實踐——總理2015報告文本挖掘實戰

下面以總理2015報告原文進行挖掘處理,先將報告內容保存為TXT格式文本。

相關的數據下載地址為:https://github.com/windform/report2015dug

> library(rJava)

> library(Rwordseg)

> library(wordcloud)

> #讀入文本數據

> mydata

> #中文分詞

> txt

> #將列表轉換為向量

> txt.aslist

> #詞語統計

> txt.freq

> #頻數排序

> txt.result

> #導入停止詞表

> stopword

> #將數據轉換為向量型數據

> stopword.v

> #去除詞語統計中的停止詞

> word.pure

> #取出非停止詞

> txt.pure

>#提取前100位詞語畫詞雲

> wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order = FALSE,random.color = FALSE,colors=mycolors)

R語言數據挖掘實踐——總理2015報告文本挖掘實戰

這是根據總理2015年的政府工作報告製作的可視化詞雲,上圖能很直觀看到,工作報告的重心是"發展",這是大方向,圍繞發展的關鍵要素有經濟建設、改革、農村、城鎮等要素。


分享到:


相關文章: