下面以總理2015報告原文進行挖掘處理,先將報告內容保存為TXT格式文本。
相關的數據下載地址為:https://github.com/windform/report2015dug
> library(rJava)
> library(Rwordseg)
> library(wordcloud)
> #讀入文本數據
> mydata
> #中文分詞
> txt
> #將列表轉換為向量
> txt.aslist
> #詞語統計
> txt.freq
> #頻數排序
> txt.result
> #導入停止詞表
> stopword
> #將數據轉換為向量型數據
> stopword.v
> #去除詞語統計中的停止詞
> word.pure
> #取出非停止詞
> txt.pure
>#提取前100位詞語畫詞雲
> wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order = FALSE,random.color = FALSE,colors=mycolors)
這是根據總理2015年的政府工作報告製作的可視化詞雲,上圖能很直觀看到,工作報告的重心是"發展",這是大方向,圍繞發展的關鍵要素有經濟建設、改革、農村、城鎮等要素。
閱讀更多 數據分析和挖掘 的文章