頭條網

R语言数据挖掘实践——总理2015报告文本挖掘实战

數據分析和挖掘

2017-09-24 19:40:12

下面以总理2015报告原文进行挖掘处理，先将报告内容保存为TXT格式文本。

相关的数据下载地址为：https://github.com/windform/report2015dug

> library(rJava)

> library(Rwordseg)

> library(wordcloud)

> #读入文本数据

> mydata

> #中文分词

> txt

> #将列表转换为向量

> txt.aslist

> #词语统计

> txt.freq

> #频数排序

> txt.result

> #导入停止词表

> stopword

> #将数据转换为向量型数据

> stopword.v

> #去除词语统计中的停止词

> word.pure

> #取出非停止词

> txt.pure

>#提取前100位词语画词云

> wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order = FALSE,random.color = FALSE,colors=mycolors)

这是根据总理2015年的政府工作报告制作的可视化词云，上图能很直观看到，工作报告的重心是"发展"，这是大方向，围绕发展的关键要素有经济建设、改革、农村、城镇等要素。

投资组合优化模型

In as.list(X) : 到达了流逝时间限制

R语言的相关性分析

连发7篇文只一篇发得出，R语言WGCNADGL分组code日志

非线性关系的分析方法---限制性立方样条（Restricted cubic spline，RCS）

R语言轻松掌握，只需要这3个语法

积极响应国家号召，在家认真工作学习

绽放玫瑰花图 R语言

临床试验样本量计算 R语言

多彩散点图 R语言

03.07 多彩散点图 R语言

03.07 Waterfall plot 瀑布图 R语言

酷炫树状图 R语言

03.07 酷炫树状图 R语言

小提琴图 R语言

「实战」助力数据库开发之接口篇

R 基础知识：数据结构（list & factor）

R语言实战（第2版）：第三章图形初阶(02标题+组合)

R语言实战（第2版）：第二章创建数据集（02）

R语言实战（第2版）：第一章 R语言介绍

10.23 SQL 查询语句总是先执行 SELECT？你们都错了

平稳时间序列分析之参数估计

R语言随机森林算法

03.30 比EXECL更简单的画直方图的步骤-R-【值得收藏】

R语言——投影追踪回归（PPR）

R语言——非线性最小二乘回归

R语言——QR分解的几个式子

R语言——批量产生公式接口

相關文章:

投资组合优化模型

In as.list(X) : 到达了流逝时间限制

R语言的相关性分析

连发7篇文只一篇发得出，R语言WGCNADGL分组code日志

非线性关系的分析方法---限制性立方样条（Restricted cubic spline，RCS）

R语言轻松掌握，只需要这3个语法

积极响应国家号召，在家认真工作学习

绽放玫瑰花图 R语言

临床试验样本量计算 R语言

多彩散点图 R语言

03.07 多彩散点图 R语言

03.07 Waterfall plot 瀑布图 R语言

酷炫树状图 R语言

03.07 酷炫树状图 R语言

小提琴图 R语言

「实战」助力数据库开发之接口篇

R 基础知识：数据结构（list & factor）

R语言实战（第2版）：第三章 图形初阶(02标题+组合)

R语言实战（第2版）：第二章 创建数据集（02）

R语言实战（第2版）：第一章 R语言介绍

10.23 SQL 查询语句总是先执行 SELECT？你们都错了

平稳时间序列分析之参数估计

R语言 随机森林算法

03.30 比EXECL更简单的画直方图的步骤-R-【值得收藏】

R语言——投影追踪回归（PPR）

R语言——非线性最小二乘回归

R语言——QR分解的几个式子

R语言——批量产生公式接口

R语言——规划求解

R语言——一个简单的画图示例

R语言——缺失值自动填补

R语言——几个基础统计

R语言——信息增益率、Gini系数、WOE、IV值

R语言——熵值和信息增益的计算

R语言——岭回归的二次正则化项

R语言第23篇——矩阵乘法

08.25 从认识R语言中的数据对象开始学习R语言

05.24 「干货教程」Pandas处理异常数据「推荐」

05.23 「干货课程」Pandas入门课程系列4「强烈推荐」

回归准确性计算

R语言主要数据探索函数

R语言数据质量分析