做数据挖掘三年多了,数据处理用的最顺手的莫过于python中pandas库了,几乎每天都在使用,但是有太多强大的函数和方法都经常一到撸代码的时候就忘记了,所以,根据以前使用的经验,把一些常用的记录下来,方便使用的时候查阅。
![pandas数据挖掘学习笔记](http://p2.ttnews.xyz/loading.gif)
Pandas是一个开源的Python数据分析库。
![pandas数据挖掘学习笔记](http://p2.ttnews.xyz/loading.gif)
Pandas把结构化数据分为了三类:
Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;
DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);
Panel,为3维的结构化数据,可视作为DataFrame的容器
Series
可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引
DataFrame表示的是一个二维数组
读取数据文件
pandas库提供了一系列的read_函数来读取各种格式的文件,它们如下所示:
read_csv
read_table
read_excel 注:要读取Excel文件,还需要安装另外一个库:xlrd 这样安装pip install xlrd
read_hdf
read_html
read_json
read_pickle
read_sql
数据查看
数据排序
数据筛选
根据布尔值来筛选数据
使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数和求和。
1、使用"与"进行筛选
2、使用"或"进行筛选
3、使用"非"条件进行筛选
4、使用query函数进行筛选
Pandas描述性统计
有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作。
数据整理
数据合并
1) concat
2) merge
函数应用
分组聚合
透视表
数据输出
目前用过的就以上这么多,如果还有其他更强大的功能,欢迎小伙伴留言
閱讀更多 愛數據的小司機 的文章