06.13 pandas数据挖掘学习笔记

做数据挖掘三年多了,数据处理用的最顺手的莫过于python中pandas库了,几乎每天都在使用,但是有太多强大的函数和方法都经常一到撸代码的时候就忘记了,所以,根据以前使用的经验,把一些常用的记录下来,方便使用的时候查阅。

pandas数据挖掘学习笔记

Pandas是一个开源的Python数据分析库。

pandas数据挖掘学习笔记

Pandas把结构化数据分为了三类:

Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;

DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);

Panel,为3维的结构化数据,可视作为DataFrame的容器

Series

可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引

pandas数据挖掘学习笔记

DataFrame表示的是一个二维数组

pandas数据挖掘学习笔记

读取数据文件

pandas库提供了一系列的read_函数来读取各种格式的文件,它们如下所示:

read_csv

read_table

read_excel 注:要读取Excel文件,还需要安装另外一个库:xlrd 这样安装pip install xlrd

pandas数据挖掘学习笔记

read_hdf

read_html

read_json

read_pickle

read_sql

数据查看

pandas数据挖掘学习笔记

数据排序

pandas数据挖掘学习笔记

数据筛选

pandas数据挖掘学习笔记

根据布尔值来筛选数据

pandas数据挖掘学习笔记

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数和求和。

1、使用"与"进行筛选

pandas数据挖掘学习笔记

2、使用"或"进行筛选

pandas数据挖掘学习笔记

3、使用"非"条件进行筛选

pandas数据挖掘学习笔记

4、使用query函数进行筛选

pandas数据挖掘学习笔记

Pandas描述性统计

有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作。

pandas数据挖掘学习笔记

pandas数据挖掘学习笔记

数据整理

pandas数据挖掘学习笔记

数据合并

1) concat

pandas数据挖掘学习笔记

2) merge

pandas数据挖掘学习笔记

函数应用

pandas数据挖掘学习笔记

分组聚合

pandas数据挖掘学习笔记

pandas数据挖掘学习笔记

透视表

pandas数据挖掘学习笔记

数据输出

pandas数据挖掘学习笔记

目前用过的就以上这么多,如果还有其他更强大的功能,欢迎小伙伴留言


分享到:


相關文章: