06.13 pandas數據挖掘學習筆記

做數據挖掘三年多了,數據處理用的最順手的莫過於python中pandas庫了,幾乎每天都在使用,但是有太多強大的函數和方法都經常一到擼代碼的時候就忘記了,所以,根據以前使用的經驗,把一些常用的記錄下來,方便使用的時候查閱。

pandas數據挖掘學習筆記

Pandas是一個開源的Python數據分析庫。

pandas數據挖掘學習筆記

Pandas把結構化數據分為了三類:

Series,1維序列,可視作為沒有column名的、只有一個column的DataFrame;

DataFrame,同Spark SQL中的DataFrame一樣,其概念來自於R語言,為多column並schema化的2維結構化數據,可視作為Series的容器(container);

Panel,為3維的結構化數據,可視作為DataFrame的容器

Series

可以通過傳遞一個list對象來創建一個Series,pandas會默認創建整型索引

pandas數據挖掘學習筆記

DataFrame表示的是一個二維數組

pandas數據挖掘學習筆記

讀取數據文件

pandas庫提供了一系列的read_函數來讀取各種格式的文件,它們如下所示:

read_csv

read_table

read_excel 注:要讀取Excel文件,還需要安裝另外一個庫:xlrd 這樣安裝pip install xlrd

pandas數據挖掘學習筆記

read_hdf

read_html

read_json

read_pickle

read_sql

數據查看

pandas數據挖掘學習筆記

數據排序

pandas數據挖掘學習筆記

數據篩選

pandas數據挖掘學習筆記

根據布爾值來篩選數據

pandas數據挖掘學習筆記

使用與、或、非三個條件配合大於、小於、等於對數據進行篩選,並進行計數和求和。

1、使用"與"進行篩選

pandas數據挖掘學習筆記

2、使用"或"進行篩選

pandas數據挖掘學習筆記

3、使用"非"條件進行篩選

pandas數據挖掘學習筆記

4、使用query函數進行篩選

pandas數據挖掘學習筆記

Pandas描述性統計

有很多方法用來集體計算DataFrame的描述性統計信息和其他相關操作。

pandas數據挖掘學習筆記

pandas數據挖掘學習筆記

數據整理

pandas數據挖掘學習筆記

數據合併

1) concat

pandas數據挖掘學習筆記

2) merge

pandas數據挖掘學習筆記

函數應用

pandas數據挖掘學習筆記

分組聚合

pandas數據挖掘學習筆記

pandas數據挖掘學習筆記

透視表

pandas數據挖掘學習筆記

數據輸出

pandas數據挖掘學習筆記

目前用過的就以上這麼多,如果還有其他更強大的功能,歡迎小夥伴留言


分享到:


相關文章: