做數據挖掘三年多了,數據處理用的最順手的莫過於python中pandas庫了,幾乎每天都在使用,但是有太多強大的函數和方法都經常一到擼代碼的時候就忘記了,所以,根據以前使用的經驗,把一些常用的記錄下來,方便使用的時候查閱。
Pandas是一個開源的Python數據分析庫。
Pandas把結構化數據分為了三類:
Series,1維序列,可視作為沒有column名的、只有一個column的DataFrame;
DataFrame,同Spark SQL中的DataFrame一樣,其概念來自於R語言,為多column並schema化的2維結構化數據,可視作為Series的容器(container);
Panel,為3維的結構化數據,可視作為DataFrame的容器
Series
可以通過傳遞一個list對象來創建一個Series,pandas會默認創建整型索引
DataFrame表示的是一個二維數組
讀取數據文件
pandas庫提供了一系列的read_函數來讀取各種格式的文件,它們如下所示:
read_csv
read_table
read_excel 注:要讀取Excel文件,還需要安裝另外一個庫:xlrd 這樣安裝pip install xlrd
read_hdf
read_html
read_json
read_pickle
read_sql
數據查看
數據排序
數據篩選
根據布爾值來篩選數據
使用與、或、非三個條件配合大於、小於、等於對數據進行篩選,並進行計數和求和。
1、使用"與"進行篩選
2、使用"或"進行篩選
3、使用"非"條件進行篩選
4、使用query函數進行篩選
Pandas描述性統計
有很多方法用來集體計算DataFrame的描述性統計信息和其他相關操作。
數據整理
數據合併
1) concat
2) merge
函數應用
分組聚合
透視表
數據輸出
目前用過的就以上這麼多,如果還有其他更強大的功能,歡迎小夥伴留言
閱讀更多 愛數據的小司機 的文章