導讀
數據導入是數據處理、分析的第一步,Pandas提供非常多的方法,對不同格式、不同來源的數據進行導入和導出操作。
Pandas對以下數據源導入/導出方法列表:
Pandas還有很多數據導入/導出方法,不是特別常用,就沒有列舉
比較常用的:
- 對CSV文件的讀寫:read_csv\to_csv
- 對excel文件的讀寫:read_excel\to_excel
Pandas數據導入方法參數比較多,容錯性,識別能力較好:
- 支持類型推斷和數據轉換
- 支持用戶自定義的值轉換,自定義的缺失值
- 支持時間日期識別,自動解析
- 支持對大型文件的分塊迭代
- 清理數據功能:跳過行、頁腳、註釋以及其他次要數據
- 識別數字千位符號
使用read_csv/to_csv方法,對csv格式數據文件進行導入/導出操作
- pd.read_csv方法,數據導入
read_csv方法一些參數說明:
- path 文件路徑
- sep/delimiter 指定分隔符
- header 指定哪行作為列名,默認為0,如果文件中沒有列名,可設置為None
- index_col 指定那列作為行索引的列編號或者列名
- names 指定列名列表
- skiprows 忽略跳過的行數、行號列表
- na_values 替代缺失值的列表
- comment 在行結尾處分隔註釋的字符
- parse_dates 嘗試將數據解析為datetime,默認是False,如果是True,將嘗試解析所有列,也可以指定列號列名列表進行解析
- converters 列名稱跟函數映射的字典
- dayfirst 解析費明確日期時,按照國際格式處理,默認是False
- date_parser 指定用於解析日期的函數
- nrows 從文件開頭處讀入的行數
- skip_footer 忽略文件尾部的行數
- encoding 指定文件編碼
- thousands 指定千分位分隔符
- pd.to_csv方法,數據導出
參數說明:
- 指定輸出文件名
- sep:用’,’分隔
- header:是否帶頭部信息
- index:是否帶行號
使用read_excel/to_excel方法,對Excel文件進行導入/導出操作
最後
如果內容有誤,歡迎評論區指正!
喜歡我的朋友們,麻煩點一波關注,謝謝!