使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

導讀

數據導入是數據處理、分析的第一步,Pandas提供非常多的方法,對不同格式、不同來源的數據進行導入和導出操作。

使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

Pandas對以下數據源導入/導出方法列表:

使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

Pandas還有很多數據導入/導出方法,不是特別常用,就沒有列舉

比較常用的

  • 對CSV文件的讀寫:read_csv\to_csv
  • 對excel文件的讀寫:read_excel\to_excel

Pandas數據導入方法參數比較多,容錯性,識別能力較好

  • 支持類型推斷和數據轉換
  • 支持用戶自定義的值轉換,自定義的缺失值
  • 支持時間日期識別,自動解析
  • 支持對大型文件的分塊迭代
  • 清理數據功能:跳過行、頁腳、註釋以及其他次要數據
  • 識別數字千位符號

使用read_csv/to_csv方法,對csv格式數據文件進行導入/導出操作

  • pd.read_csv方法,數據導入
使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

read_csv方法一些參數說明:

  1. path 文件路徑
  2. sep/delimiter 指定分隔符
  3. header 指定哪行作為列名,默認為0,如果文件中沒有列名,可設置為None
  4. index_col 指定那列作為行索引的列編號或者列名
  5. names 指定列名列表
  6. skiprows 忽略跳過的行數、行號列表
  7. na_values 替代缺失值的列表
  8. comment 在行結尾處分隔註釋的字符
  9. parse_dates 嘗試將數據解析為datetime,默認是False,如果是True,將嘗試解析所有列,也可以指定列號列名列表進行解析
  10. converters 列名稱跟函數映射的字典
  11. dayfirst 解析費明確日期時,按照國際格式處理,默認是False
  12. date_parser 指定用於解析日期的函數
  13. nrows 從文件開頭處讀入的行數
  14. skip_footer 忽略文件尾部的行數
  15. encoding 指定文件編碼
  16. thousands 指定千分位分隔符
  • pd.to_csv方法,數據導出
使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

參數說明:

  1. 指定輸出文件名
  2. sep:用’,’分隔
  3. header:是否帶頭部信息
  4. index:是否帶行號

使用read_excel/to_excel方法,對Excel文件進行導入/導出操作

使用Pandas進行數據處理,CSV、Excel文件載入和導出操作

最後

如果內容有誤,歡迎評論區指正!

喜歡我的朋友們,麻煩點一波關注,謝謝!


分享到:


相關文章: