12.21 Python與Excel 不得不說的事情

Python與Excel 不得不說的事情

轉:

出處:https://zhuanlan.zhihu.com/p/22261597

數據處理是 Python 的一大應用場景,而 Excel 則是最流行的數據處理軟件。因此用 Python 進行數據相關的工作時,難免要和 Excel 打交道。

如果僅僅是要以表單形式保存數據,可以藉助 CSV 格式(一種以逗號分隔的表格數據格式)進行處理,Excel 也支持此格式。但標準的 Excel 文件(xls/xlsx)具有較複雜的格式,並不方便像普通文本文件一樣直接進行讀寫,需要藉助第三方庫來實現。

Python與Excel 不得不說的事情

常用的庫是 python-excel 系列:

xlrd、xlwt、xlutils

  • xlrd - 讀取 Excel 文件
  • xlwt - 寫入 Excel 文件
  • xlutils - 操作 Excel 文件的實用工具,如複製、分割、篩選等

儘管這是目前被用得最多的 Excel 庫,我還是很想吐槽為什麼這三個包不能放在一個模塊裡……另外它們有個缺陷,就是隻能處理 xls 文件。如果你想用新版本的 xlsx,可以考慮 openpyxl 和 xlsxwriter。

非誠勿擾:正在學習python的小夥伴或者打算學習的,可以私信小編“01”領取資料!

Python與Excel 不得不說的事情

不過今天只說說這三個。

安裝

安裝的方法沒啥特別的,只是得裝三遍。可以下載安裝包、下載代碼壓縮包、或者通過 pip 等。

如果安裝過之前推薦的 anaconda,那麼就已經有了 xlrd 和 xlwt,但 xlutils 沒有附帶在安裝包中,使用時仍需另行安裝。

讀取

結合一段簡單的代碼來看:

<code>import xlrd
# 打開 xls 文件
book = xlrd.open_workbook("test.xls")
print "表單數量:", book.nsheets
print "表單名稱:", book.sheet_names()
# 獲取第1個表單
sh = book.sheet_by_index(0)
print u"表單 %s 共 %d 行 %d 列" % (sh.name, sh.nrows, sh.ncols)
print "第二行第三列:", sh.cell_value(1, 2)
# 遍歷所有表單
for s in book.sheets():
for r in range(s.nrows):
# 輸出指定行
print s.row(r)/<code>

測試文件:

Python與Excel 不得不說的事情

輸出結果:

表單數量: 2
表單名稱: [u'Group.A', u'Group.B']
表單 Group.A 共 7 行 3 列
第二行第三列: 15.0
[text:u'Rank', text:u'Team', text:u'Points']
[number:1.0, text:u'Brazil', number:15.0]
[number:2.0, text:u'Russia', number:12.0]
...

常用的方法:

  • open_workbook 打開文件
  • sheet_by_index 獲取某一個表單
  • sheets 獲取所有表單
  • cell_value 獲取指定單元格的數據
  • 寫入

    還是看代碼:

    <code>import xlwt
    # 創建 xls 文件對象
    wb = xlwt.Workbook()
    # 新增一個表單
    sh = wb.add_sheet('A Test Sheet')
    # 按位置添加數據
    sh.write(0, 0, 1234.56)
    sh.write(1, 0, 8888)
    sh.write(2, 0, 'hello')
    sh.write(2, 1, 'world')
    # 保存文件
    wb.save('example.xls')/<code>

    生成文件:

    Python與Excel 不得不說的事情

    常用的方法:

    • Workbook 創建文件對象
    • add_sheet 新增一個表單
    • write 在指定單元格寫入數據

    修改

    很遺憾,並沒有直接修改 xls 文件的方法。通常的做法是,讀取出文件,複製一份數據,對其進行修改,再保存。

    在複製時,需要用到 xlutils 中的方法。

    <code>from xlrd import open_workbook
    from xlutils.copy import copy
    # 打開文件
    rb = open_workbook("example.xls")
    # 複製
    wb = copy(rb)
    # 選取表單
    s = wb.get_sheet(0)
    # 寫入數據
    s.write(0, 1, 'new data')
    # 保存
    wb.save('example.xls')/<code>

    修改後文件:

    Python與Excel 不得不說的事情

    特別要注意的是,選取讀取表單時,要使用 sheet_by_index,而在選取寫入表單時,則要用 get_sheet。不要問我為什麼,我也很想知道這麼設定的用意何在……

    時間轉換

    如果表單中有時間格式的數據,通過處理之後,你會發現時間數據出了差錯。


    Python與Excel 不得不說的事情


    Python與Excel 不得不說的事情

    輸出單元格內容:

    [number:8888.0, xldate:42613.0]

    因為這裡 xldate 有自己的格式定義。如果要使用正確的格式,必須轉換:

    <code>new_date = xlrd.xldate.xldate_as_datetime(date, book.datemode)
    /<code>

    date 是對應單元格的數據,book 是打開的文件對象。

    另外,在打開文件時,加上參數 formatting_info=True,可以保證在時間數據在 copy 時保持原樣。

    寫入時間數據,則可通過此方法創建 excel 的時間對象:

    <code>xlrd.xldate.xldate_from_datetime_tuple
    /<code>

    或者通過 xlwt.easyxf 指定時間格式:

    <code>style = xlwt.easyxf(num_format_str='D-MMM-YY')
    ws.write(1, 0, datetime.now(), style)
    /<code>

    具體細節及更多功能這裡不展開說明。
    以上便是 Python 操作 Excel 文件的一些基本方法。實際使用過程中遇到問題或者需要了解更多功能,永遠記住兩個詞:

    RTFMSTFW

    :)

    結尾

    最後多說一句,小編是一名python開發工程師,這裡有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,並在後臺私信小編:“01”即可領取。


    分享到:


    相關文章: