手把手教你如何用Python從PDF文件中導出數據（附鏈接）

2018-11-28 21:56:00 THU數據派

翻譯：季洋

校對：丁楠雅

本文約4000字，建議閱讀10分鐘。

本文介紹了在提取出想要的數據之後，如何將數據導出成其他格式的方法。

有很多時候你會想用Python從PDF中提取數據，然後將其導出成其他格式。不幸的是，並沒有多少Python包可以很好的執行這部分工作。在這篇貼子中，我們將探討多個不同的Python包，並學習如何從PDF中提取某些圖片。儘管在Python中沒有一個完整的解決方案，你還是應該能夠運用這裡的技能開始上手。提取出想要的數據之後，我們還將研究如何將數據導出成其他格式。

讓我們從如何提取文本開始學起！

使用PDFMiner提取文本

最被大家所熟知的可能是一個叫做PDFMiner的包。PDFMiner包大約從Python 2.4版本就存在了。它的主要目的是從PDF中提取文本。實際上，PDFMiner可以告訴你某文本在分頁上具體的位置和字體信息。對於Python 2.4到2.7版本，你可以參考以下網站來了解PDFMiner的更多信息：

GitHub – https://github.com/euske/pdfminerPyPI – https://pypi.python.org/pypi/pdfminer/Webpage – https://euske.github.io/pdfminer/

PDFMiner是不兼容於Python 3的。幸運的是，PDFMiner家族的一個分支PDFMiner.six在Python 3上完全能勝任同樣的功能。

你可以在以下網站上找到：

https://github.com/pdfminer/pdfminer.six

關於PDFMiner的安裝說明已經比較過時了。其實你可以用pip命令來安裝它：

如果你要在Python 3上安裝PDFMiner（這也許就是你現在正在做的），你需要這樣安裝：

PDFMiner的相關文檔很少。你將很大可能地需要使用Google和Stack Overflow兩個查詢工具來弄清楚如何在這篇貼子的涵蓋內容之外有效地使用PDFMiner。

提取所有文本

有時你會想要提取PDF文件中的所有文本。PDFMiner包提供了一些不同的方法使你能夠做到這一點。我們先來探討一些編程的方法。讓我們試著從一個國稅局W9表單中讀取所有的文本。

你可以從這裡得到表單副本：

https://www.irs.gov/pub/irs-pdf/fw9.pdf

保存完這個PDF文件之後，你可以參考以下代碼：

當你直接使用PDFMiner包時，往往會有點繁瑣。這裡，我們從PDFMiner的不同模塊中引入多個不同的類。由於這些類都沒有文檔說明，也沒有實現其文檔字符串屬性，我將不會深入講解它們做了什麼。如果你真的好奇的話，儘管可以深入地研究它們的源代碼。無論如何，我認為我們可以大致照以上代碼行事。

我們做的第一件事就是創建一個資源管理器的實例。然後通過Python的輸入輸出（io）模塊創建一個似文件對象。如果你使用的是Python 2，你應該使用StringIO模塊。接下來的步驟是創建一個轉換器。在這個例子裡，我們選擇使用TextConverter，如果你想要的話，你還可以使用HTMLConverter或XMLConverter。最後，我們創建一個PDF解釋器對象，攜帶著我們的資源管理器和轉換器對象，來提取文本。

最後一步是打開PDF文件並且循環遍歷每一頁。結尾部分，我們抓取所有的文本，關閉不同的信息處理器，同時打印文本到標準輸出(stdout)。

按頁提取文本

通常我們並不需要從一個多頁文檔中抓取所有的文本。你一般會想要處理文檔的某些部分。那麼，讓我們改寫代碼以便它提取文本呈分頁的格式。這將允許我們在檢查文本時，一次一頁地進行：

在這個例子中，我們創建了一個生成器函數按頁生成（yield）了文本。extract_text函數按頁打印出文本。此處我們可以加入一些分析邏輯來得到我們想要的分析結果。或者我們可以僅是將文本（或HTML或XML）存入不同的文件中以便分析。

你可能注意到這些文本沒有按你期望的順序排列。因此你需要思考一些方法來分析出你感興趣的文本。

PDFMiner的好處就是你可以很方便地按文本、HTML或XML格式來“導出”PDF文件。

你也可以使用PDFMiner的命令行工具，pdf2txt.py和dumppdf.py，來為你執行導出工作。如果你不想試圖自己弄明白PDFMiner。根據pdf2txt.py 的源代碼，它可以被用來導出PDF成純文本、HTML、XML或“標籤”格式。

通過pdf2txt.py導出文本

伴隨著PDFMiner一起的pdf2txt.py命令行工具會從一個PDF文件中提取文本並且默認將其打印至標準輸出（stdout）。它不能識別文字圖片，就像PDFMiner不支持光學字符識別（OCR）一樣。讓我們嘗試用最簡單的方法來使用它，那就是僅僅傳遞給它一個PDF文件的路徑。我們會使用w9.pdf文件。

打開一個終端並且定位到你存放PDF文件的位置，或修改一下命令指向待處理文件：

如果你執行這條命令，它將打印出所有的文本到標準輸出（stdout）。你也可以使pdf2txt.py 將文本寫入文件成文本、HTML、XML或“帶標籤PDF”格式。XML格式將給出關於PDF的大部分信息，因為它包含了每一個字母在文件中的位置以及字體信息。不推薦使用HTML格式，因為pdf2txt生成的標記往往會很醜。以下是教你如何生成不同格式輸出的方法：

第一條命令將創建一個HTML文件，而第二條將創建一個XML文件。

最終的結果看上去有點怪，但是它並不太糟糕。XML格式的輸出極其冗長，因此我不能將它完整地在這裡重現，以下是一小段示例：

使用Slate提取文本

Tim McNamara覺得PDFMiner使用起來太過愚蠢和費力，因此他寫了一個圍繞它的包裝器叫做slate，以使它更簡單地從PDF中提取文本。不幸的是，它和Python 3不兼容。如果你想試用，你可能需要easy_install以便於安裝distribute包，如下：

我不能使用pip 正確安裝這個包。然而一旦安裝了它，你將能夠使用pip來安裝slate：

注意最新的版本是0.5.2，而pip未必能拿到這個版本。如果拿不到，那麼你可以從GitHub上直接獲取slate安裝：

現在我們已經準備好寫一些代碼來從PDF中提取文本了：

正如你能看到的，讓slate分析一個PDF文件，你只需要引進slate然後創建一個它的PDF類的實例。PDF類其實是Python內置類list的一個子類，所以它僅是返回了一列/可遍歷的文本頁。如果PDF文件設有密碼，你可以傳入一個密碼參數。不管怎樣，一旦文件被分析，我們只要打印出每一頁的文本即可。

我非常喜歡slate，它用起來更簡單。不幸的是，這個包也幾乎沒有什麼相關文檔。在瀏覽過它的源碼之後，它看起來只支持純文本提取。

導出你的數據

現在我們得到了一些文本，我們會花費一些時間來學習如何導出數據成各種不同的格式。具體來說，我們將學習如何以如下方法導出文本：

XML
JSON
CSV

讓我們開始吧！

導出成XML

可擴展標記語言（XML）格式是最為人所熟知的輸入輸出格式之一。它被廣泛運用於互聯網中的許多不同的事物。正如我們已經在本貼中看到的，PDFMiner也支持XML作為它的輸出之一。

話雖這麼說，讓我們創建我們自己的XML生成工具。如下是一個簡單的例子：

這段代碼將使用Python內置的XML庫，minidom和ElementTree。我們也引入PDFMiner生成器代碼以用於每次抓取一頁文本。在這個例子中，我們用PDF的文件名創建了我們頂層的元素。然後在它的下層增加了一個頁（Pages）元素。下一步是for循環，在此循環中我們從PDF中提取每一頁然後保存想要的信息。此處你可以加入一個特定的分析程序，其中你可以將頁分成句子或者單詞，從而分析出更有趣的信息。比如，你可能只想得到有某個特定名字或日期/時間戳的句子。你可以運用Python的正則表達式來找出這類東西，或者僅是檢查子字符串在句子中的存在。

對於這個例子，我們僅僅是提取了每一頁的前100個字符並將其存入一個XML的子元素（SubElement）中。接下來的一段代碼可以簡化成僅是寫出XML文件。然而，ElementTree不會做任何事來使得XML易讀。它最後看上去有點像壓縮的JavaScript似的一塊巨型文本。所以我們在寫入文件之前使用minidom 通過空格來“美化”XML，而不是將整塊文本寫入磁盤。最終看上去像這樣：

上面是漂亮乾淨的XML，同時它也是易讀的。錦上添花的是，你可以運用你在PyPDF2章節中所學到的知識從PDF中提取元數據（metadata），然後將其也加入到XML中。

導出成JSON

JavaScript對象註釋, 或者JSON, 是一種易讀易寫的輕量級的數據交換格式。Python包含一個json 模塊於它的標準庫中，從而允許你用編程方式來讀寫JSON。讓我們運用從前一章節學到的內容來創建一個導出器腳本來輸出JSON而不是XML：

這裡，我們引入所需要的不同的庫，包括PDFMiner模塊。然後創建一個函數，以PDF文件的輸入路徑和JSON文件的輸出路徑為參數。在Python中JSON基本上就是一個字典，所以我們創建一對簡單的頂層的鍵：Filename和Pages。Pages鍵對應一個空的表單。接著，我們循環遍歷PDF的每一頁並且提取每一頁的前100個字符。然後創建一個字典變量以頁號作為鍵100個字符作為值並將其添加到頂層的頁表單中。最後，我們利用json 模塊的dump 命令生成文件。

文件的內容最終看上去像這樣：

又一次，我們得到了易讀的輸出。你也可以通過PDF的元數據（metadata）來加強這個例子，如果你樂意的話。請注意輸出將會改變，它依賴於你想從每一頁或文檔中分析出什麼樣的結果。

現在讓我們來快速看一下怎樣導出CSV文件。

導出成CSV

CSV是 **comma separated values** （逗號分隔值）的縮寫。它是一種漂亮的標準格式，並且已經存在了很長時間。CSV的優點就是Microsoft Excel和 LibreOffice都能夠自動地以漂亮的電子表格的方式將它們打開。你也可以在一個文本編輯器中打開CSV文件，如果你樂意看到它的原始值的話。

Python有一個內置的csv 模塊，你可以用它來讀寫CSV文件。在這裡我們將用它從我們由PDF中提取的文本來創建一個CSV。讓我們看一下代碼：

這個例子中，我們引入了Python的csv庫。除此以外，引入的庫和前一個例子相同。在函數中，我們利用CSV文件路徑創建了一個CSV文件處理器。然後用文件處理器作為唯一的參數初始化了一個CSV寫入器對象。接著像之前一樣遍歷了PDF頁。這裡唯一的不同就是我們將前100個字符分割成了單個的詞。這將允許我們擁有一些真實的數據來加入到CSV中。如果不這樣做，那麼每一行將只會有一個元素在其中，那就不算一個真正的CSV文件了。最後，我們將一列單詞寫入CSV文件中。

這就是得到的結果：

我認為這個例子同JSON或XML的例子相比讀起來難了點，但是它不算太難。現在讓我們繼續來看一下怎樣才能將圖片從PDF中提取出來。

從PDF中提取圖片

不幸的是，並不存在Python包可以真正地做到從PDF中提取圖片。我找到的最接近的東西是有一個叫minecart的項目宣稱可以做到這一點，但是它只在Python 2.7上有效。我沒法使其運行於我的PDF樣本。在Ned Batchelder的博客上有一篇文章談到了一點兒如何從PDF中提取JPG圖片。代碼如下：

這同樣對我使用的PDF文件無效。有一些人在留言中宣稱代碼對他們的一些PDF文件有效，同時也有一些留言例舉了修改後的代碼。Stack Overflow網站上有關於這個的各種代碼，其中一些這樣或那樣地使用了PyPDF2。但沒有一個對我有效。

我的建議是使用一個類似於Poppler 的工具來提取圖片。Poppler有一個工具叫做pdfimages，你可以同Python的subprocess模塊一起來使用。以下是你如何在沒有Python的情況下使用它：

請確保images文件夾（或你想新建的任何輸出文件夾）已經被創建，因為pdfimages不會為你創建它。

讓我們寫一個Python腳本來執行同樣的命令，請確保輸出文件夾已經存在：

在這個例子中，我們引入了subprocess和os模塊。如果輸出路徑不存在，我們會嘗試創建它。然後我們運用subprocess的call函數來執行pdfimages命令。使用call函數是因為它將等到 pdfimages命令完全執行完才返回。你可以代之以Popen，但是那將基本上在後臺運行命令進程。最後，我們打印出輸出路徑下的細節，以確定所有的圖片都被提取進了其中。

還有一些網絡上的其它文章引用了一個叫做Wand 的庫，你也許可以試一試。它是一個ImageMagick的包裝器。還有一個值得關注的是綁定了Poppler的Python叫做pypoppler，雖然我沒有能夠找到任何和這個包相關的提取圖片的例子。

總結

這篇文章網羅了很多信息。我們學習了一些可以用來從PDF中提取文本的包，如PDFMiner或Slate。我們還學習瞭如何運用Python的內置庫來導出文本到XML、JSON和CSV。最後，我們研究了一下從PDF中導出圖片這個棘手的問題。儘管Python目前沒有任何出色的庫可以完成這個工作，你可以採用其它工具的變通方案，例如Poppler的pdfimage工具模塊。

原文標題：

Exporting Data From PDFs With Python

原文鏈接：

https://dzone.com/articles/exporting-data-from-pdfs-with-python

譯者簡介

季洋，蘇州某IT公司技術總監，從業20年，現在主要負責Java項目的方案和管理工作。對大數據、數據挖掘和分析項目躍躍欲試卻苦於沒有機會和數據。目前正在摸索和學習中，也報了一些線上課程，希望對數據建模的應用場景有進一步的瞭解。不能成為巨人，只希望可以站在巨人的肩膀上了解數據科學這個有趣的世界。

— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。

分享到:

閱讀更多 THU數據派 的文章

關鍵字: 鏈接 GitHub XML

HanLP的CoreBiGramTableDictionary讀取自己訓練的模型Bug解決

03.06 手把手，教你如何逐步提高JavaScript的編碼能力？

圖片的導出，VBA代碼如何導出工作表中的所有圖片

Shopify店鋪-批量導入/導出-Amazon,wish,Ebay,AliExpress商品

手把手：如何方便地使用Python和Pandas來匿名信息

05.29 手把手：用Python實現顏值識別，幫你在抖音找到漂亮小姐姐

手把手：基於概率編程Pyro的金融預測，讓正則化結果更有趣！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"