從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

該研究中,來自北航和微軟亞研的研究者聯合創建了一個基於圖像的表格檢測和識別新型數據集 TableBank,該數據集是通過對網上的 Word 和 Latex 文檔進行弱監督而建立的。該數據集包含 417K 個高質量標註表格,通過此數據集作者利用深度神經網絡 SOTA 模型建立了數個強大的基線,從而助力更多研究將深度學習方法應用到表格檢測與識別任務中。目前 TableBank 已開源。

TableBank 開源地址:https://github.com/doc-analysis/TableBank

表格通常以結構化的方式展示基本信息,因而表格檢測和識別是諸多文件分析應用中的一項重要任務。如圖 1 所示,由於表格的佈局和格式不同,其檢測和識別是個難題。常規表格分析技術通常以文件的佈局分析為基礎。但這些技術中的大多數都無法泛化,究其原因,它們依賴於手工構建的特徵,而後者對佈局變化不具備穩健性。最近,計算機視覺領域深度學習的快速發展極大地推動了數據驅動且基於圖像的表格分析方法。基於圖像的表格分析的優勢體現在其對文件類型的穩健性,並對文件是頁面掃描圖像還是原始數字文件格式不做任何假設。因此,大型端到端深度學習模型能夠取得更好的效果。

從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 1:不同佈局和格式的表格電子文件。

現有的基於深度學習的表格分析模型通常對使用數千個人工標註訓練實例獲得的預訓練目標檢測模型進行微調,但它依然難以在現實世界應用程序中擴展。例如,我們發現,在類似圖 1a、1b 和 1c 中的數據上訓練出的模型在圖 1d 中表現不佳,其原因在於表格佈局和顏色大不相同。因此,擴大訓練數據是使用深度學習構建開放域表格分析模型的唯一途徑。深度學習模型比傳統模型複雜得多,現在的很多標準深度學習模型擁有數億自由參數,且需要更多標註訓練數據。在實踐中,人工標註大型訓練數據成本高昂且缺乏靈活性,這是實際部署深度學習模型的關鍵瓶頸。眾所周知,ImageNet 和 COCO 是兩個流行的圖像分類和目標檢測數據集,兩者均以眾包的方式構建,但花費高昂且耗日持久,需要數月甚至數年時間來構建大型基準數據集。幸運的是,網絡上存在大量數字文件,如 Word 和 Latex 源文件。對這些在線文件進行一些表格標註方面的弱監督則是有益的。

為解決對標準開放域表格基準數據集的需求,該研究提出一種新穎的弱監督方法,可自動創建 TableBank 數據集,TableBank 要比現有的表格分析人工標註數據集大幾個量級。與傳統弱監督訓練集不同,該研究提出的弱監督方法可以同時獲得大規模和高質量的訓練數據。現在,網絡上有大量電子文檔,如 Word(.docx)和 Latex(.tex)文件。這些在線文檔的源代碼中包含表格的 mark-up tag。直觀地講,藉助每個文檔中的標記語言,研究者可以通過添加邊框來操控這些源代碼。就 Word 文檔而言,內部 Office XML 代碼可以在標註每一表格邊界的地方進行修改。就 Latex 文檔而言,tex 代碼同樣可以在標註表格邊界的地方進行修改。這種方式可以為多個不同域創建高質量的標註數據,如商業文件、官方名錄和科研論文等,這些數據對大規模表格分析任務大有裨益。

TableBank 數據集共包含 417,234 個高質量標註表格以及各域中對應的的原始文檔。為驗證 TableBank 的效果,研究者使用當前最優的端到端深度神經網絡模型構建了多個強大的基線。表格檢測模型基於不同設置下的 Faster R-CNN 架構(Ren 等人,2015 年),表結構識別模型基於圖像-文本(image-to-text)的編碼器-解碼器框架。實驗結果表明,佈局和格式變化對錶格分析任務的準確率影響很大。此外,在某一特定域訓練的模型在另一域中表現不佳。這表明,在 TableBank 數據集上建模和學習還有很大的進步空間。

數據收集

大致上,研究者構建 TableBank 數據集時使用了兩種不同的文件類型:Word 文檔和 Latex 文檔。這兩種文件類型的源代碼中都包含 mark-up tag。這部分分三步詳細介紹了數據收集過程:文檔獲取、創建表格檢測數據集、創建表結構識別數據集。

文檔獲取

研究者從網上抓取 Word 文檔。這些文檔都是 .docx 格式,因此研究者可以通過編輯內部 Office XML 代碼來添加邊框。研究者並未過濾文檔語言,因此這些文檔包含英語、中文、日語、阿拉伯語和其他語言。這使得該數據集在實際應用中更多樣化、更穩健。

Latex 文檔與 Word 文檔不同,因為前者需要其他資源來編譯成 PDF 文檔。因此,研究者不能從網上抓取 tex 文檔,而是利用最大預印本數據庫 arXiv.org 中的文檔以及相應的源代碼。藉助 arXiv bulk data access,研究者下載了 2014 年至 2018 年論文的 Latex 源代碼。

表格檢測

直觀地講,藉助每個文檔中的標記語言,研究者可以通過添加邊框來操控源代碼。處理流程如圖 2 所示。就 Word 文檔而言,研究者通過編輯每個文檔中的內部 Office XML 代碼來添加表格邊框。每個 .docx 格式文件有一個壓縮包,解壓後的文件夾中有一個 document.xml 文件。在 XML 文件中,該代碼片段介於標記 之間,通常表示 Word 文件中的表格,如圖 3 所示。研究者修改 XML 文件中的代碼片段,使表格邊框可更改為與文檔其他部分不同的顏色。如圖 3 所示,研究者在 PDF 文檔中添加了一個綠色邊框,該表格得到完美識別。最後,研究者從 Word 文檔中獲得了 PDF 頁面。

從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 2:數據處理流程。

從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 3:通過 Office XML 代碼中的 標記來識別和標註表格。

表結構識別

表結構識別旨在確定表格的行列布局結構,尤其適用於掃描圖像等非數字化文檔格式的表格。現有表結構識別模型通常用於識別佈局信息和單元格的文本內容,而文本內容識別並非這一工作的重心。所以,研究者將任務定義為:給定一個圖像格式的表格,生成表示表格行列布局和單元格類型的 HTML 標籤序列。通過這種方式,研究者可以從 Word 和 Latex 文檔的源代碼中自動構建表表結構識別數據集。就 Word 文檔而言,研究者只需將原始 XML 信息從文檔格式轉換成 HTML 標籤序列即可。而對於 Latex 文檔,研究者首先使用 LaTeXML toolkit 從 Latex 中生成 XML,然後將其轉換為 HTML 格式。如圖 4 中的簡單示例,研究者使用 <cell> 表示含有文本的單元格,<cell> 表示沒有文本的單元格。在過濾噪聲後,研究者基於 Word 和 Latex 文檔創建了 145,463 個訓練實例。/<cell>/<cell>

從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 4:表格轉 HTML 示例,其中 <cell> 表示含有文本的單元格,<cell> 表示沒有文本的單元格。/<cell>/<cell>

基線

表格檢測

該研究使用 Faster R-CNN 作為表格檢測基線模型,其架構如下圖所示:

從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 5:用於表格檢測的 Faster R-CNN 模型。

表結構識別

該研究使用圖像-文本模型作為表結構識別的基線模型,其整體架構如下圖所示:


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

圖 6:用於表結構識別的圖像-文本模型。

實驗


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

表 1:TableBank 數據集的統計數據。


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

表 2:使用 ResNeXt-{101,152} 作為骨幹網絡對 Word 和 Latex 數據集的評估結果。


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

表 3:圖像-文本模型在 Word 和 Latex 數據集上的評估結果(BLEU)。


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

表 4:生成 HTML 標註序列和真值序列之間的精確匹配(exact match)數量。


從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank


圖 7:使用 a)partial-detection、b)un-detection 和 c)mis-detection 進行表格檢測的示例。

論文:TableBank: Table Benchmark for Image-based Table Detection and Recognition



從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank

論文鏈接:https://arxiv.org/pdf/1903.01949.pdf


分享到:


相關文章: