Textricator:讓數據提取變得簡單

Textricator:讓數據提取變得簡單

編譯自: https://opensource.com/article/18/7/textricator

這個新的開源工具可以從 PDF 文檔中提取複雜的數據,而無需編程技能。

你可能知道這種感覺:你請求得到數據並得到積極的響應,只打開電子郵件並發現一大堆附加的 PDF。數據——中斷。

我們理解你的挫敗感,併為此做了一些事情:讓我們介紹下 Textricator ,這是我們的第一個開源產品。

我們是 “Measures for Justice”(MFJ),一個刑事司法研究和透明度組織。我們的使命是為整個司法系統從逮捕到定罪後提供數據透明度。我們通過制定一系列多達 32 項指標來實現這一目標,涵蓋每個縣的整個刑事司法系統。我們以多種方式獲取數據 —— 當然,所有這些都是合法的 —— 雖然許多州和縣機構都掌握數據,可以為我們提供 CSV 格式的高質量格式化數據,但這些數據通常捆綁在軟件中,沒有簡單的方法可以提取。PDF 報告是他們能提供的最佳報告。

開發者 Joe Hale 和 Stephen Byrne 在過去兩年中一直在開發 Textricator,它用來提取數萬頁數據供我們內部使用。Textricator 可以處理幾乎任何基於文本的 PDF 格式 —— 不僅僅是表格,還包括複雜的報表,其中包含從 Crystal Reports 等工具生成的文本和細節部分。只需告訴 Textricator 你要收集的字段的屬性,它就會整理文檔,收集並寫出你的記錄。

不是軟件工程師?Textricator 不需要編程技巧。相反,用戶描述 PDF 的結構,Textricator 處理其餘部分。大多數用戶通過命令行運行它。但是,你可以使用基於瀏覽器的 GUI。

我們評估了其他很好的開源解決方案,如 Tabula ,但它們無法處理我們需要抓取的一些 PDF 的結構。技術總監 Andrew Branch 說:“Textricator 既靈活又強大,縮短了我們花費大量時間處理大型數據集的時間。”

在 MFJ,我們致力於透明度和知識共享,其中包括向任何人提供我們的軟件,特別是那些試圖公開自由共享數據的人。Textricator 可以在 GitHub 上找到,並在 GNU Affero 通用公共許可證第 3 版 下發布。

你可以在我們的免費 在線數據門戶 上查看我們的工作成果,包括通過 Textricator 處理的數據。Textricator 是我們流程的重要組成部分,我們希望民間技術機構和政府組織都可以使用這個新工具解鎖更多數據。

如果你使用 Textricator,請告訴我們它如何幫助你解決數據問題。想要改進嗎?提交一個拉取請求。


via: https://opensource.com/article/18/7/textricator

作者: Stephen Byrne 選題: lujun9972 譯者: geekpi 校對: wxy

本文由 LCTT 原創編譯, Linux中國 榮譽推出


分享到:


相關文章: