Github:深度學習文本檢測識別(OCR)精選資源彙總

關注微信公眾號:人工智能前沿講習,
重磅乾貨,第一時間送達

Github:深度學習文本檢測識別(OCR)精選資源彙總

今天跟大家推薦一個Github項目,來自NAVER Clova AI Research的hwalsuklee同學彙總了近幾年的基於深度學習進行文本檢測、識別的論文、代碼、數據集、教程資源,非常值得參考。

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

該項目不是簡單的網址羅列,作者還很用心的將各個算法在公認標準測試集上的精度也一併列出,方便一目瞭然進行算法比較。

作者首先統計了深度學習OCR方向的文獻:

Github:深度學習文本檢測識別(OCR)精選資源彙總

可見這個方向基於深度學習的技術是大勢所趨。

按研究方向,在這些論文中,尤以文本檢測的數量最多,佔比達48.9%,其次是文本識別21.7%,端到端文本識別佔比14.1%。

Github:深度學習文本檢測識別(OCR)精選資源彙總


文本檢測彙總

在下圖表格中,IC3代表該算法在ICDAR2013數據集上的精度,IC15代表該算法在ICDAR2015數據集上的精度,PRJ代表項目主頁,CAFFE/TF等代表使用深度學習框架Caffe/TensorFlow等實現的代碼。

Github:深度學習文本檢測識別(OCR)精選資源彙總

從中我們可以看出,在ICDAR2013和ICDAR2015數據集上均為來自CVPR 2018的論文《FOTS: Fast Oriented Text Spotting with a Unified Network》取得了最高的精度,分別是0.925和0.8984,這是商湯科技的工作,代碼已經開源。

下面是作者用論文發表時間和相應精度製作的散點圖,可見該領域算法精度幾乎是以45度角直線上升式發展。

Github:深度學習文本檢測識別(OCR)精選資源彙總

Github:深度學習文本檢測識別(OCR)精選資源彙總


文本識別彙總

文本識別的精度是在四個數據集上比較的,如下圖。

Github:深度學習文本檢測識別(OCR)精選資源彙總

在四個數據集上,綜合表現最好的當屬《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》,這篇文章發表於PAMI2018,來自華中科技大學白翔老師組,代碼也開源了。

下面是來自兩個數據集的散點圖,同樣識別技術也幾乎以45度角直線式發展。

Github:深度學習文本檢測識別(OCR)精選資源彙總


Github:深度學習文本檢測識別(OCR)精選資源彙總


端到端文本識別

即包含文本檢測與識別的全流程的算法。

Github:深度學習文本檢測識別(OCR)精選資源彙總

綜合看,來自商湯科技的FOTS和來自華科的Mask TextSpotter都很優秀。

值得注意的是Mask TextSpotter算法也已經開源了

(https://github.com/lvpengyuan/masktextspotter.caffe2),此處沒有列出。

下圖為端到端文本識別的精度-發表時間散點圖,相比之下,近兩年的提升並不是很明顯。

Github:深度學習文本檢測識別(OCR)精選資源彙總


文本識別相關的其他方向

包括數據集、文本檢索、字體變換、文檔版面分析等。

Github:深度學習文本檢測識別(OCR)精選資源彙總

作者還列出了該領域其他人做的資源總結和相關教程資源。

Github:深度學習文本檢測識別(OCR)精選資源彙總

最後附上來自商湯科技的FOTS算法的Demo視頻,看看它到底多強大。

https://v.qq.com/x/page/t0843g49u8e.html


Github:深度學習文本檢測識別(OCR)精選資源彙總


分享到:


相關文章: