優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究

【優秀博士論文精華版】


摘 要

本文基於深度學習框架,構建了一套場景文字檢測與識別算法系統。針對檢測問題,提出一種快速任意方向文字檢測方法,該方法基於“片段鏈接”思想,將長文字拆解為局部的片段,以及片段之間的鏈接;針對識別問題,提出一種端到端可訓練的文字識別神經網絡模型,該模型將卷積神經網絡、循環神經網絡和聯結時序分類三者結合,能夠直接從圖片中識別出文字內容,並且可以端到端的訓練。


關 鍵 字

場景文字;文字檢測;文字識別;卷積神經網絡;循環神經網絡


0 引言

現代社會是高度符號化的社會,大量信息通過文字和符號來記載和傳遞。因此,文字在圖像和視頻中廣泛存在。文字是書籍、報刊、文件和名片等印刷品的基本組成元素,並且廣泛存在於自然場景的各種物體上,例如路牌、商品包裝、車輛牌照和店鋪門面等。廣義上的文字還包含自然語言文字以外的書寫系統,例如摩斯碼和五線譜等。理解圖片中的文字在計算機視覺中一直處於重要的位置。從圖像中識別文字的技術通常被稱作光學字符識別(OCR),它是計算機視覺最早的應用之一。


傳統的OCR 方法大多針對掃描文檔圖片設計。這些圖片通常由掃描儀等設備獲取,成像過程受控;識別方法往往基於二值化和淺層分類器等技術。自然圖片中的文字通常被稱作場景文字(scene text)。場景文字檢測識別是傳統OCR 在自然圖片上的延續和升級,它的應用極其廣泛,例如無人超市、智能導盲和無人駕駛等新興技術等都離不開場景文字識別。相比傳統OCR,場景文字的檢測和識別面臨著巨大的挑戰,首先,相比文檔圖片,場景文字的背景更為複雜;其次,場景文字的字體、顏色和排布相比文檔文字複雜得多;最後,傳統的OCR 系統常由許多子模塊組成,系統複雜程度高,其研發耗費較多的人力。


近年來,隨著深度學習算法的興起,計算機視覺領域的多項重要問題都取得了重大突破。到如今,深度學習已經滲入了計算機視覺研究的方方面面,對學術界和工業界產生了深遠的影響。深層神經網絡是深度學習的核心,其強大的特徵學習能力、靈活的結構、能夠端到端訓練的特點,使得它成為解決場景文字識別問題的有效手段。本文基於深度學習算法,結合卷積神經網絡和循環神經網絡(RNN) 等結構,提出一套完整的場景文字檢測與識別系統。


1 “片段鏈接”: 快速任意方向文字檢測方法

作為端到端識別系統的第一級,文字檢測的目標是在輸入圖像中定位文字的位置。檢測輸出的形式可以是水平的矩形包圍盒、帶角度的矩形包圍盒和任意多邊形等;根據任務的不同,檢測目標可以是每個單詞或每條文字行。文字檢測可以被視為物體檢測的特例。然而,由於場景文字和一般物體存在形狀上的區別,一般物體檢測方法並不是理想的解決方案——一般物體檢測方法受其候選區域提取算法的限制,輸出包圍盒的長寬比往往只能在小範圍內變化,因此難以輸出長文字、非水平的包圍盒。


“片段鏈接”算法的核心是將文字分解為片段(segments) 和鏈接(links) 兩種基本元素。如圖1 所示,片段是覆蓋一小段單詞或文本行的局部包圍盒,它由一個帶角度的矩形框表示。矩形的高度和整詞的高度接近,但長度只佔全部長度的一部分; 鏈接存在於相鄰兩個片段之間,它指示片段之間的連接關係。即相連的片段屬於同一單詞,不相連的屬於不同單詞。檢測時,該方法在全圖密集地檢測片段和鏈接,並將相連的片段根據幾何規則組合為整詞的包圍盒,得到檢測結果。片段鏈接的核心優勢在於,它可以檢測非水平的長詞或長文本行。片段和鏈接都具有局部性,片段只佔整個單詞的一小部分,它的檢測只需要局部的圖像特徵; 鏈接存在於相連的兩兩片段之間,因此它也同樣有局部性。由於片段和鏈接的局部性,兩者都可以在任意尺寸的圖片上密集檢測,並組合成任意長度的文字,從而顯著緩解了長文字的檢測困難。檢測片段和鏈接的網絡結構如圖2 所示。該結構基於VGG-16,能夠在一次前向傳導中同時地在多個尺度上密集地檢測片段和鏈接,因此有著很高的檢測效率。


優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究

優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究


此外,我們還提出了同層鏈接和跨層鏈接兩種鏈接類型,前者連接同一個特徵層中檢測到的片段;後者連接不同層上的片段。同層和跨層鏈接使得相同或不同尺度上的片段都可以被組合在一起,從而避免了漏檢和重複檢測的問題。


在對所有片段和鏈接作置信度和幾何偏移的估計之後,該模型輸出一組片段和一組鏈接。接下來,片段和鏈接分別通過各自的置信度閾值進行過濾,去除置信度低於閾值α 的片段和置信度低於閾值β 的鏈接。最後,過濾後的片段根據過濾後的鏈接組合成完成的包圍盒。


圖 3 顯示了片段鏈接在長文本檢測上的表現。可以看出,片段和鏈接沿著文本行被密集檢測,它們將細長的文本分解為了更容易檢測的局部視覺元素。相比之下,當下流行的物體檢測器難以輸入長寬比如此極端的包圍盒,而片段鏈接很好地解決了這個問題。此外,儘管英文和中文文本在外觀上有很大的差異,但我們的模型仍能夠在不改變其結構的情況下同時處理它們。這也顯示了片段鏈接在多語種場景下的適用性。


優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究


2 CRNN:端到端文字識別網路

卷積RNN(CRNN) 是本文提出的可以端到端訓練的文字識別網絡,該網絡結合了卷積神經網絡(CNN) 和RNN。其特點在於無需單個字符的標註,可直接用文字行圖片和對應的標籤訓練,相比傳統方法大幅降低了訓練和部署成本。CRNN 的總體網絡結構如圖 4 所示。它從下至上主要由CNN、RNN 翻譯層三個部分組成。CNN 負責提取卷積特徵圖; 特徵圖被轉換為特徵序列後交由RNN 進行預測,輸出單幀預測結果;最後,翻譯層將單幀預測結果翻譯為字母序列。儘管CRNN 包含不同類型的網絡結構,它仍然能被端到端的訓練,並且只需要一項損失函數。


優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究


CRNN 只在Synth90k 數據集上進行訓練一次,然後在其他數據集上測試,不作額外的微調。儘管只用合成數據訓練,CRNN 仍然能夠在真實數據集上取得良好效果。在有詞彙表模式下,CRNN 的識別準確度超過了同時期的大多數其他方法。在無詞彙表模式下,CRNN 在IIIT5k 和SVT 兩個數據集上都取得了最高的識別準確度。值得一提的是,CRNN 的性能超過了Google 公司開發的PhotoOCR 系統。PhotoOCR 使用了近800萬張訓練圖片,並且這些訓練圖片有字符級別的標註;而CRNN 僅僅在合成圖片上訓練,完全沒有使用人工標註的數據,卻能夠大幅度地在識別準確率上超出PhotoOCR 系統。這說明CRNN 是高性能且低成本的識別方法。


3 結束語

本文對場景文字檢測與識別問題完成了一次系統和全面的研究。針對不同的問題及問題的不同方面,分別提出了檢測方法片段鏈接和識別方法CRNN,在識別準確性、方法通用性及工程實用性三個方面都相比先前工作取得了顯著進步。

(參考文獻略)


優秀博士論文:基於深度學習的自然場景文字檢測與識別方法研究

選自《中國人工智能學會通訊》

2020年 第10卷 第2期 優秀博士學位論文精華版


分享到:


相關文章: