阿里安全圖靈實驗室刷新世界最好成績!

近日,阿里安全圖靈實驗室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然場景多語言文本檢測競賽中刷新了世界最好成績,以73.52%的Hmean排名第一。(競賽結果頁面:http://rrc.cvc.uab.es/?ch=8&com=evaluation&task=1)

阿里安全圖靈實驗室刷新世界最好成績!

據瞭解,ICDAR(International Conference on Document Analysis and Recognition)具有OCR領域的奧斯卡盛會之稱,是全球OCR領域公認最權威的比賽之一。

當前,OCR技術被廣泛應用於多個領域。從名片、發票、銀行卡等票據的數字化到室外街道商店索引,路標路牌識別;再到圖片、視頻文字內容理解與內容安全,OCR技術都發揮著越來越重要的作用。

阿里安全圖靈實驗室研究人員稱,在技術上,文本檢測和識別需要應付各種考驗和挑戰,如自然場景下光照的影響,物體的遮擋,文字大小、比例、角度的變化,圖像視頻中文字的模糊等等。ICDAR2017 MLT競賽包含了中、日、韓、拉丁(英、法、德、意)、阿拉伯和孟加拉等9種語言,其圖像採集自各種各樣的場景,其中的文本的長度、字體、尺寸、顏色千變萬化,同時還包含了許多真實場景的噪聲包括光照、遮擋、傾斜、文字堆疊、文字鑲嵌、透視變化等等,這對於OCR算法的適應能力更具挑戰性。

為攻克這些難題,阿里安全圖靈實驗室的研究人員設計了基於深度學習的網絡模型和算法。

據介紹,圖靈實驗室的研究人員在文字檢測模型方面,採用深度卷積神經網絡獲得更深層的圖像特徵;並利用多尺度特徵和非對稱卷積核獲得更好的感受視野,從而適應各種環境,各種大小、比例、角度的文字。此外,由於框架採用創新性的檢測策略,因此相較於傳統的RCNN-based方案,在檢測速度上有很大提升。在文字識別模型,圖靈實驗室的研究人員在主流方案的基礎上,做了全新的探索和研究,從而獲得了更為有效的識別模型,在保證識別準確率的前提下,提高了識別效率。

阿里安全圖靈實驗室研究人員表示,ATL Cangjie OCR提供在線同步、異步通用OCR文字檢測和識別服務,以及離線ODPS服務,為圖片文字內容理解與內容安全提供強有力的技術支撐。該算法已經全面支撐阿里生態中的商品內容安全、業務安全、平臺治理、評價、交互、認證等多個業務場景,同時,還通過阿里雲盾-內容安全(綠網)產品,輸出給第三方客戶使用。

目前,ATL Cangjie OCR服務日均調用量幾億次,可為客戶提供穩定的技術保障。


分享到:


相關文章: