實用OCR數據集

實用OCR數據集,近期梳理了OCR的數據集,參見如下,供大家參考使用。

  1. ICDAR2019-LSVT

共45w中文街景圖像,包含5w(2w測試+3w訓練)全標註數據(文本座標+文本內容),40w弱標註數據(僅文本內容).

下載地址:https://ai.baidu.com/broad/download%3Fdataset%3Dlsvt


  1. ICDAR2017-RCTW-17

共包含12,000+圖像,大部分圖片是通過手機攝像頭在野外採集的。有些是截圖。這些圖片展示了各種各樣的場景,包括街景、海報、菜單、室內場景和手機應用程序的截圖。

下載地址:https://rctw.vlrlab.net/dataset/


  1. 中文街景文字識別

共包括29萬張圖片,其中21萬張圖片作為訓練集(帶標註),8萬張作為測試集(無標註)。數據集採自中國街景,並由街景圖片中的文字行區域(例如店鋪標牌、地標等等)截取出來而形成。所有圖像都經過一些預處理,將文字區域利用仿射變化,等比映射為一張高為48像素的圖片。

下載地址:https://aistudio.baidu.com/aistudio/datasetdetail/8429


  1. 中文文檔文字識別

共約364萬張圖片,按照99:1劃分成訓練集和驗證集。數據利用中文語料庫(新聞 + 文言文),通過字體、大小、灰度、模糊、透視、拉伸等變化隨機生成。包含漢字、英文字母、數字和標點共5990個字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt ) 每個樣本固定10個字符,字符隨機截取自語料庫中的句子;圖片分辨率統一為280x32

下載地址:https://github.com/YCG09/chinese_ocr

https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw(密碼:lu7m)

  1. ICDAR2019-ArT

共包含10,166張圖像,訓練集5603圖,測試集4563圖。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text三部分組成,包含水平、多方向和彎曲等多種形狀的文本。

下載地址;https://ai.baidu.com/broad/download%3Fdataset%3Dart


  1. 360萬imdb格式的中文數據集

360萬中文數據集:https://pan.baidu.com/s/1ufYbnZAZ1q0AlK7yZ08cvQ 訓練之前首先製作數據集,因為360萬的中文數據集製作成lmdb格式的數據有十幾G。

  1. Chinese Text in the Wild(CTW)

包含32285張圖像,1018402箇中文字符(來自於騰訊街景), 包含平面文本,凸起文本,城市文本,農村文本,低亮度文本,遠處文本,部分遮擋文本。圖像大小2048*2048,數據集大小為31GB。以(8:1:1)的比例將數據集分為訓練集(25887張圖像,812872個漢字),測試集(3269張圖像,103519個漢字),驗證集(3129張圖像,103519個漢字)。參考:https://github.com/xiaofengShi/CHINESE-OCR


實用OCR數據集


實用OCR數據集



分享到:


相關文章: