实用OCR数据集

实用OCR数据集,近期梳理了OCR的数据集,参见如下,供大家参考使用。

  1. ICDAR2019-LSVT

共45w中文街景图像,包含5w(2w测试+3w训练)全标注数据(文本坐标+文本内容),40w弱标注数据(仅文本内容).

下载地址:https://ai.baidu.com/broad/download%3Fdataset%3Dlsvt


  1. ICDAR2017-RCTW-17

共包含12,000+图像,大部分图片是通过手机摄像头在野外采集的。有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。

下载地址:https://rctw.vlrlab.net/dataset/


  1. 中文街景文字识别

共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片。

下载地址:https://aistudio.baidu.com/aistudio/datasetdetail/8429


  1. 中文文档文字识别

共约364万张图片,按照99:1划分成训练集和验证集。数据利用中文语料库(新闻 + 文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成。包含汉字、英文字母、数字和标点共5990个字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt ) 每个样本固定10个字符,字符随机截取自语料库中的句子;图片分辨率统一为280x32

下载地址:https://github.com/YCG09/chinese_ocr

https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw(密码:lu7m)

  1. ICDAR2019-ArT

共包含10,166张图像,训练集5603图,测试集4563图。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text三部分组成,包含水平、多方向和弯曲等多种形状的文本。

下载地址;https://ai.baidu.com/broad/download%3Fdataset%3Dart


  1. 360万imdb格式的中文数据集

360万中文数据集:https://pan.baidu.com/s/1ufYbnZAZ1q0AlK7yZ08cvQ 训练之前首先制作数据集,因为360万的中文数据集制作成lmdb格式的数据有十几G。

  1. Chinese Text in the Wild(CTW)

包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。参考:https://github.com/xiaofengShi/CHINESE-OCR


实用OCR数据集


实用OCR数据集



分享到:


相關文章: