SciTSR 大規模表結構識別數據集
SciTSR是一個大規模表結構識別數據集,包括了1.5萬個pdf中的表。
其中1.2萬是訓練集,3000個是測試集。
其目錄結構如下:
SciTSR ├── SciTSR-COMP.list ├── test │ ├── chunk │ ├── img │ ├── pdf │ └── structure └── train ├── chunk ├── img ├── pdf ├── rel └── structure
其中chunk的文件結構如下:
{"chunks": [ { "pos": [ 147.96600341796875, 205.49998474121094, 475.7929992675781, 480.4206237792969 ], "text": "Probability" }, { "pos": [ 217.45510864257812, 290.6802673339844, 475.7929992675781, 480.4206237792969 ], "text": "Generated Text" }, ... ]}
其中stucture標籤如下json存儲方式;
{"cells": [ { "id": 21, "tex": "959", "content": [ "959" ], "start_row": 5, "end_row": 5, "start_col": 1, "end_col": 1 }, { "id": 1, "tex": "Training set", "content": [ "Training", "set" ], "start_row": 0, "end_row": 0, "start_col": 1, "end_col": 1 }, ... ]}
代碼github位置:https://github.com/Academic-Hammer/SciTSR