SciTSR 大規模表結構識別數據集

SciTSR 大規模表結構識別數據集

SciTSR是一個大規模表結構識別數據集,包括了1.5萬個pdf中的表。

其中1.2萬是訓練集,3000個是測試集。

其目錄結構如下:

SciTSR ├── SciTSR-COMP.list ├── test │ ├── chunk │ ├── img │ ├── pdf │ └── structure └── train ├── chunk ├── img ├── pdf ├── rel └── structure


其中chunk的文件結構如下:

{"chunks": [ { "pos": [ 147.96600341796875, 205.49998474121094, 475.7929992675781, 480.4206237792969 ], "text": "Probability" }, { "pos": [ 217.45510864257812, 290.6802673339844, 475.7929992675781, 480.4206237792969 ], "text": "Generated Text" }, ... ]}

其中stucture標籤如下json存儲方式;

{"cells": [ { "id": 21, "tex": "959", "content": [ "959" ], "start_row": 5, "end_row": 5, "start_col": 1, "end_col": 1 }, { "id": 1, "tex": "Training set", "content": [ "Training", "set" ], "start_row": 0, "end_row": 0, "start_col": 1, "end_col": 1 }, ... ]}


代碼github位置:https://github.com/Academic-Hammer/SciTSR


SciTSR 大規模表結構識別數據集


SciTSR 大規模表結構識別數據集



分享到:


相關文章: