新冠肺炎CT数据集开源,疫情筛查前景广阔

新冠肺炎(COVID-19)是新发呼吸系统传染病,该病的确诊标准虽是病毒核酸检测,但CT检查作为一线技术具有准确、快速、廉价的优点,在新冠肺炎的筛查和检测方面前景广阔。


近日,在《Computer Science》发表的一篇论文中,研究者构建了一个开源的COVID-CT数据集,其中包含275个COVID-19呈阳性的CT扫描图像。该研究旨推动使用深度学习方法分析CT来预测是否感染COVID-19的研究与发展。


研究者在这个数据集上训练了一个深度卷积神经网络,其F1 Score为0.85,这是一个很有前途的性能,但还需要进一步改进。

获取数据与代码:

https://github.com/UCSD-AI4H/COVID-CT


1. 介绍


COVID-19是一种传染病,截至2020年3月30日,全球共有775306人感染、37083人死亡,控制这种疾病传播的主要障碍之一是缺乏有效的检测手段。


当前的检测主要基于逆转录聚合酶链反应(RT-PCR),其结果需要4到6个小时,与COVID-19的传播速度相比,检测所需的时间太长了。除了效率低下外,RT-PCR试剂盒短缺也是一个问题。

这促使研究者探索开发科替代的检测方法,它可能比RT-PCR更快、更便宜且易得,但其效果却与RT-PCR一样准确。研究者尤其对CT扫描感兴趣。多项关于CT扫描在COVID-19筛选和检测中有效性的研究中证明,CT是有希望的。


然而,出于隐私考虑,这些作品中使用的CT扫描并没有共享出来,这极大地阻碍了基于CT的COVID-19更先进的AI检测方法的研究和开发。

为了解决这个问题,研究者构建了一个包含275个COVID-CT扫描呈阳性的COVID-19 CT数据集,并对公众开放,以促进COVID-19 CT检测的研发。


研究者从medRxiv和bioRxiv的760篇预印本论文中提取了关于COVID-19的CT图像,并通过阅读这些图像说明,手动选择包含COVID-19临床表现的图像。


研究者在183例COVID-19呈阳性的CT扫描图像和146例COVID-19呈阴性的CT扫描图像上,训练了一个深度学习模型来预测COVID-19的CT图像是否为阳性。


新冠肺炎CT数据集开源,疫情筛查前景广阔

图1:对于包含多个CT扫描的图像,研究者手动将其分割为单独的CT

在35个COVID CT 图像和34个非COVID CT图像上测试,模型的F1得分为0.85。结果表明,在COVID-19的筛选和检测中,CT扫描具着良好的应用前景,但还需要更先进的方法来进一步提高其准确性。

2. 创建数据集


本节中将描述如何构建COVID-CT数据集。研究者收集了1月19日—3月25日,在medRxiv1和bioRxiv2上发表的关于COVID-19的760篇预印本论文。这些预印本论文中有许多关于COVID-19的病例,其中一些论文中有COVID-19的CT扫描图像。

CT扫描图像与描述CT临床表现的说明相关。研究者使用PyMuPDF3来提取预印本PDF文件的底层结构信息,并定位论文中的所有图片,包括分辨率、大小等数字的质量都保存得很好。

从结构信息中,研究者还定位了与图片相关的说明。


研究者首先手动选择所有的CT扫描,然后通过阅读每张CT扫描的说明,来判断其COVID-19是否阳性。如果不能从图片说明判断,研究者便在预印本中找到分析这个图像的文本来做出判断,对于包含多个CT扫描作为子图的图像,研究者手动将其分割为单独的CT图像,如图1所示。

新冠肺炎CT数据集开源,疫情筛查前景广阔

如图2:CT扫描COVID-19呈阳性的示例

最后,研究者获得了275个COVID-19呈阳性的CT扫描图像,这些CT图像的大小不同。最小高度、平均高度和最大高度分别为153、491和1853。最小宽度、平均宽度和最大宽度为124、383和1485。这些扫描图像来自143例患者,图2显示了COVID-19 CT扫描的一些示例。

3. 方法


研究者在此数据集上开发了一个基准方法,供感兴趣的人进行基准测试。

虽然该数据集是关于COVID-19最大的公开可用的CT数据集,但它仍然是比较小的数据集。在这样的数据集上训练深度学习模型很容易导致过度拟合:模型在训练数据上表现良好,但在测试数据上的泛化能力很差。

为了解决这个问题,研究者采用了两种方法:迁移学习和数据增强。

迁移学习的目的是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。

具体来说,研究者使用大量的胸部CT图像来预训练一个深度卷积神经网络,然后在COVID-CT数据集上对其进行微调。

数据增强的目的是合成近似正确的图像-标签对,即在大多数合成的图像标签对中,标签是对图像的正确注释。

3.1 迁移学习

为了缓解训练数据的不足,研究者采用了迁移学习。具体来说,研究者使用NIH发布的ChestX-ray14数据集对DenseNet进行预训练,然后在COVID-CT数据集上微调预训练的DenseNet。

3.2 数据增强


另一种缓解数据不足的方法是数据增强:即从有限的训练数据中,创建新的图像标签对,并将合成的图像标签对添加到训练集中。通过随机仿射变换、随机裁剪和翻转来增强每个训练图像。随机仿射变换包括平移和旋转。

4. 实验


4.1 实验设置

新冠肺炎CT数据集开源,疫情筛查前景广阔

为了训练一个预测CT图像是COVID还是非COVID的二分类模型,研究者收集了195例COVID呈阴性的CT图像。研究者根据患者将数据集分为训练、验证和测试集。

表1总结了每组中COVID和非COVID图像的数量,所有图像都被调整为224 * 224的大小。在验证集上调整超参数进行调优。使用Adam对网络中的权值参数进行优化,学习率为0.0001,余弦调度,最小批量为4。使用五个指标来评估该方法:(1)正确率;(2)准确率;(3)召回率;(4)F1分数;(5) ROC曲线下面积(Area under ROC curve, AUC)。所有指标都是越高越好。

5. 结果


新冠肺炎CT数据集开源,疫情筛查前景广阔

表2:通过该基准方法实现的正确率、精度、召回率、F1和AUC。

可以看出,该方法的准确率很高,但需要更先进的方法来提高召回率。

6. 结论


研究者建立了一个公开的COVID-19 CT扫描数据集,以推动AI在疫情筛查方面的发展,使用CT来筛选和测试COVID-19患者。该数据集包含275张COVID-19 呈阳性的CT扫描图像。


在数据集上训练的深度学习模型 F1 Score为0.85,下一步,研究者将会继续改进该方法以达到更高的精度。


论文链接:

https://arxiv.org/pdf/2003.13865.pdf


文章链接地址:

https://mp.weixin.qq.com/s/bjUiX3ZFemYcdOW2a6-_KA


新冠肺炎CT数据集开源,疫情筛查前景广阔


分享到:


相關文章: