通过机器学习解决南非的癌症报告延迟问题

通过机器学习解决南非的癌症报告延迟问题

癌症登记处保存着重要的数据集,被严格加密,包含人口统计信息、病史、诊断和治疗。肿瘤学家和卫生官员利用这些数据了解全国癌症确诊病例和发病率。最终目标是利用这些数据为公共卫生规划提供信息。 虽然实时更新不切实际,但多年的延迟更新使官员难以了解癌症对南非的影响并做相应的分配资源。

非结构化病理报告包含肿瘤特异性数据,是癌症登记处收集信息的主要来源。人类专家将病理报告贴上国际癌症分类(ICD-O)的标签,这其中涵盖42种不同的癌症类型。手工程序和每年收到的报告数量的结合导致南非连续四年的滞后。相比之下,美国推迟了将近两年。

从一开始的目标是应用深度学习来自动化癌症病理报告标记,以加速报告过程。与南非国家癌症登记处合作,在使用了2201份未经鉴定的免费文本病理学报告对于这些报告来说其显示了74%的准确率,这比目前的基准模型有所改进。相信通过更多的数据我们可以将准确率达到95%左右。

研究人员最初使用的是卷积神经网络的层次分类,尽管这不是首选。最初开始探索多类和二进制卷积神经网络模型,但结果并不理想,几乎都已经处在了放弃的边缘。最后,在同事们的建议和支持下,逐渐的清理了文本,改进了特性工程流程,并将其改进到60%。这个结果是一个进步,但是至少需要百分之90-95才能使它在现实世界中足够可信度。

经过更多的研究和探索,想到了减少多类问题的复杂性,创建了一种最先进的基于肿瘤ICD-O编码系统层次结构的分级深度学习分类方法。因此,在使用了一种组合方法来识别类别层次结构,并使用专家知识对其进行验证,以获得比用于自由文本病理报告分类的平面多类模型更好的性能。


分享到:


相關文章: