通過機器學習解決南非的癌症報告延遲問題

通過機器學習解決南非的癌症報告延遲問題

癌症登記處保存著重要的數據集,被嚴格加密,包含人口統計信息、病史、診斷和治療。腫瘤學家和衛生官員利用這些數據瞭解全國癌症確診病例和發病率。最終目標是利用這些數據為公共衛生規劃提供信息。 雖然實時更新不切實際,但多年的延遲更新使官員難以瞭解癌症對南非的影響並做相應的分配資源。

非結構化病理報告包含腫瘤特異性數據,是癌症登記處收集信息的主要來源。人類專家將病理報告貼上國際癌症分類(ICD-O)的標籤,這其中涵蓋42種不同的癌症類型。手工程序和每年收到的報告數量的結合導致南非連續四年的滯後。相比之下,美國推遲了將近兩年。

從一開始的目標是應用深度學習來自動化癌症病理報告標記,以加速報告過程。與南非國家癌症登記處合作,在使用了2201份未經鑑定的免費文本病理學報告對於這些報告來說其顯示了74%的準確率,這比目前的基準模型有所改進。相信通過更多的數據我們可以將準確率達到95%左右。

研究人員最初使用的是卷積神經網絡的層次分類,儘管這不是首選。最初開始探索多類和二進制卷積神經網絡模型,但結果並不理想,幾乎都已經處在了放棄的邊緣。最後,在同事們的建議和支持下,逐漸的清理了文本,改進了特性工程流程,並將其改進到60%。這個結果是一個進步,但是至少需要百分之90-95才能使它在現實世界中足夠可信度。

經過更多的研究和探索,想到了減少多類問題的複雜性,創建了一種最先進的基於腫瘤ICD-O編碼系統層次結構的分級深度學習分類方法。因此,在使用了一種組合方法來識別類別層次結構,並使用專家知識對其進行驗證,以獲得比用於自由文本病理報告分類的平面多類模型更好的性能。


分享到:


相關文章: