NVIDIA Clara 能讓醫療AI開發變得有多容易?

2003年,當一種冠狀病毒引發的非典疫情席捲亞洲時,互聯網尚處於萌芽期,互聯網在醫療場景中還沒有落地,人們僅能前往醫院等待治療。那時,影像科總是人潮湧動,很多患者因為在醫院聚集而遭受感染。

今年,一種新的冠狀病毒帶著更強的傳染性席捲全球,但中國僅花費不到兩個月,便控制住了病毒在湖北以外地區的傳播。在AI的幫助,疫區影像科的診斷效率迅速上升,患者聚集情況大幅改善;新藥研發公司也通過創新的基因分析手段探索病毒的RNA結構,短短數日便能篩選出1000多個RNA聚合酶核苷類抑制劑化合物的可編輯結構化數據。

正如我們在疫情之中觀察到的,人工智能輔助診斷、基因分析等技術正因為其廣袤的前景而吸引著越多越多的研究人員進入其中,但由於行業自身的高門檻,許多擁有豐富經驗的醫生、學者難免在研究路上受挫。

如今,為了讓更多的開發者能夠體驗到NVIDIA的算力支持,並以更加簡單的方式對數據進行編輯,NVIDIA在EGX、DGX、雲計算服務之上開發了Clara框架,為研究人員提供聯邦學習、遷移學習等服務,通過降低數據門檻的方式,推動研究人員把重心迴歸研究本身。

什麼是Clara


NVIDIA正式發佈Clara平臺是在2018年的RSNA之上,那時NVIDIA的目的僅是為影像學AI研究者提供一個醫學影像的軟件開發工具,以標準化影像數據,並提升AI訓練速度。

隨後,NVIDIA的開發者發現,基因組是一個更為龐大的數據源,要處理億級的鹼基配對,必須找到更理想的算力來源,才能保證試驗在成本上可行。在2019年蘇州舉辦的GTC大會之上,基因組學已經成為Clara要啃掉的另一塊蛋糕。

到了今天,NVIDIA Clara的定位於面向醫療開發者的智能計算軟件平臺。接下來,所有醫療行業的解決方案都會整合進Clara,NVIDIA意欲打造一個全能的“醫療百寶袋”,為更想要探索醫療領域的開拓者提供高效便捷的數據分析工具。

NVIDIA Clara 能讓醫療AI開發變得有多容易?

NVIDIA Clara

從整體上看,NVIDIA Clara包含了GPU加速庫、3個SDK以及一系列參考應用。在這一階段下,Clara能夠為科研工作者提供的服務主要聚集於醫學影像領域與基因分析領域,而這兩個領域,正因為大數據的浪潮而飛速發展。

醫學影像應用:用AI幫助開發者標註3D影像


在醫學影像中,如果一個醫院或者一個企業想利用 AI技術構建一個深度學習算法,並將其投入使用,那麼需要完成4個步驟的工作。

數據是構建AI的第一步,在獲得原始數據後,研究人員首先需要對數據進行特定的標註,如標註出肺部CT影像中的結節部分。要構建一個運行優異的AI算法,這一步操作至關重要。

有了標註數據後,研究人員便需要將數據導入到選定的AI模型中,開發適合於研究人員需求的深度學習算法。從國內的情況而言,很多研究人員通常是使用開源算法進行二次開發,或是藉助於其他領域表現良好的算法進行遷移。

第三步是通過測試集對已有的算法進行檢驗。研究人員需要把AI模型放到實際之中,觀察AI的實際運行情況,如果算法不能很好滿足測試集的要求,研究人員可能就需要修改算法參數,重新開始訓練。

當研究人員獲得測試表現良好的算法後,便可以嘗試將其部署於設備端,在真實的醫療診斷環境中進行推理工作。到此為止,AI的開發工作便已基本完成。

NVIDIA開發Clara AI應用平臺的目的就是為了讓上述的四個步驟標準化、簡單化,讓研究人員可以更加專注於醫學本身的研究。

以數據標註為例,這一工作本是一件體力活,是“人工”跨向“智能”不可避免的重複性工作,而醫生不可能將太多的時間花在像素點連線之上。所以,一般AI企業選擇從醫院尋找剛畢業的研究生進行勾畫,其成本在每組數據20-30元,實習生處理一組低層數據通常需要20-40分鐘,若要使勾畫更精細,則需花費1-2小時的時間。

這種數據獲取方式存在兩個重要的問題,一是人工智能訓練需要的數據量大,企業很難找到足夠多的實習生進行勾畫,成本也非常高昂;其次,影像的勾畫通常對工作人員的資歷要求較為嚴格,實習生常常會出現結節遺漏、標註錯誤等現象。

從這一需求出發,NVIDIA在Clara Train SDK中植入了深度學習輔助標註的組件AI Annotation Server,開發者可直接使用這一組件對醫學影像進行標註。

NVIDIA的實驗數據顯示,應用這一工具包後,單個肺結節的標註時間可降至8-15分鐘,醫生的標註效率可提升4-8倍。此外,通過粗略計算,胰腺的標註速度可提升4倍,脾的標註速度可以提升10倍。

此外,在DGX的加速下,NVIDIA可以將數週才能完成的計算任務提速至數小時,這將大幅降低醫療AI企業的試錯成本,企業甚至可以同步開展多個算法測試。人工智能的產出,甚至是發展,都會因此大大提速。

醫學影像應用:用聯邦學習破除AI模型魯棒性難題


即便是我們解決了AI開發中的難題,並不代表就能讓AI走向實用。在上述的步驟之中,我們忽略了醫學領域數據的一個重要特徵——安全性。由於醫學數據與生命信息息息相關,只有在保證數據安全的前提下,我們才能談及數據的應用。

這意味著,企業或醫生在訓練AI時,不能把數據帶出醫院,而成熟的AI算法,通常需要克服地域差異,進行多中心的試驗。如果AI模型不具備魯棒性,就失去了應用與臨床的價值。

雖然數據不能出院,但是模型可以,那麼我們能否直接將模型融合起來呢?答案是可以的。聯邦學習便是多個參與單位用各自數據訓練完成的模型進行聚合,以實現數據不出院的情況下多個模型的統一,最終實現AI模型的高魯棒性。


NVIDIA Clara 能讓醫療AI開發變得有多容易?

聯邦學習與中心訓練結果對比


通過一個包含13個用戶組的融合實驗,NVIDIA得到了上圖結果。圖中的紅線是以數據中心模式進行訓練得到的模型精度曲線變化情況,綠線是聯邦學習下,13個模型融合後的模型精度曲線變化情況,可以發現隨著訓練迭代次數的增加,兩條曲線高度重合,這個實驗一定程度上證明了聯邦學習的可用性。


NVIDIA工程師在GTC2019講解聯邦學習(詳細請點擊https://v.qq.com/x/page/a0933bxfkqy.html查看視頻)


不過,新的問題也在不斷出現。如果各個模型差異很大,那麼聯邦學習如何自行“去粗取精”呢?“增量學習”將是NVIDIA下一步研究的重點。

除了Clara Train SDK,NVIDIA還開發了Clara Deploy SDK,用於優化PACS已有的工作流。同時,利用Clara Deploy SDK,醫生可以在臨床環境中靈活快速部署醫療影像AI模型。

基因組學:數據分析與AI構造


再談NVIDIA新近瞄準的基因組學。2003年首次對人類基因組進行測序以來,整個基因組測序的成本就一直在下降,而且下降的速度遠快於根據摩爾定律所預測的速度。從新生兒基因組測序到開展全國人口基因組計劃,該領域正在蓬勃發展,並且日趨個體化。

測序技術的進步引發了基因組數據的爆炸式增長。序列數據總量每七個月增加一倍。這一驚人的速度可能會使得到2025年基因組學產生的數據量比其他大數據源(例如天文學、Twitter和 YouTube)數據量總和的10倍還多。

各種新的測序系統,比如全球最大的基因組學研究集團——華大集團的DNBSEQ-T7等正在推動這項技術的廣泛應用。該系統每天可以生成高達60個基因組,產出高質量數據1-6 Tb。

憑藉華大集團的流動池技術的發展以及一對NVIDIA V100 Tensor Core GPU所提供的加速,DNBSEQ-T7的測序速度提高了50倍,令其成為迄今為止吞吐量最高的基因組測序儀。

但測序的加速工作遠沒有結束,科學家在觀察更加微觀的世界時提出了新的需求。為了滿足這樣的需求,NVIDIA也在不斷探索。

為了通過加速和智能計算解決基因組測序和分析日益增長的規模和複雜性,NVIDIA創造了Clara Genomics。

通過Clara框架下的Clara Genomics Analysis SDK,研究人員可以加快基因數據的讀取、序列對比,以降低分析成本,提升數據質量。

NVIDIA Clara 能讓醫療AI開發變得有多容易?

Clara Genomics

此外,NVIDIA還收購了Parabricks,這是一個CUDA加速的基因數據分析工具包,可用於發現變異,並能產生與行業標準GATK最佳實踐流程一致的結果。運用這個工具包,相關計算可提升30-50倍,並可利用深度學習進行基因變異檢測。

NVIDIA Clara 能讓醫療AI開發變得有多容易?

NVIDIA Parabricks GPU加速的GATK


通過與華大集團合作,Parabricks的軟件可以在一小時內完成全基因組的分析。華大集團使用一臺內置8個NVIDIA T4 Tensor Core GPU的服務器,證明了可以通過提高吞吐量將基因組測序成本降至2美元,這還不到現有系統成本的一半。

AI的未來需要所有人共同開創


隨著深度學習進入越來越多的領域之中,NVIDIA在為眾多開發者提供算力支持的同時,也為其搭好了強有力的“基底”,在這之上,開發者能夠將更多的精力放在知識的探索之上,而非受制於如何使用數據分析工具。

如今,Clara已經擁有了眾多的合作伙伴,在中國,聯影醫療、安德醫智均採用了這一平臺進行合作開發,在海外,賽默飛世爾、佳能Vital、約翰霍普金斯大學也與NVIDIA建立了深入的合作關係。

那麼,你想幫助人工智能走得更快,走得更遠嗎?長按識別下方二維碼或點擊文末左下方“閱讀原文”,填寫表格,讓我們與NVIDIA一起開創超算下的新紀元。


NVIDIA Clara 能讓醫療AI開發變得有多容易?

長按識別二維碼註冊, 觀看更多NVIDIA醫療技術精講視頻


分享到:


相關文章: