騰訊聯合微眾銀行研發醫療聯邦學習,讓腦卒中預測準確率達80%

騰訊聯合微眾銀行研發醫療聯邦學習,讓腦卒中預測準確率達80%

智東西(公眾號:zhidxcom)編| 李水青

智東西4月20日消息,近日,騰訊天衍實驗室與微眾銀行共同研究表明,將聯邦學習與醫療深度融合對落地疾病預測領域有重大幫助。目前其已搭建基於聯邦學習技術的大數據集中與挖掘平臺,從落地案例來看,可將腦卒中預測準確率提升至80%。

近幾年,醫療行業正在經歷一場數字化轉型,這場基於大數據和AI技術的變革幾乎改變了整個行業的方方面面,將“信息就是力量”這句箴言體現的淋漓盡致,人們對人工智能寄以厚望,希望它能真正深入臨床一線,幫助醫生和患者。

理想很豐滿,但現實卻很骨感,在這場大變革下,作為醫療AI成長道路不可或缺的“糧食”,數據成了醫療AI落地的“攔路虎”——我國醫療健康數據領域長期存在的“信息孤島”問題,不同地區甚至不同醫院間的醫療數據沒有互聯,也沒有統一的標準。與此同時,數據安全問題也存在著巨大挑戰。

數據問題讓醫療AI成了“空中樓閣”,在這一難題下,騰訊天衍實驗室聯合微眾銀行聯合研發了醫療聯邦學習框架,成功地實現了在保護不同醫院數據隱私下的疾病預測模型,破解醫療行業數據安全與隱私保護難題。這是聯邦學習在醫療健康大數據領域應用的首個成功案例,為醫療大健康的各種潛在應用如分診診療、慢病防控、疾病早篩、醫保控費的落地等探索出了新的方向。

一、打破數據壁壘,保護數據隱私

在重大疾病早期篩查和預測領域,如果要成功能建立大數據疾病預測模型,就需要將居民在不同醫院的醫療信息與健康檔案進行整合與建模。但由於信息系統不統一,醫院管理機構對於數據隱私洩露的擔憂,和相關數據保護法規的限制,相關機構之間形成了數據壁壘,很少有醫院願意進行數據的共享,這就導致了AI難以在疾病預測領域“施展拳腳”。

在這個問題下,聯邦學習成了一劑“良方”。聯邦學習是一種新興的人工智能機器學習框架,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。聯邦學習作為分佈式的機器學習範式,可以有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,能從技術上打破數據孤島,實現AI協作。

該技術最早由谷歌在2016年提出,而後微眾銀行則在首席人工智能官楊強教授的帶領下首次提出了“聯邦遷移學習”,並開源自研聯邦學習框架Federated AI Technology Enabler(簡稱FATE),推動聯邦學習技術在行業中的落地。此前聯邦學習在金融、互聯網、智慧零智等領域已經有多個成功應用案例,但在醫療領域,由於醫療知識的專業性,電子病歷的複雜性對聯邦學習的構建帶來了種種困難。

近日,騰訊天衍實驗室結合自身醫療機器學習與自然語言處理優勢,與微眾銀行共同將聯邦學習與醫療深度融合,有機整合醫療模型與機器學習。通過搭建基於聯邦學習技術的大數據集中與挖掘平臺,兩者共同開發醫療聯邦學習(Medical Federated Learning)技術。

這一創新技術讓醫療行業的數據問題“藥到病除”。聯邦學習可以繞過醫療機構之間的信息壁壘,不考慮將各自數據做合併,而是通過協議在其間傳遞加密之後的信息,該加密過程具有一定的隱私保護機制,保證加密後的信息不會產生數據洩露。各個醫療機構通過使用這些加密的信息更新模型參數,從而實現在不暴露原始數據的條件下使用全部患者數據的訓練過程。

舉例來說,假設醫院 A 和 B 想聯合訓練一個腦卒中疾病預測模型,兩個醫院各自掌握科研病例數據,此外,醫院 B 還擁有模型需要預測的標籤數據如腦卒中發病標籤。出於數據隱私保護和安全考慮,醫院A 和 B 無法直接進行數據交換。聯邦學習系統則可以利用基於加密的患者樣本對齊技術,在醫院A 和 B 不公開各自數據的前提下確認雙方的共有患者,並且不暴露不互相重疊的患者,以便聯合這些用戶的特徵進行建模,在確定共有用戶群體後,就可以利用這些數據訓練疾病預測模型。

騰訊聯合微眾銀行研發醫療聯邦學習,讓腦卒中預測準確率達80%

▲圖片來源:天衍-微眾投稿給人工智能頂級會議IJCAI 2020的論文

如此一來,聯邦學習技術就成功破解醫療行業信息孤島和隱私保護難題,實現了在保護不同醫院數據隱私下的疾病預測模型,而這項技術也在疾病預測領域落地,雙方成功構建“腦卒中發病風險預測模型”。

二、落地疾病預測領域,腦卒中預測準確率達80%

在構建疾病預測模型過程中,不同醫院數據缺乏標準化是關鍵性難題。雙方首先通過搭建的大數據集中與挖掘平臺,構建醫療健康領域機器學習、深度學習、自然語言理解、文本特徵抽取、多種關係網絡等多種大數據模型,對地區居民連續電子病歷和其它數據進行多重關聯和信息抽取。

在這個過程中,需要構建帶有時間標誌的重大慢病標籤,如腦卒中、冠心病、腫瘤、慢阻肺等,以及大健康醫療特徵,如疾病、用藥、檢查、症狀、手術、費用、家庭關係、行為、生活、環境等,並對不同醫院構建統一的數據標準形成疾病標籤集與特徵集。

通過技術力量對疾病預測模型所需特徵進行標準與歸一化後,再將標準化模型部署到不同醫院,使各醫院按照該標準對自有的疾病、用藥、檢驗檢查、症狀、手術等方面的數據進行清洗,形成各自的標準化的疾病標籤集與醫療特徵集,再以此建立巢式病例對照研究隊列,基於聯邦學習算法協議,有效訓練機器學習模型。

通過使用來自就診記錄數量TOP5的醫院真實就診數據驗證,基於橫向聯邦學習的腦卒中預測模型的有效性良好。結果顯示,聯邦學習模型和集中訓練模型表現幾乎一致,在腦卒中預測模型中的準確率達到80%,僅比集中訓練模型準確率降低1%;同時,聯邦學習技術對於兩家腦卒中確診病例數量較少的醫院而言,提升其準確率10%和20%以上。因此,基於聯邦學習的聯合模型效果優於任意一家醫院獨立建模結果,與集中數據訓練所得模型效果相比也差異甚微,為不同醫院的聯合建模探索出了新的方向。

雙方的這一成功合作案例僅僅是醫療聯邦學習落地應用的開始,除疾病預測模型外,後續雙方將就聯邦學習在醫療大數據領域的應用落地進行更多維度的合作,包括醫保控費、合理診斷、精準醫療等領域。醫療聯邦學習作為基礎技術框架,可以挖掘並利用醫療健康數據,構建不同的醫療場景應用,如通過聯邦學習助力電子健康卡實現保護用戶隱私建模等等,以助力醫療健康產業發展,提升醫療服務的質量。

感謝閱讀。點擊關注上船,帶你浪在科技前沿~


分享到:


相關文章: