周志華團隊等搭建新冠病毒自學習模擬器

經此一役,中國疾控體系的數字化和智能化改革勢在必行,我們也拭目以待。

「流動、彙集,不斷的流動、不斷的彙集……在幅員遼闊的中國,南北城市遠隔千里,病毒的傳播或許只在數小時的飛行之後。」


紀錄片《非典十年祭》這樣形容當時 SARS 病毒的蔓延;17 年後,當年的病毒換了身行頭,故伎重演,來勢洶洶。


「打贏疫情防控阻擊戰」,響亮的口號,頻頻在頭版頭條裡響起,但新冠病毒卻以人類未知的火速勢頭燎原,佔得先機。要取得勝利,必須找到更為精準而高效的武器。


你瞧,一群手握機器學習、大數據「武器」的技術隊伍已經默默登場,為恐慌的人類開啟「上帝視角」,在數十個日夜裡測繪出各種潛在威脅的可能性,巧妙地避開了與病毒的狹路相逢。


經此一役,疾控體系數字化和智能化的價值被見證,後續相應的改革與升級也將勢在必行。


周志華團隊等搭建新冠病毒自學習模擬器

當現實世界裡關於新冠病毒的多維度數據被深度挖掘出來,源源不斷地投餵進自洽自足的機器學習平臺,一套仿照現實世界運轉機制的「孿生系統」因此而構建成型。

人類在屏幕前通過鼠標鍵盤,在模擬的數字世界裡,緊鑼密鼓地狙擊病毒:追蹤傳染路徑、篩查易感人群、推演疫情發展……每一步都被人工智能演繹地淋漓盡致。

周志華團隊等搭建新冠病毒自學習模擬器

基於機器自學習搭建的傳染病疫情演進預測系統示意圖

它是哮天犬「天地無極、萬里追蹤」的篩查追蹤功能,在微觀的人口流動中定位潛在傳染源和高風險人群(攜帶新冠病毒而不自知)。

也是《模擬人生》裡的現實世界模擬器,充分考慮複雜環境下的各種突發因子(交通管制/復工時間/藥物設施等),在模擬器上修改相關變量,進而推演出疫情狙擊中人工干預的最優政策。

第四範式聯合南京大學 LAMDA 研究所和蘇北人民醫院組隊,針對疫情推出的智能疫情防控系統,正是基於這樣一套思路。

CEO 接下「神秘」任務

除夕夜,第四範式的微信群裡,新年祝福刷屏之後,突然跳出一則動員信息,打亂了節奏。

原來,公司被推薦加入了一個來自上級的「特殊」項目,由 CEO 戴文淵親自承接。項目與疫情防控有關,剛開始還有點「神秘」。

經公司高層動員,項目是為疫情做貢獻,很快便有幾十人主動參與進來。

隨後,項目總負責人塗威威邀請了以周志華教授為首的南京大學 LAMDA 研究所、蘇北人民醫院的十數名專家加入項目組,整個系統項目組已接近百人規模。他們的任務是為疫情防抗搭建一套基於機器學習技術的精準防控決策支持系統。

第四範式,全稱為 第四範式 (北京) 技術有限公司,是一家於 2014 年成立的人工智能技術與服務提供商,創始團隊來自百度鳳巢推薦系統、今日頭條推薦系統等核心技術團隊。

第四範式擅長搭建複雜的機器學習模型平臺,並將之業務和產品化。早在 2016 年,第四範式就發佈了相關產品「第四範式先知」——一套企業級的人工智能 PaaS 平臺,能力覆蓋人工智能項目從應用開發、運行到管理的全生命週期。

據 IDC 2019 年發佈的《中國機器學習開發平臺市場評估》報告顯示,第四範式、阿里、百度、AWS、騰訊、微軟等位列領導者象限。其中,作為 AI 獨角獸的第四範式,佔據了中國市場的最大份額。


當機器學習遇上傳染病學

項目組分設有前端、後端兩個部分。前端由王巍負責,王巍今年和家人留京過春節,無離京記錄,健康狀況良好,成為疫情下的最佳前端人選。

事實上,項目前期前端只有他一人在現場。接到任務後,王巍每天生活就是朝八晚八,兩點一線。

早晨 8 點前,王巍需要趕到北京項目組安排的集中辦公點。測過體溫,身份驗證之後,進入井然有序的辦公區間,口罩下的人臉只剩下一雙雙專注的雙眼,緊盯電腦屏幕。

春節期間,疫情仍處於上揚勢頭,政策調控方的需求變化多端,各方數據滾滾而來,王巍主要承擔需求和任務的彙總梳理工作,將其有節奏有條理地反饋給後端團隊,以保證將有限的資源投入關鍵領域。

「數據更新頻率很快,一般來說,一小時至半天左右更新。所以我們的響應速度也需要比較快」王巍說。

「下班後,他還要和我們對需求,壓力是比較大的」,項目總負責人塗威威補充,不斷更新彙總的宏觀數據,對於後端合理地設計模型,有效調用算法起到關鍵性作用。

如果說,前端的壓力主要聚焦在極短的任務交付期限中,那麼後端的壓力則貫穿始終。

塗威威同時也是範式後端數十人科學家的領隊,主要通過遠程辦公協同,沒有嚴格的固定工作時間點——往往意味著要隨時待命,模型調到凌晨 2-3 點是家常便飯。

協同過程中,塗威威與南京大學 LAMDA 研究所詹德川、俞揚教授和國家 GCP 機構辦主任餘果的四人工作微信群每天都會從早晨密集討論到深夜。

「項目背後的指導老師周志華教授也全程在各方面為項目組提供細緻的指導,很多時候周老師會與我們溝通工作到凌晨三四點。」塗威威介紹。

最初,這幫科學家的想法很簡單——讓技術產生價值;然而,好想法在實際運用中卻得不到好結果。

由於缺乏傳染病學背景知識,科學家團隊採用了一組固有的傳染係數,套用在不同地區、不同場景上,但卻與實際數據相去甚遠。

隨著團隊與一線醫學專家深入交流和探討,問題才逐漸浮出水面。

「傳染係數實際受到多種因素影響,」塗威威解釋道,「比如飛機裡的傳染率其實比火車低很多,因為空氣是循環的;又如經濟發達地區,居民防護意識較強,傳染率會較低……」

周志華團隊等搭建新冠病毒自學習模擬器

飛機不同座位傳染率(圖源:國家地理中文網)

基於此,團隊替換掉了此前的固有傳染係數,轉而構建一套傳染模型,綜合考慮地區、場景、時間等各種實際因素。根據機器學習結果,團隊再進一步找醫學專家驗證及優化,依此往復。

據塗威威介紹,經過對全國各省建模,自學習模擬器相對改進版傳染病模型(SEIR 模型)的誤差平均降低 90%,與實際數據出現比較好的擬合狀態。

「疫情目前的發展軌跡都在印證了之前推演結果,在一定程度上也消除了我們自身對疫情的焦慮,」他談道。

此外,系統團隊每天會定期與宏觀調控部門的技術人員遠程連線,在結果層面、方法論上進行探討,針對系統預測值和實際值的差距進行優化。

「在這個過程中,產品的迭代以小時為單位計算——每隔兩三個小時,相關部門就會要求更新結果,3-5 天產品實現較大提升。」說到這,塗威威的語速不自覺地加快。


戰疫偵察三部曲

追蹤、篩查、推演

如果消滅疫情是場「阻擊戰」,從防控前期的病毒傳播分析到易感人群的精準篩查再到後期推演疫情,為決策層制定政策並影響疫情發展做支持,都必須做到「快且準」,小到預測某個地區的傳染率,大到提前為某省市頒佈整體防控決策做預演輔助。

為此,這隻由人工智能專家和醫學專家組建的聯合團隊,從複雜多變的物理世界中挖掘多維度數據,利用機器學習技術構建數據驅動的新冠病毒傳播數字孿生系統。

這就像一套現實世界裡的病毒傳播模擬器,可以模擬出各項與疫情相關的變量、指標(交通管制/復工時間/藥物設施等),以實現精準而有效的傳染源定位、人群篩查以及疫情推演。

該套系統依託於第四範式的底層人工智能 PaaS 平臺,針對疫情場景進行了應用升級,在平臺的核心算法、功能組件和底層技術(如自動機器學習技術)等方面已經有了成熟的經驗保障。

針對疫情發展的不同階段和實際場景需求,系統團隊提出了三套方案應用,分別對應追蹤傳播路徑、篩查高危人群、疫情態勢推演。

1、精準防控第一步:追蹤傳播路徑

在疫情發生後,病毒傳染路徑分析極為關鍵,系統將模擬出一套潛在傳染的關係網,在關係網中找到可能的傳播路徑協助精準防控。

此外,第四範式還構建了可學習的事件回放模擬器,及時發現並覆盤潛在傳染路徑以及傳染方式,幫助防疫部門快速切斷疫情的蔓延,同時反哺到病理學相關研究,提供研究方向上的輔助。

2、精準防控第二步:篩查高危人群

在防控關鍵階段,核心是要找到潛在的高風險人群。為此,塗威威團隊構建了一套精準篩查模型,利用 AI 技術豐富了現有的防控篩查規則模型,進一步提升人群的覆蓋面以及篩查的召回率與準確率。

周志華團隊等搭建新冠病毒自學習模擬器

醫學專家建議的「ABCD」人群分類,A 是指有武漢接觸史的人,B 是指 A 出門在公共場所中遇到的所有陌生人,C 是指 A 接觸到的熟人,D 是指沒有外出的安全市民。


傳統的篩查規則系統是通過判斷是否和確診或疑似人員在同一地區同時出現,其準確度還有很大的提升空間。

比如,由於 A、C 兩類都容易識別並進行隔離,B 類人群由於與 A 互不認識,很有可能被感染而不自知,引發更大範圍的疫情感染。「而且病毒傳染方式多變,受天氣、空氣流通性、接觸方式等各方面因素綜合影響,所以需要一套更為『精準』的高維篩查模型。」塗威威說道。


3、精準防控第三步:推演疫情發展,提供宏觀決策預判

對於決策者,知曉疫情變化趨勢、預判拐點成為更加緊要的事情,而且從宏觀決策來看,國家需要對全國疫情精準推演,以減少疫情蔓延。

而與此同時,眾多現實因素干擾使得傳統理想化模型預測疫情不再可行。

為此,系統團隊採用了高維機器學習技術以及多維度的數據,構建出更細粒度、更接近實際情況的可學習的省市區縣級數字孿生系統。

與過去基於人寫規則的數字孿生系統不同,基於機器學習、高維非梯度優化等技術的系統最大亮點在於數據驅動,從數據中學習出數字孿生系統,可就關鍵決策一旦實施所帶來的影響進行精準的仿真預判,為制定實用有效的防控政策提供重要依據。

「大眾經常可以看到限制聚眾、封路、封閉小區等加大防控力度的政策,或者復工復產、降低響應機制等級的風向變化,這套系統就可以有效輔助類似決策」,塗威威解釋道。

據瞭解,該套解決方案除了為有關部門提供防控支持之外,已經下沉到地方政府,幫助更多部門在疫情一線提升效率、輔助決策,協助企業做好微觀防控。

接下來,全民進入復工復產狀態,方案也進行了針對性功能調整——如何在控制疫情和恢復經濟中應尋求平衡是關鍵。比如,復產排班的合理性,針對工作區域劃分危險等級等。


疫情之後,我們如何覆盤?

病毒雖然疏離了我們的物理距離,卻好像又拉近了一些東西,比如疫情之下,我們共同見證的抵抗,共同追問的話題,共同反思的漏洞。

時至今日,我們完全有理由相信,疫情終將平息,但一場大病之中暴露的問題和反思總結才剛剛開始。

新冠疫情發生以來,疫情防治工作在早期經歷了民眾質疑與信任危機,面對爆發突然、傳染性極強的全新冠狀病毒,前期近一個月的防控措施效果有限。

在塗威威看來,未來,國家乃至全球層面,基於數據驅動的疾控系統一定會進一步完善。而這套全民抗疫過程中所沉澱出的方案、經驗和技術也將在後續人類與病毒共生的歲月裡發揮出更大的價值。

經此一役,中國疾控體系的數字化和智能化改革勢在必行,我們也拭目以待。


分享到:


相關文章: