如何使用大數據和機器學習提高疫情初期的決策質量


如何使用大數據和機器學習提高疫情初期的決策質量


導語:怎麼能在有限的時間內,根據不完整的信息,做出最優的決定,成為了決策者的一大挑戰。

此次新型冠狀病毒疫情的發展迅速。 相比於SARS三個月達到5000個確診病例,此次疫情只用了不到一個月。

怎麼能在有限的時間內,根據不完整的信息,做出最優的決定,成為了決策者的一大挑戰。

面對此類挑戰,世界衛生組織(WHO)的健康突發事件和風險評估部主任奧利弗·摩根(Oliver Morgan)博士,做過一個很有借鑑價值的研究。

他提出,量化數據工具和機器學習可以提高疫情爆發時期的決策質量。

疫情爆發的三個階段和數據工具

通過觀察過去十年間結核病控制、艾滋病毒預防,以及埃博拉疫情中的經驗,奧利弗·摩根把疫情爆發分成了三個階段,調查階段、疫情擴大階段,和干預控制階段。

同時他總結了多種數據量化工具,包括數據可視化、數據管理、統計分析、全基因組測序、機器學習、地理空間分析等手段。

奧利弗·摩根提出,在疫情爆發的不同階段可以混合使用以上數據量化工具,提高決策質量,評估決策效果。

【1】調查階段:用R語言實現數據可視化

調查階段是對疫情干預的第一步。

此階段的特徵是不確定性強,病例數少,並且病例多來自於對死亡或康復患者的溯源。

這個階段,最重要的是對疫情和病例進行畫像,因為這可以快速指導應對疫情的方法。

數據可視化可以儘早展現出疫情爆發的程度,是一個不錯的畫像工具。 現在很多數據可視化工具正被迅速開發出來,特別是在R語言中。

作為一門計算機編程語言,R適用於統計計算和製圖,可完成數據分析、統計建模、數據可視化。

帝國理工大學的Thibaut Jombart博士和一組科學家創建了R程序包OutbreakTools,並定義了新的類別obkData用於存儲疫情數據。

obkData可存儲的數據類型多種多樣,包括:

1)個人數據(年齡,性別,症狀發作)

2)帶時間戳的樣品和記錄(拭子,血清學,保藏號等)

3)基因序列

4)聯繫信息

5)背景環境信息

6)系統進化樹

強大的儲存功能使得obkData適用於疫情數據的可視化以及後續分析。

比如下圖對疫情發生的時間和國別進行了可視化。 圖中每個黑點代表一個人,橫軸為時間,背景中每個顏色代表一個國家。

如何使用大數據和機器學習提高疫情初期的決策質量

下圖描述了不同性別的疫情患者在城市中的分佈情況,其中紅色為女性,藍色為男性。

如何使用大數據和機器學習提高疫情初期的決策質量


同時,obkData對感染者接觸史的記載可以提前確定那些可能被感染的出行者。 這樣相關部門可以提前做好醫療服務的準備。

OutbreakTools還包括預測功能,比如下面兩圖中每種顏色代表不同的傳染日期,通過傳染強度,預測出疫情的衍生狀況。

如何使用大數據和機器學習提高疫情初期的決策質量

但是在疫情發展的初期,一個常會遇到的問題就是數據缺失的情況,這還會對疫情預測造成障礙。

這個問題在R和Python(也是一門編程語言)這裡迎刃而解。 R和Python中有多種方法處理缺失值和異常值,從而更加快速有效地整合信息,為決策者提供支持。

另外,R和Python還可以自動處理數據並減少數據清理、管理和準備的時間,提高疫情時期的決策效率。

【2】疫情擴大階段:使用全基因組測序(WGS)和機器學習

疫情擴大階段的重點除了進行人員、物流的部署,更重要的是找到疫情的致病因素,從而抑制疫情擴散。

隨著全基因組測序(WGS)可用性的不斷提高,科學家可以通過對提取的病例樣本進行全基因組測序,分離出病毒,確定潛在的干預方案。

全基因組測序是對未知基因組序列的物種進行個體的基因組測序。 測序期間,研究人員收集DNA樣本,然後確定組成人類基因組的30億個核苷酸的身份。

如何使用大數據和機器學習提高疫情初期的決策質量

比如在此次新型冠狀病毒疫情中,國內的研究團隊收集了武漢金銀潭醫院5例重症肺炎患者的臨床數據和支氣管肺泡灌洗液(BAL)樣本,利用下一代測序技術檢測灌洗液中提取的核酸。 最後,研究團隊分離出病毒並建立起最有可能的系統發育樹。

測序結果顯示,5個樣本均存在一種此前未知的β屬冠狀病毒(SARS、MERS亦為該屬)。

此外,它們都包括一個完整的開放閱讀框8基因區域,進一步表明新病毒可能起源於蝙蝠。

截止到2月1日,全球範圍內已經測出了大約20個新型冠狀病毒基因組序列,它們都非常接近,所分析的病毒沒有太多的多樣性。 這說明,新型冠狀病毒不需要突變即可適應和傳播。

所以,使用全基因組測序可以得出很多信息。

但是使用全基因組測序數據需要大量計算機算力,處理大量數據以及應用複雜的數據處理和分析方法,這超出了大多數傳染病學家的能力,需要數據專家的介入。

機器學習是疫情爆發時可用的另一種工具,儘管目前處於起步階段。

機器學習專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

機器學習已被用於分析埃博拉疫情,並與R和Python相似,能處理數據丟失的情況,並對疫情傳播趨勢做出預測。

世界衛生組織當前使用機器學習從大量在線數據中檢測新的公共衛生事件的警報,並使用開源的傳染病智能(EIOS)平臺,將自然語言處理技術用於數據的處理、分類和組合。

如何使用大數據和機器學習提高疫情初期的決策質量

這些新工具的應用可能會進一步擴展至社交媒體數據、消費模式數據、旅行數據等,從而更深入地瞭解消費者行為與疫情爆發之間的關係。

比如通過手機數據瞭解人群流動的模式,或通過遙感數據瞭解環境中存在的風險。

將這些數據源與其他傳染病數據分析相結合,可以協助決策者對疫情的發展進行實時監控。

【3】控制干預階段:通過建模優化干預措施

控制干預階段特點是強監控,以及不斷優化對疫情的干預措施。

有效的疫情干預需要良好的物流計劃,以確保物資能夠及時輸送到最需要的地點。 如果低估了疫區的需求,人們可能會因此喪生,疫情可能得不到很好的控制。 高估了需求則會增加成本和資源浪費,減少可供給其他疫區的物資。

而如果計算物資需求的時間太長,供應可能會延遲到達,削弱疫情控制措施的效果。

顯然,當疫情爆發的規模和演變存在不確定性時,要在物流計劃中避免這些問題是特別困難的。 通過提高對爆發的量化估計的準確性和及時性,提供物資和醫療服務可以優化對於疫情爆發的應對。

決策者可以通過組織建模人員、運營人員和現場干預團隊之間的有效合作來了解疫情的物資供應需求。

在應對2017年孟加拉的白喉疫情時,倫敦衛生與熱帶醫學學院和世衛組織利用實地小組收集的數據對疫情規模進行建模,並估計需要的急診病床和醫療隊的數量。

西非埃博拉病毒爆發期間也使用了量化方法來估計隔離床的需求量。 在供應有限時優先分配疫苗等資源也很重要。

奧利弗·摩根博士等的研究表明,大數據和機器學習可以有效管理疫情爆發時期的數據,從而提高疫情爆發時的決策質量。(Oliver Morgan)


分享到:


相關文章: