“拐點”何時出現?北大前沿計算研究中心給出面向新冠疫情的數據可視化分析與模擬預測

“拐點”何時出現?北大前沿計算研究中心給出面向新冠疫情的數據可視化分析與模擬預測

在這個特殊的春節,所有人的目光都聚焦在新型冠狀病毒的最新進展,“拐點”何時出現成為大家目前最為關心的問題。北京大學陳寶權教授團隊從已有數據的可視化來展示疫情傳播特點,然後通過建立傳染病動力學模型,評估疫情防控措施,提出建議並預警,同時預測疫情疾病走勢,給疫情防控決策和大眾行為作為參考。

指導老師:陳寶權 教授,北京大學前沿計算研究中心

模擬仿真:倪星宇、阮良旺、姚賀源、王夢迪

數據可視化:史明鎰、蔣鴻達、宋振華、周強、葛彤

關鍵詞:2019-nCov NCP 新冠疫情 數據可視化 疫情模擬

目錄2020-nCoV

導言1. 疫情傳播可視化總覽2. 疫情傳播特點分析人口流動與疫情的不同階段

各省市傳播差異

3. 疫情傳播模擬基礎的SEIR模型

C-SEIR模型及其模擬分析

4. 總結

導言2020-nCoV

2019年在武漢爆發的新型冠狀病毒肺炎(國家衛健委簡稱NCP)傳播迅猛,已被世界衛生組織(WHO)定為“國際關注的突發公共衛生事件”。對疫情的控制,自1月24日武漢宣佈封城之後,各個省市也陸續通過啟動重大突發公共衛生事件一級響應來控制人口流動;同時,各省市醫療隊伍馳援武漢,武漢的防控措施也急速加強;但全國疫情,特別是湖北省的狀況依然讓人揪心。公眾非常關心疫情的發展趨勢,期待“拐點”的出現;疫情防控部門希望不斷總結經驗教訓,評估現有措施的有效性。該疫情的發展成為了涉及到我國政治經濟民生的一件大事。

此次病毒的傳播到底如何從武漢向外傳播?不同省市疫情的發展呈現怎樣的差別?封城、社區化隔離等一系列措施對減緩疾病傳播起到了多大的作用;更為重要的是,拐點何時出現?

我們的報告首先從已有數據的可視化來展示疫情傳播特點,然後通過建立傳染病動力學模型,評估疫情防控措施,提出建議並預警,同時預測疫情疾病走勢,給疫情防控決策和大眾行為作為參考。

1. 疫情傳播可視化總覽

通過熱度圖的方式,我們使用國家及各省市地區衛健委公佈的地級市每日確診數據[1],在圖1.1中重現了NCP疫情的傳播。容易發現,疫情的傳播主要以武漢為中心向周圍擴散,通過人口流動將病情傳播至中心城市,北京、上海、廣州等地,成為二級傳播中心。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖1.1. 各省市疫情傳播熱度圖( 1月21日至2月9日)

我們對全國、湖北及湖北以外的省市的新增感染人數可視化,容易發現,湖北以外各省,在1月31日前新增仍在不斷增長,然後增速放緩,從2月4日開始有下降的趨勢。而湖北省的新增人數仍沒有明顯的下降趨勢,加上檢測的瓶頸,報告的數據可能和實際的情況相比存在較大的噪聲,疫情防控形勢依然嚴峻。即使是湖北之外的其它省市,情況也各不相同,有些省市的情況亦不容小視,後面會展開分析。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖1.2. 湖北及湖北以外省市新增確診人數的變化(1月24日至2月9日)

2. 疫情傳播特點分析

2.1 人口流動與疫情的不同階段

人口流動是疫情發展第一階段輸入型傳染的主要因素,為了具體描述其影響,我們使用百度遷移所提供的人口流動數據[2],通過可視化春運期間從武漢流向全國各省市的人口規模(不包含港澳臺數據)和全國感染病毒人數的分佈,直觀地觀察兩者間的聯繫。

疫情由湖北武漢華南海鮮市場開始傳播,逐漸蔓延至全國。中國大陸各省份的顏色,反映了該省的確診人數及來自武漢市的輸入人流量。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖2.1. (左) 由武漢市流向各省市的輸入人流量,(中) 1月31日各省市確診感染總人數,(右) 2月9日各省市確診感染總人數

通過對比圖2.1(左)和圖2.1(中),我們可以看到,在疫情初期,各省市感染總人數與春運期間由武漢市的輸入人流量呈現強相關性;需要指出的是,武漢1月24日封城,考慮平均潛伏期7天,1月31日湖北外省市的確診人群應該基本為輸入型感染。但隨著時間的推移,確診人數分佈圖則發生了一定的變化(2.1(右))。我們推斷,武漢封城之後,二次傳染所造成的病毒傳播越來越占主導地位,和各省市的人口密度,以及管控措施等密切相關。

2.2 各省市傳播差異

為了更具體分析各省市之間的疫情傳播差異,首先,我們針對湖北以外的省市,以從武漢輸入人流規模為基準,與當地截止到2月9日的確診人數進行對比。見圖2.2:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖2.2. 湖北以外省市的武漢人口流入規模(相對值)與其確診感染人數

從圖2.2可以發現,各省市的武漢輸入人流量規模與其確診人數之間存在正相關,如圖2.1(中)一樣,驗證了人口流動是疫情初期傳播的主要原因之一。然而,有些異常值出現,代表了疫情傳播比較特殊的幾個省份。

為了更好地觀察這些差異,我們對確診人數做數據歸一化,將每個省市確診總人數分別除以武漢輸入人數規模和該省市總人口,得到兩個曲線,見圖2.3:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖2.3.截止2月9日,各省市確診人數分別除以武漢輸入人數規模以及該省市總人口數

對於單人感染率較高的省市(圖2.3 藍色曲線),如浙江省、北京市、上海市、廣東省,雖然確診人數不是最多,但是發病率卻相對較高,原因是這些省市都屬於商務旅遊集中、人流密集、流動性大的城市,因此造成傳染性高於其他地區。有些省份公佈了二次傳播人數,黑龍江省的二次傳染比例最高,有報道表示,至2月6日,黑龍江發生48起聚集性疫情傳播,共導致發病193例。

二次傳播在疫情傳播第二階段中占主導地位,對於目前聚集性傳播的高發地區,採用更嚴格的隔離措施避免疫情的爆發型增長,是行之有效的方法。但後續疫情傳播的走向具體如何,哪些因素更為關鍵,我們接下來採用傳染病傳播模型來做數字模擬和分析。

3. 疫情傳播模擬

3.1 基礎的SEIR模型

1月31日,國際知名醫學期刊《柳葉刀》發表了中國香港科學家的工作[3]。在該文中,作者採用了傳染病動力學中經典的SEIR模型來進行模擬。該模型將人群分為易感人群(Susceptible)、已被感染但無症狀處於潛伏期的人群(Exposed)、已表現出症狀但未被隔離的患病人群(Infectious)、康復人群(Recovered)四類(模型把死亡人數也歸到R中)。並假設他們之間按一定概率轉移。其狀態轉移圖如下:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.1.SEIR傳染病動力模型

該模型所涉及的參數主要為:可再生數R0、平均潛伏期時間DE和平均收治時間DI。其中,後兩種參數均可直接從官方發佈中獲得,而R0,即一名被感染者平均每天傳染到的人數,其值較難估計。文章使用了2019年12月31日至2020年1月28日的感染人數數據,並根據境外(除香港)受感染人數及國際航班從武漢出境人數反推得R0為2.68,採用如上模型推算出截止1月25日,武漢地區受感染人數約為75815人,預測疫情的拐點將在五月到來,並得出封城手段的採取對加快疫情緩解的作用不顯著的判斷。我們的觀察是,該項工作的模型與參數選取存在不合理性,主要是:

1、境外確診數據樣本量較小,且使用飛機這一交通工具的人群在總人口中並非均勻分佈,據此假設泊松過程來估計R0偏差較大;

2、考慮到政府防控措施的實施與升級,R0的取值不應設為定值。儘管論文中假設戴口罩可以使R0減半並進行了一定的討論,但這樣的設置依然較為粗糙。

3、封城作為非常嚴厲的防控手段執行得非常徹底,必須在參數設置中有效的反映。

4

社區隔離措施作為後來使用的控疫手段也必須考慮。

最後一點(社區隔離)在現有的SEIR模型中無法模擬,為此,我們引入C-SEIR模型。

3.2 C-SEIR模型及模擬分析

C-SEIR模型[4]相比於SEIR模型主要有以下兩點改進:

1、考慮政府的隔離措施,將人群進一步劃分出隔離患者和未隔離患者,隔離患者不具備傳播能力;

2、考慮政府措施的加強和群眾防護意識上升,病毒的基本可再生係數(R0)應該隨時間變化而不是一個固定值,因此通過真實數據擬合出病毒的傳染率曲線代替R0。

針對第一點,C-SEIR在SEIR的四類人群基礎上增加了兩類新的人群:被隔離疑似感染人群(P),已確診並被隔離的患病人群(Q)。注意在P類中的人包括新冠狀病毒的患者,也包括了症狀相似但未感染新型肺炎的人群,可以假設這一部分人群不具備向外傳染病毒的能力,即病毒的傳染能力只與I和E有關。同時,在考慮湖北省之外的省市時還需要考慮來自武漢的人群輸入。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.2. C-SEIR傳染病動力模型

對於第二點,首先定義病毒的傳染率函數β(t)為每日新增的被傳染人數ΔE除以未被收治的患病人數I,考慮到新冠病毒在潛伏期可能也有一定的傳染能力,可以寫成公式為:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

其中k取0.1,表示潛伏期傳染能力是表現症狀時的0.1倍。為了確定β(t)的具體形式,我們首先使用衛健委公佈的每日確診人數以及估算的潛伏期時長反推每日的潛伏期人數和感染人數來計算β(t)的估計值,再選取函數對數據進行擬合。

為了估計β(t),需要計算每天的感染人數E和發病人數I。由於只能獲得新增確診人數的數據,所以需要以此為基礎,對E和I進行估計。我們按照論文[4]中的方法,假定病毒的傳代期和收治期和SARS相近,分別為9天和3天,也就是說,可以大致認為,第t天感染的人會在第t+6天發病,第t+9天被收治。由此即可估計:t ~ t+9期間的總收治人數等於第t天的總感染人數,t ~ t+3期間的總收治人數等於第t天的總髮病人數,從而計算出β(t)公式中的各項,進而估計出β(t)。

在大部分傳染病的傳播過程中,傳染率β(t)會隨時間指數衰減。我們使用指數函數,擬合逐日估計的β(t)散點值。以北京市為例,擬合結果如下:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.3. 北京市的感染率變化擬合曲線

可見,指數衰減的假設基本符合實際情況,能較好地描繪傳染率的變化。我們將全國各地的曲線畫在一張圖上,到2月7日24時,累積感染人數超過200的各省份的擬合結果如圖所示:

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.4. 疫情相對嚴重的省市的感染率變化曲線

從圖中可以看出,各省病毒傳染率的下降均非常快,反映了控疫措施的成效。其中,黑龍江與湖北兩省的曲線離群,黑龍江的感染率收斂值偏高,而湖北的感染率下降速率偏慢。黑龍江的情況可參考前面的分析;湖北作為疫情源頭,其感染率下降速度反映了該地區醫療資源的制約,控疫任務的艱鉅性。

C-SEIR模型中的其他參數依賴於病毒的特性,如潛伏期長度、病程、死亡率、治癒率,還依賴於政府措施的實施情況,如隔離人員的數量、發病到確診所用的時間。我們使用與論文[4]類似的方法進行模型參數的確定,對湖北省確診人數變化的數據進行擬合,並預測其未來的發展,如圖3.5所示。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.5. C-SEIR模型預測曲線(基於湖北省確診數據擬合)

這裡,我們作出了兩條不同的預測曲線(藍色/綠色),其中實線為當天確診人數,虛線為累計確診人數。從圖中可以看出,儘管兩種參數選擇在前期都與實際確診人數(米黃色點)近似曲線吻合,並且拐點時間的預測非常接近,但是最終累計感染人數的預測相差非常大。這反映了一個事實:在發病初期嘗試對疫情走向進行預測往往十分不準確,不能因為模型的預測而過分樂觀或恐慌。

考慮到各地疫情的新增確診人數慢慢出現了拐點,我們也以北京市為例對新增確診人數進行了擬合,如圖3.6所示,採用了樂觀(綠色)和保守(藍線)兩組參數來預測。首先新增確診人數波動較大,因為考慮到上報的延遲可能導致新增確診病例出現聚集,平均來看可以看到新增確診病例確實有下降趨勢。值得注意的是,新增病例出現拐點並不意味著疫情會馬上消退,累計確診依然會保持增長趨勢,疫情的真正緩和由新增確診的長尾來決定。隨著生產活動的逐漸恢復,廣大民眾應該依然保持防護意識,不能掉以輕心。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.6. C-SEIR模型預測曲線(據北京市新增確診擬合)

同β一樣,模型中的其它參數也可能在不停地變化,並且極易受到突發事件的影響。鑑於以上因素,利用該模型預測疫情峰值的具體日期只有參考價值。但是,通過半定量地分析具體參數,依然能夠為今後政府的防控和個人行為提供參考。

首先我們考察隔離措施的持續對疫情變化的影響。圖3.7對比了當確診人數達到峰值後,是否立即取消對密切接觸者的隔離對疫情的變化的不同效果。從圖中可以看出,如果立即取消隔離,會大大降低疫情緩解的速度,甚至出現第二個峰值,因此,保持高壓防控不動搖,是接下來疫情防控的重中之重。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.7. C-SEIR模型預測對比:當疫情達到拐點後是否取消隔離

其次,每日新增被感染者中,已經被隔離者所佔的比例也具有重要的意義。我們動態地調整該值,如圖3.8所示。從該圖中我們看出,儘管對疫情峰值時間的影響並不顯著,但隔離比例降低會使得累積患病的人數成倍的增長。因此,為了更快控制疫情,我們需要保持積極響應與配合各種有效的隔離措施。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.8. C-SEIR模型預測對比:已隔離人員佔患病者的不同比例

最後,我們試圖覆盤武漢封城這一控疫措施的有效性。我們利用該模型分析了武漢採取封城措施的時間點對疫情變化的影響,參見圖3.9。從中不難看出,在採取隔離等辦法的情形下,封城的提前或推遲不會對疫情拐點的到來時刻產生大的影響,但卻會造成感染確診人數的大幅度變化。考慮到現實生活中有限的醫療資源,儘早地實施封城的措施是很有必要的。

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

圖3.9. C-SEIR模型預測對比:在不同時間點實施封城手段的疫情的影響

今天的《Science》報道[5]引用了柳葉刀的論文[3],針對武漢封城的有效性提出質疑,所說的原因是武漢封城只將對其它城市的擴散延後2.9天。我們認為這不是正確的推理。首先,從我們的模型預測,封城並不改變峰值的時間,而是感染人數的總量,另外,不封城將造成對全國乃至全球更多的感染人群輸出,會更快更強的加大病毒的傳播。

4. 總結

我們基於現有公佈的數據,藉助於傳染病動力學模型,得到下列結論

1、武漢的封城舉措,對於降低病毒感染人數具有重要的意義;

2、自政府採取相關防疫措施以來,全國各省市的病毒傳染率均得到了較好的控制;

3、對疑似感染者的隔離觀察是疫情防控的重要手段;

4、即使部分地區疫情似乎出現了拐點,但控疫思維和手段不可鬆懈,要避免二次高峰。

我們的模型驗證了隔離的重要性,但如何有效的隔離是一個需要進一步探討的問題。嚴格來講,隔離只是針對疑似感染人群。所以,如果檢測設備足夠靈敏便捷,人們的自我檢測與隔離的意識足夠強,理論上來講,社會的工作和生活秩序可以基本恢復正常而不會影響疫情的變化。從公共管理來講,如何進一步提高公共衛生水平,加強基礎設施建設;如何針對公共交通和重點公共場所做有效的疏導,都值得相關政府部門提前籌劃。

疫情不同於病情,不僅關乎人們的身體健康,更是涉及到政治、經濟、文化、教育,以及人們的心理健康與生活質量等各個方面。疫情防控手段與社會各要素之間的平衡關係恐怕需要一個更復雜的計算模型來評測;如何在有效控疫與全社會利益之間找到一個平衡點,是一個更大的課題。

由於篇幅有限,更多的數據和可視化會持續在

https://github.com/NCP-VIS中更新,歡迎關注。

[1] 2019新型冠狀病毒(2019-nCoV)疫情狀況的時間序列數據倉庫https://github.com/BlankerL/DXY-2019-nCoV-Data

[2] 百度地圖慧眼-百度遷移 http://qianxi.baidu.com/

[3] Joseph T Wu, Kathy Leung, Gabriel M Leung. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: a modelling study. The Lancet (online first), January 31, 2020.

[4] Zhang J , Lou J , Ma Z , et al. A compartmental model for the analysis of SARS transmission patterns and outbreak control measures in China. Applied Mathematics and Computation, 2005, 162(2):909-924.

[5] Jon Cohen, Scientists are racing to model the next moves of a coronavirus that's still hard to predict. Science, Feb. 7, 2020

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金

專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

“拐点”何时出现?北大前沿计算研究中心给出面向新冠疫情的数据可视化分析与模拟预测


分享到:


相關文章: