在過去的幾週中,一種可怕的苦難正在世界範圍內蔓延。 否則,健康高效的社會成員就感染了這種毀滅性疾病,導致他們啟動Excel,Python或R,並開始推斷其所在的城鎮,州,國家甚至整個世界的最新CoVID19確診病例!
撇開所有笑話,當前SARS-CoV-2流行的嚴重程度是不可否認的,人們自然會以各種方式應對生活中增加的壓力(由於鎖定程序而增加了空閒時間)。
我最痛苦的是我自己的物理學家(人口統計學家)的人口統計信息,這導致了一些小型博客行業的興起,這些博客,LinkedIn出版物甚至arXiv論文都在盡最大的努力來模擬這種疾病的傳播,而對此卻知之甚少。 流行病傳播的動態。 西蒙·狄德(Simon DeDeo)不朽的話再次被證明是正確的:
毫無疑問,我們無畏的約翰·斯諾(John Snow)追隨者(並非您所想的)最終以該圖的一些變化為例,比較了不同國家/地區隨時間的累積病例或死亡人數與時間的函數關係,並呈指數級增長。
外推到不切實際的數字,對一個國家何時可能超越另一個國家的預測,對遏制措施成敗的考慮以及隨之而來的其他各種惡作劇。
將混亂帶入一個混亂的世界一直是人類進步的驅動力,可以說這僅僅是它的最新化身:Numerati試圖利用他們的建模和數據科學技能來了解周圍的世界。 近年來,這種趨勢導致機器學習,人工智能和數據科學領域取得了令人矚目的進步。 不幸的是,儘管有充分的理由期望流行病的蔓延初期呈指數級增長,但有許多實際因素共同影響了簡單曲線擬合的功效,而對傳統流行病建模的一點背景知識可能會走很長一段路。
以下是我的個人觀點,作為一個在先前的大流行期間具有流行病建模經驗的個人,並且不應該反思我可能所屬的任何團體或機構。
隔室模型
流行病學中的數學建模有著悠久而豐富的歷史,最早可追溯至1920年代的Kermack–McKendrick理論。 基本想法看似簡單:我們可以將人群分為代表疾病不同階段的不同部分,並使用每個部分的相對大小來模擬數字隨時間的變化。
在下面的討論中,我將介紹幾個簡單的模型和方案,以幫助說明僅通過對經驗數字進行曲線擬合即可說明的問題。 您可以在為這篇文章專門製作的GitHub存儲庫中找到我編寫的用於實現模型並生成圖的筆記本:
SI模型
讓我們首先看一下最簡單的流行病模型:易感感染模型。 在這裡,我們將人口分為兩個部分,即健康部分(通常稱為易感部分)和傳染部分。 當健康的人與傳染性的人接觸時,其動態也很簡單,他/他會以給定的概率被感染。 並且,在這個簡單的示例中,當您被感染時,您將永遠被感染。 從數學上講,這通常寫為:
這只是說健康人數減少與感染者人數增加相同的一種奇特的說法。 進一步來說:
· N只是人口總數
· β是感染率
· 它/ N是感染者的比例,它表示易感人群遇到感染者的可能性。
毫不奇怪,這不是一個非常有趣的模型:只要有足夠的時間,每個人都會被感染:
這個簡單的模型只考慮了一種在各部分之間進行轉換的方法:通過S和I之間的交互作用(接觸),從S到I。表示這種情況的緊湊方法是:
SIR模型
可以通過添加更多隔離和過渡來開發更現實的流行模型。 最常見的此類模型是易感傳染恢復模型:
在這裡,我們有一個新的隔間,Recovered,該隔間代表過去曾患該疾病並自此康復後變得免疫的人們。 Recovered的存在會隨著允許其恢復而緩慢減少傳染性個體的數量。
就過渡而言,可以寫成:
第二行表示以固定速率μ從感染性到恢復性的自發(非交互)過渡。
或者,數學上為:
這清楚地表明,恢復的人數的增長僅取決於當前的感染人數。 還應該注意的是,該模型暗示人口規模恆定:
也可以為SI模型編寫類似的表達式。
如果現在集成完整的SIR模型,則會發現:
關於這個情節應該注意一些事情:
· 易感個體的數量只能減少
· 恢復的數量只能增加
· 傳染性個體的數量在達到頂峰並開始下降之前會增長到某個點。
· 大多數人口被感染並最終康復。
如果僅放大感染隔室的行為,則會發現:
這意味著可以同時感染大量人口,這可能導致(取決於感染的嚴重程度)醫療保健系統不堪重負。 當您聽到有關"展平曲線"的信息時,這就是他們所指的曲線。
根據上面SIR模型的數學表達式,可以輕鬆獲得一些有趣的結果。 如果我們專注於流行病傳播的初期,我們可以假設易感個體的比例仍為〜1並發現:
每個人都想適應的指數! 這裡,
被稱為" R naught",是該疾病的基本繁殖數。 這個簡單的數字定義了我們是否有流行病。 如果Rₒ<1,該病死亡,否則,它呈指數增長!
解釋R +的一種直觀方法是單個感染個體產生的新感染的平均數量。 如果一個人能夠在康復之前將疾病傳播到至少另一種疾病,那麼這種流行病就可以繼續,否則,它就死了。
這是我們需要確定的,並且取決於該病毒的許多不同因素,正如凱特·溫斯萊特(Kate Winslet)雄辯地將其放入2011年電影《傳染病》中一樣。
目前對引起CoVID19的冠狀病毒SARS-CoV-2的Rₒ值的最佳估計約為2.5。
Rₒ的值在決定流行病的過程中也起著基本作用。 如果我們考慮描述SIR模型的第二個方程:
我們發現,只要有以下情況,傳染數量的導數就變為負數:
這是我們到達頂峰,流行開始消退的時刻。 在這一點上,人群開始具有足夠的所謂的"牛群免疫力",無法使疾病進一步傳播。 只要有疫苗,就設計疫苗接種程序,以幫助人群獲得牛群免疫,而不必感染很大一部分人群。
Rₒ還確定了不受該疾病影響的整個人群的最後一部分:
其中S_infinity指的是該流行病有時間完全遵循其病程之後健康的(從未感染)個體的總數。 該表達式不適用於封閉形式的解決方案,但可用於以數字方式估算S_infinity的值。 上面的SIR圖是通過使用Rₒ= 2生成的,我們看到S_infinity〜0.2可以很容易地通過將這些數字插入此表達式來驗證。
實際考慮
到目前為止,我們對流行病模型的分析都集中在理想情況下,這似乎證明了擬合指數曲線的方法是嘗試預測流行病過程的簡單方法。 不幸的是,現實世界在各種方面都變得更加複雜。
無症狀和輕度感染病例
到目前為止描述的方法的侷限性之一是它做出了一些不切實際的假設:
· 沒有潛伏期或潛伏期。 潛伏期會延遲整個流行的時間表。 對於我們這裡的目的而言,這個問題並不重要。
· 有一種傳染性個體。 在現實世界中,不同的免疫系統對病毒的反應不同,從而導致某些人完全無症狀(無任何症狀)和輕度感染病例。 就CoVID19而言,無症狀病例數被認為是40%或更高。
這兩個困難都可以通過添加新的隔離專區和過渡到我們的基本SIR模型來解決,而沒有太大的困難。 但是,在處理官方公佈的數字時,它們構成了重大挑戰。
在流行的初期,只有更嚴重的病例(無症狀和非輕度)患病足以尋求醫療幫助並得到正式診斷。 這自然會導致在給定的城市或國家/地區發現首例病例的時間延遲,並且由於嚴重程度更高的病例更有可能死亡,因此高估了疾病的嚴重程度。
發佈的數字通常也具有累積性,使總數看起來更大。 從我們的簡單SIR模型中提取可能確診病例數的一種簡單方法是計算從易感隔間中移走了多少人。 將ϕ定義為確實經過檢驗的傳染病例的一部分,我們有:
結果,發佈的數字直接取決於嚴重程度足以導致醫療護理和測試的病例比例:
然後,(觀察到的)恢復個體的數量將遵循類似的軌跡,儘管由於疾病的自然時間線而滯後了幾天:
自然,對於新型疾病,需要花費時間來開發和分發準確的測試。 如果我們進一步認為測試分數time也與時間有關,那麼很容易看出在確認病例的時間軸中觀察到的許多功能是由本地策略和測試可用性引起的:
在此圖中,我們比較了實際感染病例的數量(紫色),統一檢測的結果(橙色虛線)和動態檢測率(橙色實線)。 為了清楚起見,我們以對數標度繪製不同的曲線(從一條水平網格線到下一條水平網格線的變化相當於10倍),幷包括一條指數擬合線(細藍線)作為代表眼睛的參考線。 總體指數趨勢。
動態滯後
要考慮的另一個重要因素是疾病進展所固有的時間演變。 健康的個體與感染者接觸並被感染。 她的感染將持續特定的天數,這意味著當前的感染人數是今天,昨天,前一天等所有感染者的總和……還沒有時間恢復。
這意味著在新感染的高峰與傳染個體總數的高峰之間存在自然的滯後,該滯後與傳染期的持續時間成正比。
這種滯後的一個重要後果是,即使今天的新感染病例數比昨天和前一天要少,但仍需要幾天的時間才能看到明顯的效果,因為感染病例總數減少了。
鎖定程序
隨著流行病的發展,世界上許多國家(從中國開始)都試圖實施封鎖或隔離程序,以遏制該疾病的傳播。 這些措施由於其社會和經濟後果而在公眾中不受歡迎,因此重要的是要了解它們在阻止流行病蔓延中所起的作用。
讓我們想象一個完美的收容方案。 我揮舞著魔杖,每個人都呆在家裡,始終保持彼此相距6英尺,並且不會產生新的感染。 在我們的SIR框架中,這對應於突然設置Rₒ= 0或簡單地從模型中消除交互轉換。 結果是驚人的:
Perfect containment strategy. Strategy is implemented at the time indicated by the vertical dashed line and maintained as long as necessary for the number of infectious individuals to reach zero.
儘管沒有新的感染髮生,但是由於當前受影響的人們逐漸從疾病中恢復過來,因此感染個體的總數仍保持了數週之高。
自然,沒有任何一種遏制策略是完美的,但可以說我們做得很好,而不是將Rₒ設置為0,而是設法將其設置為0.5。 如上所示,只要Rₒ<1,該流行病就開始消亡,但與理想情況相比,流行時間要長得多,並導致大量的總感染:
Imperfect containment strategy. Strategy is implemented at the time indicated by the vertical line and maintained for as long as necessary for the number of infected to reach zero. Thin solid lines correspond to the previous perfect scenario and are shown for comparison.
但是,如果由於某種原因,封鎖的社會或經濟成本被認為過於昂貴,並且過早取消了隔離,我們只需回到以前的,不受約束的,流行的傳播場景:
Imperfect containment strategy. Strategy is implemented at the time indicated by the vertical shaded area. Dashed and thin solid lines correspond to the no-intervention and imperfect lockdown scenarios, respectively, and are shown for comparison.
如我們所見,過早的鎖定已導致第二波流行病的爆發,導致幾乎沒有任何干預的總病例數。 但是,它仍然具有將患病高峰期人數保持在正常水平以下的優勢,並且使流行曲線"擴散"了:換句話說,曲線的平坦化將有助於防止醫療保健的泛濫。 系統。
為了清楚起見,讓我們也僅看看傳染病的數量
Imperfect containment strategy. Strategy is implemented at the time indicated by the vertical shaded area. Dashed and thin solid lines correspond to the no-intervention and imperfect lockdown scenarios, respectively, and are shown for comparison.
不是像我這樣的貧窮物理學家就當前的全球停產在經濟上或社會上是否值得進行思考。 我能做的最好的就是幫助您更好地瞭解其實際效果。
結構化人群
這篇文章已經很長了,但我想考慮一點。 隔室模型就其本質而言可以進行大量的簡化和假設。 一個基本的假設是基礎人群混合良好:每個人都可能與其他任何人接觸。 雖然這對於任何大批人口顯然都是錯誤的,但對於流行病動力學的定性分析,通常這是一個足夠好的近似值。
但是,如果我們嘗試過度擴展這種模型,我們很快就會發現國家和城市不是同質人口。 國家由國家組成,國家由城市和農村地區組成等。
在每個人群中,如上文所述,疫情仍將繼續,但是當我們將多個人群結合在一起時,其結果還不清楚。 讓我們考慮兩個鄰近城市的人口。 流行病始於其中之一,通勤或旅行最終導致一個感染者感染附近的城市,導致兩個人群之間的時間差異。 如果我們天真地將這些多個種群視為一個種群(如僅查看州或國家的總數),則結果曲線將受到兩個種群之間時間差異的強烈影響,從而導致流行曲線與簡單人群幾乎沒有相似之處 到目前為止,我們已經分析了一些示例,使指數擬合的任何時間都變得毫無用處,幾乎沒有實際用途。
資源資源
如果您已經做到了,那麼恭喜。 您現在比大多數無所畏懼的曲線擬合者更瞭解流行病建模,並且希望您不會犯同樣的錯誤。
可以在以下GitHub存儲庫中找到實現上述模型並生成所用圖形所需的所有代碼:
如果您喜歡這篇文章,那麼您可能還會喜歡我的每週時事通訊,在那裡我分享機器學習和數據科學的最新新聞和發展以及我撰寫的任何將來的博客文章。
任何人都可以根據我們的政策在"中"上發佈,但我們並沒有對每個故事進行事實檢查。 有關冠狀病毒的更多信息,請參見cdc.gov。
(本文翻譯自Bruno Gonçalves的文章《Epidemic Modeling 101: Or why your CoVID19 exponential fits are wrong》,參考:https://medium.com/data-for-science/epidemic-modeling-101-or-why-your-covid19-exponential-fits-are-wrong-97aa50c55f8)
閱讀更多 聞數起舞 的文章