新冠3.4%的死亡率並非事實,數據為何存在偏差?

全文共1353字,預計學習時長

5分鐘


新冠3.4%的死亡率並非事實,數據為何存在偏差?

圖源:unsplash


新冠疫情爆發以來,各個組織機構對於發佈確診病例、死亡和康復數據的統計和研究從未停止過。數據公開是件好事,如何從數據中提取有用信息是數據科學家面臨的最大挑戰。


但這並不是完全準確的:統計易出現偏差,而使用原始數據來計算冠狀病毒死亡率的政府機構剛好踩到這些雷區。


事實上,選擇偏差太普遍了,這是一個常見的數據科學問題,現實中處理數據時會經常遇到。當數據不是在總體中隨機抽樣時,選擇偏差就會出現。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

自動提取數據或者主動運用數據收集器,而不是被動使用數據收集器時,經常會發生選擇偏差。這意味著數據只來自那些數據收集者主動接近的人,而這些人所提供的數據並不具有普適性。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

此外,收集數據的動機很重要。動機是否吸引了特定群體而非其他人?如果是,那麼選擇偏見可能已悄然出現。


儘管政府對此已竭盡全力,但並不是每個人都需要或已經進行新型冠狀病毒檢測。由於檢測試劑盒的數量較少,且冠狀病毒造成嚴重傷害或死亡的幾率在不同人群中存在很大差異,美國疾病控制與預防中心概述了哪些人群應該檢測:


· 最近到疫情爆發國家旅行,包括歐洲大部分地區,伊朗和中國,並出現相應症狀的人,如發燒,呼吸急促,咳嗽

· 65歲以上患有慢性病或免疫力低下並呈現症狀的人

· 與確診並有症狀的病例有密切接觸的人

· 與確診病例有社區接觸的人,例如在遊輪上,並且表現出症狀


新冠3.4%的死亡率並非事實,數據為何存在偏差?

圖源:pinterest


這些是判斷是否隔離的準則。進行病毒檢測同樣非常困難,因此,除非你非常確定自己正遭遇COVID-19的嚴重傷害和死亡風險,否則進行測試不一定沒有意義。


疾病預防控制中心和約翰·霍普金斯大學等機構的研究報告表明,佔世界人口很大比例的健康年輕人的死亡幾率很小,即使他們有症狀,也不需接受檢測。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

圖源:unsplash


這是典型的選擇偏差。如果一大批經過測試的人結果為陰性,但他們不測試,那麼他們的數據就不會被收錄。政府和學術機構發佈的數據中,確診病例僅來自自願接受檢測的人員。


換言之,確診病例數據中的人更有可能死於冠狀病毒。因為死亡率是根據確診病例中的冠狀病毒死亡人數計算的,而確診病例數有偏差,死亡率比實際高出很多。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

模型顯示,世界各地相當大比例的人口可能已經患有冠狀病毒,甚至他們都不自知。以這個規模和公認的3.4%的死亡率(通過將死亡人數除以確診病例計算得出),世界死亡人數將比當前報告的人數多得多,但這顯然是不是事實。


實際死亡率要低得多。如果每個人都要接受冠狀病毒檢查,那麼新型冠狀病毒病例會增多,從而增加了死亡率的分母而非分子,死亡率會直線下降。


如果公式中的一個參數有偏差,那麼結果也將有偏差。死亡率的計算並不簡單,它必須考慮到可用數據中的選擇偏差。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

那麼該如何計算實際死亡率呢?我們需要考慮那些未去醫院檢測的潛在感染者。這需要更復雜的計算機建模,但是它將比現有數據更準確。


可見,當前看到的3.4%並不是事實,實際死亡率會低得多,統計數據的偏差造成了這樣的狀況。


新冠3.4%的死亡率並非事實,數據為何存在偏差?

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範


分享到:


相關文章: