洞查數據背後,MSRA 推出新冠數據分析網站

這場疫情再次拉近了我們和科學家之間的距離。

疫情之下,科研人員的一次次探索與發現,都成為公眾關注的焦點和政策制定的依據。獲取最新科研信息,對我們建立更立體、客觀的新冠疫情認知,有著關鍵意義。

近日,微軟亞洲研究院(Microsoft Research Asia,MSRA)推出了一個新冠數據分析網站 COVID Insights,旨在通過較為全面的疫情數據,達到支持學術研究和向公眾科普的目的。

COVID Insights 網站基於計算生物學、數據分析等領域的專業知識和研究經驗,使用了約翰霍普金斯大學、美國疾病控制與預防中心、GISAID 等機構的官方數據,主要分為感染數據分析、基因組和蛋白質結構、研究趨勢三大板塊。

洞查數據背後,MSRA 推出新冠數據分析網站

跨國家或地區比較傳播動態

哪些地區的疫情發展趨勢比較接近?有些國家的數據降下來了,他們的做法值得參考嗎?

實質上,「感染數據分析」板塊對這類問題給出了答案——通過微軟亞洲研究院對 COVID-19 數據的分析,流行病學參數對特定國家與地區的疾病傳播動態的影響便一目瞭然。

例如,澳大利亞 2020 年 2 月 3 日至 2020 年 4 月 26 日的疫情傳播趨勢與冰島 2 月 1 日至 4 月 17 日的趨勢相似度為 56%,因此冰島便可以借鑑澳大利亞的疫情防控措施。

洞查數據背後,MSRA 推出新冠數據分析網站

而通過移動光標的位置,將時間限定在 3 月 22 日至 4 月 15 日,可以發現這一時期澳大利亞的傳播趨勢與韓國在 2 月 29 日至 3 月 17 日的趨勢相似度為 80%,因此澳大利亞便可以參考韓國在 2020 年 3 月中下旬的防控措施。

洞查數據背後,MSRA 推出新冠數據分析網站

眾所周知,當前美國新冠肺炎確診人數逼近 100 萬,若利用這一功能,我們可以看到 3 月 20 日至 4 月 26 日(目前該功能的數據只更新至 4 月 26 日)美國的疫情發展趨勢和兩週前的伊朗有 75% 的相似度,那麼此時參考對方的措施不失為一種可行的方案。

洞查數據背後,MSRA 推出新冠數據分析網站

雷鋒網瞭解到,這一功能的數據集來源於約翰霍普金斯大學系統科學與工程中心公佈的新冠疫情數據。

SARS-CoV-2 的病毒學分析結果

相比上述板塊,「基因組和蛋白質結構」板塊則顯得比較抽象了,該板塊展示了 SARS-CoV-2(新型冠狀病毒)的病毒學分析結果,主要將目光放在 SARS-CoV-2 病毒本身,主要包括以下兩個功能:

第一,基因組與蛋白質結構

前不久,外媒“新冠病毒來自武漢”的說法引起了軒然大波。實際上,早在 2020 年 2 月 20 日,中國科學院西雙版納熱帶植物園就曾發佈了研究成果,稱武漢華南海鮮市場的新型冠狀病毒是從其他地方傳入的 ,於是便出現了新冠病毒「國外起源論」。

在這一研究中,有一幅非常複雜的圖,實際上就反映出了病毒基因組變異的問題。實際上,就病毒基因組變異而言,如今全球已經有了很多的研究數據。

洞查數據背後,MSRA 推出新冠數據分析網站

根據網站介紹,微軟亞洲研究院從全球流感序列數據庫 GISAID 上下載了 SARS-CoV-2 基因組數據,以病毒株 Wuhan-Hu-1 作為參考序列確定出各病毒序列發生變異的氨基酸及其位置。

因此,通過在下拉列表中選定某一個大洲,我們就能直觀地看到特定核酸片段上發生變異的氨基酸的數目、地區分佈與變異時間線。

洞查數據背後,MSRA 推出新冠數據分析網站

同時,網站上經 SARS-CoV-2 病毒核酸序列轉化得到的蛋白質三維結構,也為相關研究提供了參考。

洞查數據背後,MSRA 推出新冠數據分析網站

第二,與其他冠狀病毒的比較

據瞭解,當前在全球肆虐的 SARS-CoV-2 病毒是目前已知的第 7 種可以感染人的冠狀病毒,其餘 6 種中就包括我們可能已經不陌生的 SARS-CoV(引發“非典”的病毒)和 MERS-CoV(引發中東呼吸綜合徵的病毒)。

除了拿 SARS-CoV-2 與 SARS-CoV、MERS-CoV 進行比較,在 COVID Insights 網站上還有 SARS-CoV 和另外兩種病毒的比較。

值得一提的是,這兩種病毒 Bat-CoV 和 Pangolin-CoV 分別來自此前新冠病毒潛在中間宿主的熱門人選中華菊頭蝠和馬來穿山甲。

根據 COVID Insights 網站,Bat-CoV、Pangolin-CoV、SARS-CoV、MERS-CoV 與 SARS-CoV-2 的相似度依次遞減,分別為 96%、90%、79%、49%。

洞查數據背後,MSRA 推出新冠數據分析網站

全球新冠研究趨勢

2020 年 1 月 1 日至 2020 年 4 月 22 日,眾多領域科研人員都做出了非常多的研究。微軟亞洲研究院通過統計、整合論文開放獲取數據庫 COVID-19 Open Research Dataset 的數據,根據不同時間段(按周統計),做出了流行病學、社會科學、 病毒學、診斷學四個領域的新冠研究趨勢詞雲。

因此我們可以發現,2020 年 2 月 26 日至 2020 年 3 月 4 日那一週,流行病學研究中“transmission”(傳播)一詞出現的頻率較高。

洞查數據背後,MSRA 推出新冠數據分析網站

2020 年 4 月 8 日至 2020 年 4 月 15 日那一週,社會科學研究中,“number”(數字)一詞成為關鍵詞。

洞查數據背後,MSRA 推出新冠數據分析網站

值得一提的是,COVID Insights 網站也將流行病學、社會科學、 病毒學、診斷學四個領域的高引用論文列了出來,這樣一來,公眾也在某種程度上降低了受低質量論文誤導的風險。

實際上,近一段時間以來,疫情相關的學術論文呈現出井噴式增長態勢,低質量研究論文氾濫的現象也相當嚴重。2020 年 4 月 23 日,卡內基梅隆大學道德與政策中心主任 Alex John London 和麥吉爾大學生物醫學倫理部教授兼主任 Jonathan Kimmelman 也在《科學》雜誌發表文章,發出呼籲:

不應以 COVID-19 疫情爆發的緊迫性為藉口,在病毒研究和疫苗研發等方面降低科研標準。

可見,雖然 COVID Insights 網站目前的數據並非特別全面,但的確在加速優質科研信息的互通互享方面發揮了重要的作用。正如比爾·蓋茨所說:

這次疫情是現代社會第一場真正意義的大流行病。這就像一場世界大戰,不同的是,這次我們都在同一條戰線。

引用來源:

[1]https://mp.weixin.qq.com/s/4KglP1kRVgSrkMFc-L1_NA

[2]https://covid.msra.cn/

[3]https://coronavirus.jhu.edu/

雷鋒網雷鋒網


分享到:


相關文章: