數據共享和開源有助於攻克 Covid-19

3 月 18 日,鍾南山院士表示,“對於傳染病來說,其實沒有國界,任何一個國家不能置身事外。我們需要有共同的交流,吸取共同的經驗。”同時需要全球緊密的交流,包括疫苗等方面,希望可以共同創造、共享科研成果,才能更快地克服新冠肺炎的肆虐。

數據共享和開源有助於攻克 Covid-19

在全球疫情爆發之下,“開源共享”已經成為抗擊病毒的關鍵詞。

美國科技媒體 WIRED,近日發表一篇名為《 Data Sharing and Open Source Software Help Combat Covid-19 》的文章,其中分享了一個案例:

2 月 27 日,美國西雅圖的一名少年被診斷出患有 Covid-19 。西雅圖流感研究中心的研究人員對該少年的 Covid-19 毒株的基因進行了測序,並將這組基因數據上傳到了一個名為 “ Gisaid ” 的開源數據平臺。Gisaid 平臺開放了完整報告和元數據,外界可以通過這些共享數據作為基礎,進行二次開發。

另一個開源項目 Nextstrain 的研究人員正是根據 Gisaid 上的這組元數據,發現了這一毒株,與另一位西雅圖的患者存在聯繫。最終證實,少年體內的毒株是由另一名患者的毒株變異而來的,而這名患者是 1 月 20 日確診的。由此研究人員得出了 Covid-19 其實已經在西雅圖傳播了數週的結論。

上文提到的開源平臺 GISAID 全稱為Global Initiative of Sharing All Influenza Data(全球共享所有流感數據倡議),總部位於德國慕尼黑,於 2008 年 5 月第 61 屆世界衛生大會期間啟動,是由全世界一組權威的醫學科學家組建,該組織致力於改善流感數據的共享。

數據共享和開源有助於攻克 Covid-19

GISAID的數據來源於全球 14000 名研究人員和 1500 個機構,其獨特的數據共享機制可以促進相關研究取得快速進展,例如推動對 COVID-19 的認知和相關醫療對策的研發。

GISAID 針對新型冠狀病毒開發的 EpiCoV™ 數據庫,目前已收錄 656 條新型冠狀病毒序列數據(截至 3 月 13 日),已超越傳統的數據平臺。同時,傳統數據平臺(比如公有領域的數據庫)因允許匿名訪問而導致數據所有者權益不受保護、數據使用不透明的問題,這些在 GISAID 的數據共享機制中並不存在。

而文章中提到的 Nextstrain 則是一個開源項目,目的是從病原體的基因序列中挖掘科學和公共健康的價值,它能夠分析公開的數據,並進行可視化。

像 Covid-19 這樣的病毒是通過自我複製來進行傳播,但在自我複製的過程中,有一定的概率會出現複製錯誤。這種錯誤會使得複製出的病毒和原來的病毒之間存在某些不同,也就是所謂的變異。

數據共享和開源有助於攻克 Covid-19

這些變異在大多數情況下都是微不足道的,而且不會給人們造成威脅。但是,這些變異會慢慢累積下來。Nextstrain 的研究者通過比對基因序列,發現這些變異之間的異同,就可以分析出病毒樣本的繼承關係,得到病毒的發展圖譜,從而追蹤病毒和細菌的演變。

全球戰疫還在繼續,3月16日,深圳國家基因庫已經與 GISAID 達成戰略性合作,國家基因庫生命大數據平臺(CNGBdb)成為 GISAID 的中國首個正式授權平臺。雙方將圍繞呼吸道傳染病相關病毒的基因數據管理、共享、分析等方面展開全面合作,促進病毒數據的全球共享。

可以看出病毒數據的開源共享,正在為全球各地評估疫情風險、啟動公共衛生應對措施及制定醫療對策提供了更可靠的依據。


分享到:


相關文章: