病毒的來源?SARS-CoV-2基因組的系統進化網絡分析

世界衛生組織(WHO)最初將新病毒臨時命名為2019-nCoV。2月11日,世衛組織將新型冠狀病毒感染引起的疾病正式命名為COVID-19,即2019年冠狀病毒疾病的縮寫。

當天,國際病毒分類委員會冠狀病毒研究小組(CSG)在bioRxiv上發佈手稿,確定新病毒屬於現有物種,即與嚴重急性呼吸綜合徵(SARS)相關的冠狀病毒。其中建議,在對相關冠狀病毒進行系統分析的基礎上,將2019-nCoV命名為“嚴重急性呼吸綜合徵冠狀病毒2”,即“SARS-CoV-2”。

意義

這是從世界各地採樣的SARS-CoV-2基因組的系統發育網絡。這些基因組是密切相關的,並且在其人類宿主中處於進化選擇之下,有時具有平行的進化事件,也就是說,相同的病毒突變出現在兩個不同的人類宿主中。這使得基於字符的系統進化網絡成為在人類宿主中重建其進化路徑和祖先基因組的選擇方法。網絡方法已在大約10,000種不同生物的系統發育研究中使用,並且主要用於重建人類的史前種群運動和生態研究,但在病毒學領域使用較少。


抽象

在對160個完整的人類嚴重急性呼吸系統綜合症冠狀病毒2(SARS-Cov-2)基因組進行的系統進化網絡分析中,我們發現了三個主要的變異體,它們的氨基酸變化不同,我們將其命名為A,B和C,其中A為根據蝙蝠的外祖先型冠狀病毒。A和C類型在東亞以外地區(即歐洲人和美國人中)的比例很高。相比之下,B型是東亞最常見的類型,其祖先基因組似乎沒有先突變成衍生的B型就不會擴散到東亞以外,這表明在亞洲以外對該類型的創始人具有影響力或免疫或環境抵抗力。

該網絡忠實地跟蹤了已記錄的2019年冠狀病毒病(COVID-19)病例的感染途徑。

  • SARS-CoV-2進化
  • 亞型
  • 祖先型

隨著全球人類線粒體DNA樹的發表(1),尋找人類起源似乎邁出了一步。但是,很快發現,樹構建方法並不能促進對數據的明確解釋。這促使發展,在90年代初,的演化網絡的方法,其能夠實現最佳的樹木(的大量的可視化的23)。此網絡方法的基礎上,線粒體和Y染色體的數據,使我們能夠重建其拓殖行星(史前人口流動45)。從2003年開始的系統進化網絡方法在語言史前史的重建中得到了應用(6)。現在應該將系統進化網絡方法應用於病毒學數據,以探索該方法如何有助於理解冠狀病毒的進化。


2020年3月上旬,GISAID數據庫(https://www.gisaid.org/)包含253種嚴重急性呼吸系統綜合症冠狀病毒2(SARS-CoV-2)的完整和部分基因組,這些基因組由來自全球各地的臨床醫生和研究人員提供自2019年12月以來一直是全球。為了瞭解這種病毒在人體內的進化,並協助追蹤感染途徑和設計預防策略,我們在這裡提出了一個由160個基本完整的SARS-Cov-2基因組組成的系統進化網絡(圖1)。

病毒的來源?SARS-CoV-2基因組的系統進化網絡分析

160個SARS-CoV-2基因組的系統發育網絡。節點A是用雲南的蝙蝠(R. affinis)冠狀病毒分離株BatCoVRaTG13 獲得的根簇。圓圈區域與分類單元的數量成正比,鏈接上的每個缺口代表一個突變的核苷酸位置。所考慮的序列範圍是56至29,797,其核苷酸位置(np)根據武漢1參考序列(8)編號。使用了中位數連接網絡算法(2)和Steiner算法(9),均在軟件包Network5011CS(https://www.fluxus-engineering.com/中實現),並將參數epsilon設置為零,從而生成包含229個突變長度為288的最簡約樹的網絡。網狀結構主要是由np11083處的反覆突變引起的。161個分類單元(160個人類病毒和一種蝙蝠病毒)產生101個不同的基因組序列。系統發育圖可通過A0發佈者格式(SI附錄,圖S5)和免費的網絡下載文件進行詳細檢查。


[ 7 ]最近報道了一種緊密相關的蝙蝠冠狀病毒,與人類病毒的序列相似性為96.2%。我們將此蝙蝠病毒用作外群,導致網絡的根放置在我們標記為“ A”的世系簇中。總體而言,該網絡如預期的那樣正在爆發,顯示了祖傳病毒基因組與新近變異的子代基因組同時存在。


A的兩個子群以同義突變T29095C區分。在T-等位基因亞群中,有四個中國人(來自中國南方沿海省份廣東省)帶有祖傳基因組,而三名日本人和兩名美國病人則有許多突變。據報道,這些美國患者在推測的武漢疫情中曾有居住史。C-等位基因亞簇具有相對較長的突變分支,包括來自武漢的五個人,其中兩個代表祖先,以及來自中國和鄰近國家的其他八位東亞人。值得注意的是,該子集群中將近一半(15/33)類型位於東亞以外地區,主要位於美國和澳大利亞。

就節點類型和從這些節點輻射的突變分支中包含的個體數量而言,兩個派生的網絡節點引人注目。我們已將這些系統發育簇標記為B和C。


對於B型,在武漢(n = 22),中國東部其他地區(n = 31)和偶發地在鄰近的亞洲國家(n= 21)。在東亞以外地區,在美國和加拿大的病毒基因組中發現了10種B型,墨西哥一種,法國四種,德國兩種,德國和意大利和澳大利亞各一種。節點B通過兩個突變從A派生:同義突變T8782C和非同義突變C28144T,將亮氨酸變為絲氨酸。關於突變分支長度,簇B引人注目:雖然祖先的B型被東亞人獨佔(26/26個基因組),但亞洲以外的每個(19/19)B型基因組都進化出了突變。這種現象似乎不是由於病毒基因組在中國傳播之前長達一個月的時間滯後和伴隨的突變率作用所致(數據集S1,補充表2))。複雜的創建者情況是一種可能性,值得考慮的另一種解釋是,祖傳的武漢B型病毒在免疫或環境上適合東亞大部分人口,並且可能需要變異以克服東亞以外地區的抵抗。


C型與其母體B型的區別在於非同義突變G26144T,該突變將甘氨酸轉變為纈氨酸。在數據集中,這是主要的歐洲類型(n = 11),在法國,意大利,瑞典和英國以及加利福尼亞和巴西都有代表。它在中國大陸的樣本中不存在,但在新加坡(n = 5)中很明顯,在香港,臺灣和韓國也有。


系統發育網絡的一種實際應用是在未知的感染路徑並造成公共健康風險的情況下重建感染路徑。以下有充分記錄感染史的病例可以作為例證(SI附錄)。2020年2月25日,據報道,第一個巴西人是在訪問意大利後感染的,該網絡算法反映出這是意大利人與他的C群中巴西病毒基因組之間的突變聯繫(SI附錄,圖S1)。在另一起案件中,一名來自安大略省的男子從中國中部的武漢前往中國南部的廣東,然後返回加拿大,病倒並於2020年1月27日被確診為2019年冠狀病毒病(COVID-19)。系統發育網絡(SI附錄,圖S2),他的病毒基因組來自一個重建的祖先節點,在佛山和深圳(均在廣東省)具有衍生的病毒變體,這與他的旅行歷史相符。現在,他的病毒基因組與其他感染北美人(一個加拿大人和兩個加利福尼亞人)的基因組共存,這些人顯然具有共同的病毒譜系。網絡中單個墨西哥病毒基因組的病例是有記錄的感染,該感染於2020年2月28日在墨西哥的意大利旅行者中被診斷出。網絡不僅可以確認墨西哥病毒的意大利起源( SI附錄,圖S3),但這也意味著該意大利病毒源自2020年1月27日在慕尼黑Webasto公司工作的一名員工在德國的首次有記載的感染,而該員工又從上海的一名中國同事那裡感染了該病毒,她的父母從武漢來訪。系統發育網絡中的10個突變記錄了這種從武漢到墨西哥的病毒之旅,歷時一個月。


該病毒網絡是流行病早期的快照,之後系統發育被隨後的遷移和突變所掩蓋。可能會問到,是否可以通過使用最早的可用採樣基因組作為根,在此早期階段實現病毒進化的生根。但是,正如SI附錄所示,圖S4顯示,根據蝙蝠冠狀病毒外群生根,於2019年12月24日採樣的第一個病毒基因組已經遠離根類型。


所描述的核心突變已被各種實驗室和測序平臺所證實,並被認為是可靠的。網絡中的系統地理模式可能會受到獨特的遷徙歷史,創始人事件和樣本數量的影響。然而,謹慎考慮突變變異體可能調節疾病的臨床表現和傳播的可能性。在評估SARS-CoV-2感染的臨床和流行病學結局,設計治療方法以及最終設計疫苗時,可以使用此處提供的系統發育分類來排除或確認此類影響。


材料和方法

全球禽流感數據共享倡議(GISAID)成立於2006年,自2010年以來一直由德國聯邦糧食,農業和消費者保護部主辦。自2019年12月起,GISAID也已成為冠狀病毒庫。截至2020年3月4日,即系統發育分析的臨界點,GISAID數據庫(https://www.gisaid.org/)已彙編了254個冠狀病毒基因組,從244個人中分離出,9頭中國穿山甲和1 頭蝙蝠Rhinolophus affinis(來自中國雲南省的BatCoVRaTG13)。序列已由數據集S1補充表1中列出的82個實驗室保藏。。儘管SARS-CoV-2是一種RNA病毒,但按照慣例,沉積的序列為DNA格式。我們的初步核對證實了Zhou等人的早期報道。(

7)與人類SARS-CoV-2病毒相比,穿山甲冠狀病毒的保守性很差,而蝙蝠冠狀病毒的序列相似性在我們的分析中為96.2%,與Zhou等人發表的96.2%一致。我們丟棄了部分序列,僅使用了我們與Wu等人的完整參考基因組比對的最完整的基因組。(8)包含29,903個核苷酸。最後,為確保可比性,我們將所有序列的側翼截短至共有範圍56至29,797,並根據武漢1參考序列對核苷酸位置進行編號(8)。數據集S1補充表2(冠狀病毒分離物標籤)中列出了所得的160個序列和蝙蝠冠狀病毒序列的實驗室代碼。


160條人類冠狀病毒序列正好包含100種不同類型。我們將蝙蝠冠狀病毒作為一個分組添加到數據中,以確定系統發育內的根。系統網絡分析是使用Network 5011CS軟件包進行的,該軟件包除其他算法外,還包括中位數加入網絡算法(3)和Steiner樹算法,以識別複雜網絡中最簡約的樹(9)。我們將相鄰核苷酸的空位編碼為單個缺失事件(這些缺失很少見,最長可達24個核苷酸,並且大部分在氨基酸閱讀框中),並將epsilon參數設置為零運行數據,並通過設置進行探索性運行將epsilon參數設置為10。這兩個設置都產生了一個低複雜度的網絡。然後在兩個網絡上都運行了Steiner樹算法,並提供了相同的結果,即網絡中最簡約的樹的長度為229個突變。兩個網絡的結構都非常相似,其中epsilon 10設置在A和B群集之間提供了另一個矩形。使用“網絡發佈者”選項對網絡輸出進行註釋,以指示地理區域,樣品收集時間和聚類術語。


參考文獻

  • (1)↵ 坎恩( RL Cann) M. Stoneking, AC 威爾遜,線粒體DNA與人類進化。自然 325,31 - 36(1987)。CrossRefPubMedGoogle學術搜索
  • (2)↵ HJ Bandelt, 福斯特( P. BC Sykes, MB 理查茲,使用中位網絡的線粒體肖像。遺傳學 141,743 - 753(1995年)。摘要/ 免費全文Google學術搜索
  • (3)↵ HJ Bandelt, 福斯特( P. A. Röhl,中位連接網絡,推斷種內系統發育。大聲笑 生物學 進化 16,37 - 48(1999)。CrossRefPubMedGoogle學術搜索
  • (4)↵ 福斯特( P. C. 倫弗魯,進化。母語和Y染色體。科學 333,第1390 - 1391年(2011)。摘要/ 免費全文Google學術搜索
  • (5)↵ C. 倫弗魯, P. 鐵路,《劍橋世界史前史》(劍橋大學出版社,2014年)。谷歌學術
  • (6)↵ 福斯特( P. C. 倫弗魯,系統發育方法和語言的史前史(麥當勞研究所出版社,2006年)。谷歌學術
  • (7) P. 周 等.. 與可能是蝙蝠起源的新冠狀病毒相關的肺炎暴發。自然 579,270 - 273(2020)。CrossRefPubMedGoogle學術搜索
  • (8)↵ F. 吳 等人,一種與人類呼吸系統疾病有關的新型冠狀病毒。自然 579,265 - 269(2020)。CrossRefPubMedGoogle學術搜索
  • (9) T. Polzin, SV Daneshmand,關於超圖中的Steiner樹和最小生成樹。歌劇 Res。來吧 31,12 - 20(2003)。CrossRefGoogle學術搜索

  • PNAS是《美國科學院院報》(Proceedings of the National Academy of Sciences of the United States of America, 縮寫。它是美國國家科學院的院刊,亦是公認的世界四大名刊(Cell,Nature,Science,PNAS)之一,百年經典期刊。自1914年創刊至今,PNAS提供具有高水平的前沿研究報告、學術評論、學科回顧及前瞻、學術論文以及美國國家科學學會學術動態的報道和出版。PNAS收錄的文獻涵蓋醫學、化學、生物、物理、大氣科學、生態學和社會科學,最新發布的影響因子為9.661(2016),特徵因子(Eigenfactor) 為1.23581(2016) 。


    轉發僅為對科技權威期刊的興趣,非商業性行為。

    (來源:美國科學院院報)


    分享到:


    相關文章: