03.07 對“SARS-CoV-2起源與演化動態”一文的討論

2020年3月6日,virological網站上傳了MRC-University of Glasgow Centre for Virus Research的David L. Robertson團隊的一篇文章,標題為“

Response to “On the origin and continuing evolution of SARS-CoV-2” ,作者針對此前3月3日發表在National Science Review上的“On the origin and continuing evolution of SARS-CoV-2”文章(詳見BioArt報道:莫被誤導!準確理解SARS-CoV-2可能分為兩種類型)中一些方法和結論提出質疑。BioArt在此進行全文編譯。筆者認為在現有病毒基因組數量嚴重不足的情況下(截至3月6日,來自武漢的SARS-CoV-2僅上傳了1月初之前的20株左右),所得出的起源與演化的分析結論是有侷限性的。隨著基因組數據的增加,再結合臨床數據如相應患者的發病時間、地區、疾病嚴重程度等信息加以整合,才能更準確地理解病毒“分型”以及可能具有不同的“傳播力”和“毒力”。


另外,BioArt已經聯繫到了NSR文章的通訊作者陸劍研究員。陸劍研究員提到該NSR文章已經被F1000 Faculty Member Norman Johnson推薦(見下圖),另外也會通過學術途徑對David L. Robertson的文章進行回應,同時也歡迎David L. Robertson向正式期刊投稿進行辯論。BioArt會積極關注陸劍研究員的回應,並在第一時間為大家帶來文章解讀。

學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

除了這篇NSR文章,在還有兩篇預印版文章和一篇Journal of Medical Virology文章有著類似的結論,即根據不同的突變位點進行了分類(詳見BioArt報道:獨家全文編譯 | 新型冠狀病毒在進化過程中的突變、重組和插入;預印本文章發佈COVID-19重症治療新途徑、新冠病毒結構全貌等關鍵成果)。


學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論


撰文 | 唐小糖


學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論


簡介


唐等人近期在National Science Review上發表了一篇文章,對來源於當前的COVID-19疫情的遺傳學數據進行了分析。文章中提出的兩項關鍵主張似乎對SARS-CoV-2基因組數據誤讀和過度解釋,另外其分析方法上也存在一定的侷限性。


批評1


在這次疫情中,SARS-CoV-2清晰地被界定有兩種“主要類型”,並且具有不同的傳播率。本文作者對這一觀點表示擔憂。


唐等人稱這兩種主要類型為L型S型:“兩種主要類型(L 型和 S 型):S 型是祖先類型,L 型從 S 型演變而來。有趣的是,S 型和 L 型可以由兩個緊密連鎖的單核苷酸突變位點清晰定義, 8782位點 (orf1ab:T8517C,同義突變)和 28144位點 (ORF8:C251T,S84L)。”【唐等人的原文:“two major types (L and S types): the S type is ancestral, and the L type evolved from S type. Intriguingly, the S and L types can be clearly defined by just two tightly linked SNPs at positions 8,782 (orf1ab: T8517C, synonymous) and 28,144 (ORF8: C251T, S84L).” 】


然而,一種未被評估具有功能意義的非同義突變不足以定義一種獨特的“類型”或“主要類型”。截至2020年3月2日,此次疫情中發現了111種非同義突變,這些突變已在CoV-GLUE資源庫中進行了登記,如圖1所示。目前,沒有證據表明這111個突變中的任何一個對宿主感染或傳播速率有功能上的影響。此外,當你單純選擇基於兩個突變來定義“類型”時,那麼這些“類型”在這兩個突變上是不同的,這一點並不奇怪。


學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

圖 1.通過繪製突變網格(其中列是樣本,行是觀察到的突變),對SARS-CoV-2迄今觀察到的 111 個非同義突變(紅色)進行可視化。列按照樣本在進化樹中的位置排序,同義突變用黃色顯示。C251T(非同義突變)和T8517C(同義突變)在圖的右側可見。


他們進一步聲稱這兩種類型有不同的傳播速率:“目前為止,我們發現,儘管L型由S型演化而來,但在我們檢測的SARS-CoV-2基因組中L型(約70%)比 S型 (約30%) 更普遍,這暗示 L 型的傳播速率高於 S 型”。【原文:“Thus far, we found that, although the L type is derived from the S type, L (~70%) is more prevalent than S (~30%) among the sequenced SARS-CoV-2 genomes we examined. This pattern suggests that L has a higher transmission rate than the S type.” 】論文的摘要更進一步直截了當地說:“S型,在進化上更古老,攻擊性較低......“ 。【原文:“the S type, which is evolutionarily older and less aggressive…”】


然而,重要的是,要知道,找到大多數具有特定突變的樣本並不證明具有該突變的病毒更容易傳播。要得到這一結論,至少需要與傳播速率相等且從零開始傳播得到的預期結果進行比較。由於作者沒有這樣做,所以我們認為沒有足夠的證據來提出這一觀點,說傳播率不同是不正確的(也是不負責任的)。有這種突變的樣本數量和沒有這種突變的樣本數量的差異更有可能是由於隨機的流行病學影響造成的。


基本進化理論預測,中性突變通過遺傳漂移隨時間變化而發生。在病毒爆發中,從一個感染者到另一個感染者的每次傳播都是隨機概率事件,感染者的傳播頻率有的快有的慢。由於各種原因,有些人可能以比其他人傳播速率快,比如因為他們咳嗽到手掌上、使用擁擠的公共交通工具,或者僅僅因為他們的朋友和同事運氣問題。隨著時間的推移,這些小規模流行病學現象累積起來,使得在爆發期間觀察到的突變頻率發生巨大變化。


此外,當病毒傳播到以前未感染的新地區/國家時,就會發生建立者效應,即該種病毒突變體(可能為少數)迅速蔓延,重新建立了新的群體, 即使這些突變在最初傳播的國家很少見。SARS-CoV-2就可能存在這種現象,因為該病毒有大量易感宿主。在以往對病毒爆發的研究(如Foley等人2004年、Rai等人2010年和 Tsetsarkin等人2011年的研究)已經觀察到了建立者效應。這些因素加在一起意味著特定突變的頻率本身並沒有任何功能上的意義。很多媒體的評論表明唐等人提出的無根據性言論已經造成了了不必要的恐慌。


同樣重要的是,病毒數量越少,就越可能會影響突變的頻率(同樣的道理,你翻轉的硬幣越多,更接近0.5的平均期望)。鑑於這種突變似乎在疫情早期就發生了,當感染的人較少時,其頻率很可能受到遺傳漂移的影響。


批評2


唐等人比較了數據中非同義突變和同義突變的頻率,認為有明顯的證據表明在爆發中非同義突變受到抑制。此分析有三個缺陷:


(1) 這個圖中的數字沒有意義。根據提供的數據,七個(同義)突變的演化頻率大於50%,其中兩個突變的演化頻率在人群中大於95%。粗略地瀏覽一下進化樹(圖2,來自Nextstrain )就知道這不可能是真的。在這種情況下,演化應該意味著從疫情爆發的最近一個共同祖先開始。兩個演化頻率大於 95%的突變需要少量樣本作為姐妹分枝,分支到疫情樹的其餘部分。然而情況並非如此。


學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

圖 2. SARS-CoV-2 時間系統進化樹的截圖,來自 NextStrain,顏色表示樣品的地理位置,採樣日期顯示在樹下方


唐等人得到這個結論的唯一方法,就是將祖先態定義為疫情爆發前的很久以前的蝙蝠冠狀病毒樹中的某一點。然後他們獨立估計每個突變的祖先態,而忽略當前疫情非常豐富的系統進化樹。這種方法只有在使用更緊密相關的外群物種時才有意義,用來推斷在沒有關聯的突變且擁有獨立祖先的自由重組物種中突變的祖先態。SARS-CoV-2和最近的蝙蝠SARS-like-CoV最近的共同祖先在幾十年前就被分享(Virological網站上討論過)。此外,這些方法應納入推斷祖先態的內在不確定性(例如Keightley和Jackson 2018年的研究),然而他們沒有。


在病毒環境中採用這種推斷祖先態的方法,假設沒有重組,這意味著"高頻演化突變"實際上只是疫情中新的突變,已經突變到推斷的祖先態(在蝙蝠中)。這個“演化”定義毫無意義。相反,這些“高頻演化突變”應歸類為“低頻演化突變”。


唐等人認為16.3%(7/43)的同義突變具有大於0.5的演化頻率。然而,鑑於同義的分散水平和無法記憶的突變概率,這增加了突變回去的可能性,這個16.3%的數字大致上符合同義突變的預期比例,這些突變可能突變回蝙蝠中感染的毒株。因為與最密切相關的蝙蝠序列相比,非同義位點(小於4%)分佈比同義位點 (19%)更少,所以新的非同義突變更有可能遠離蝙蝠中推斷的祖先狀態。因此,使用這種有缺陷的“演化”定義,非同義突變的較小比例預計是高頻的“演化”突變,而沒有任何自然選擇的作用。


(2) 唐等人的文章圖2中展示這些數據的方式暗示純化選擇(負選擇)正在起作用,這種錯誤地展示方式使得即使其方法學合理,這種選擇也不存在。其圖中的柱形高度比較了每個頻率的原始突變數,而沒有表示每類突變數。因為非同義多態性的數量比同義多態性多,而且大多數突變都預計在低頻率水平(忽略自然選擇),因此這個展示方式總是使它看起來有比例更多的低頻非同義突變。


(3) 唐等人在解釋結果時,沒有考慮到測序錯誤也可能產生非同義突變。這種可能性很重要,因為測序誤差處於低頻率,並且很少且無法傳播,但真正的突變可以處在任何頻率,因為它們可以傳播。此外,負選擇只能對實際突變起作用,不能對測序錯誤起作用。所以,測序錯誤很可能具有較高比例的非同義突變,並且這些突變將處於低頻率,看上去像負選擇抑制非同義突變頻率的作用一樣。


綜上所述,他們的分析告訴我們在病毒爆發中絕對不存在負選擇。我們在後面進行了額外的分析,以測試SARS-CoV-2爆發中負選擇的特徵。


批評:方法學問題


作者使用軟件PAML 2(Yang等人2007年的研究)來估計選擇參數。PAML不支持同義比例的變化,但他們在論文中明確說明,他們認為存在突變熱點。最近的工作表明,當發生這種同義比例變化時,正選擇推論的假陽性率高得令人無法接受(Wisotsky等人2020年的研究)。因此,如果確實存在同義比例變化,為了更可靠地識別SARS-CoV2系統進化樹中正選擇的特徵,必須使用支持突變率變化的模型和方法(如Hyphy中的很多模型)。


結論


鑑於這些缺陷,我們認為唐等人應該撤回他們的文章,因為其中的說法顯然是沒有根據的,並有可能在疫情的關鍵時刻散佈危險的錯誤信息。


其它分析


為了以簡單和穩健的方式測試潛在的負選擇,通過比較同義位點和非同義位點的相對數量,將觀察到的同義突變和非同義突變的數量與空期望值進行比較。此分析的數據來源於 CoV-GLUE 資源庫,由於擔心其錯誤率,從分析中刪除了四個樣本。


通過Goldman和Yang的1994年的密碼子模型,估計了位點的相對數量。此模型使用 61 個密碼子的觀測頻率估計所有 61 個可能的編碼的密碼子的突變概率,61個密碼子的觀測頻率由數據(2.9)估計的轉換與顛換比加權後得出。它估計,在SARS-CoV2基因組中,非同義突變位點是同義突變位點的2.43倍。


在未選擇的情況下,使用下表上的卡方檢驗,將此空期望值與從爆發數據中觀察到的期望值進行比較,得到了非顯著P 值 0.113。這一結果並不意外,因為目前病毒群的快速增長可能允許非適應突變的病毒和中性突變的病毒傳播。然而,我們強烈主張要謹慎分析這些結果,因為測序數據比較少,統計能力及其有限。


學術爭鳴 | 對“SARS-CoV-2起源與演化動態”一文的討論

表1.無選擇情況下的空期望值。調整後,這些突變種類的比值(Dn/Ds)估計為0.68。

後記

To all who are interested in COVID-19


National Science Review (NSR) recently published a paper by Tang et al. (led by Jian Lu of Peking University). There have been numerous criticisms posted all over the internet. Such free-for-all skirmishes are not conducive to thoughtful scientific exchanges.


NSR has a feature called Critique and Debate, which encourages, you guess it, critiques and debates on papers published in NSR (or any reputable journal). Please see the attachments. Given the urgent nature of this matter, NSR will move expeditiously in handling the submissions.

Chung-I Wu

Section Editor of Biology

NSR


原文鏈接:

http://virological.org/t/response-to-on-the-origin-and-continuing-evolution-of-sars-cov-2/418?from=singlemessage&isappinstalled=0


參考文獻


1. Foley, B., et al. “Apparent founder effect during the early years of the San Francisco HIV type 1 epidemic (1978–1979).” AIDS Research and Human Retroviruses 16.15 (2000): 1463-1469.

2. Goldman, N., and Ziheng Y… “A codon-based model of nucleotide substitution for protein-coding DNA sequences.” Molecular biology and evolution 11.5 (1994): 725-736.

3. Keightley, P. D., & Jackson, B. C. “Inferring the probability of the derived vs. the ancestral allelic state at a polymorphic site”. Genetics 209.3 (2018): 897-906.

4. Rai, Mohammad A., et al. “Evidence for a” Founder Effect" among HIV-infected injection drug users (IDUs) in Pakistan." BMC infectious diseases 10.1 (2010): 7.

5. Tsetsarkin, Konstantin A., et al. “Chikungunya virus emergence is constrained in Asia by lineage-specific adaptive landscapes.” Proceedings of the National Academy of Sciences 108.19 (2011): 7872-7877.

6. Wisotsky, Sadie R., et al. “Synonymous site-to-site substitution rate variation dramatically inflates false positive rates of selection analyses: ignore at your own peril.” Molecular Biology and Evolution (2020).

7. Yang, Ziheng. “PAML 4: phylogenetic analysis by maximum likelihood.” Molecular biology and Evolution 24.8 (2007): 1586-1591.


分享到:


相關文章: