北大第三方獨立分析:印度神文的數據分析和結論錯誤

北大第三方獨立分析:印度神文的數據分析和結論錯誤

pixabay.com

1月31日,印度德里大學和印度理工學院的研究人員在生物預印本網站 bioRxiv 發表了一篇文章,稱2019新冠狀病毒棘突蛋白中含有獨特的插入序列,並與艾滋病毒的HIV-1 gp120和Gag蛋白有奇特的相似性。這篇論文已被很多同行批評是“一項極不嚴謹且選擇性使用數據的研究”,其作者在2月2日撤稿。

最近,北京大學醫學部的科學家,通過獨立的生物信息分析,發現印度學者的論文存在數據選取不當、統計分析方法違背基本規範,論證過程毫不嚴密等失誤之處,結論錯誤。

以下為分析過程。


撰文 | 楊恩策(北京大學醫學部)


●  ●  ●


近日,某印度研究團隊在預印本網站BioRxiv上發佈題為 “Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag” 的研究報告,認為“武漢新型冠狀病毒有可能並非自然界產物”。該文於1月31日上傳至生物預印本網站bioRxiv(該平臺刊登研究團隊的文章草稿,並未經過同行評議,無法當作嚴謹的科學論據)。此文的刊出在學術界引起了巨大的波瀾,以哈佛大學 Eric Feigl-Ding 教授和劉如謙(David Liu)教授、我國中國科學院石正麗教授、清華大學張林琦教授、浙江大學王立銘教授等為代表的多位學者,對這篇文章中缺乏科學價值的結論和帶有某種程度引導性的措辭提出了質疑和批評。


北京大學醫學部病毒生物信息學團隊在印度研究報告發表的第一時間就展開了獨立的分析驗證。簡單講, 1)印度研究首先通過將新型冠狀病毒與其他病毒序列進行多基因系統發育的分析,得出結論新型冠狀病毒與SARS病毒親緣關係最近; 2)繼而,通過比較 2019-nCoV 和 SARS-CoV 的Spike蛋白序列,認為新型冠狀病毒S蛋白存在4段插入序列;進一步與病毒序列數據庫比對,認為這些序列可能來源於HIV。北大醫學團隊的分析驗證工作發現該研究從數據分析到結論存在多處根本性錯誤,現逐條分析如下。


第一,如下圖所示,新型冠狀病毒(2019-nCoV)與一種蝙蝠冠狀病毒(即RaTG13)親緣關係最為接近,而非文中提及的SARS病毒。


北大第三方獨立分析:印度神文的數據分析和結論錯誤

圖一:基於2019-nCoV WIV04的全長基因組序列的相似性圖

第二,所謂新型冠狀病毒S蛋白的4段插入序列,其中三段序列可以在已知的蝙蝠冠狀病毒中找到,第四段也與已知的蝙蝠冠狀病毒有較強的相似性。並非來自HIV。

北大第三方獨立分析:印度神文的數據分析和結論錯誤

圖二:新型冠狀病毒與蝙蝠冠狀病毒、SARS對比序列對比

第三,所謂的插入序列在動、植物等多種物種中存在。文中發現的插入序列僅有7~12個氨基酸殘基,不僅可以比對到HIV病毒基因(包含數百個氨基酸殘基)的某一局部片段,同樣可以完全一致地比對到果蠅、黴菌、扁豆等各種生物基因上。因此,從生物統計角度講,所謂的 “新型冠狀病毒添加有HIV序列” 的觀點不能成立。

北大第三方獨立分析:印度神文的數據分析和結論錯誤

圖三:插入序列全物種比對結果

將比對的物種限制到病毒後,同樣也可以比對上多種病毒的氨基酸序列。

北大第三方獨立分析:印度神文的數據分析和結論錯誤

圖四:插入序列病毒比對結果

為了排除 “這些序列的一致結果出自偶然” 這一可能性,在統計學上,應該基於比對結果的E-value進行篩選。E-value指的是在隨機的情況下,其它序列與目標序列相似度要大於這條顯示的序列的可能性,因此,這個值越小,或者說越接近0,越能說明兩條序列同源的可靠性高。通常認為當E值小於10-5時,表明兩序列有較高的同源性,而不是隨機結果造成的。而且當目標序列過短時,E值會偏大。從上圖可以看到,大量完全匹配的序列的E-value遠遠高於這個水平,無法說明這4條短序列與任一匹配上的序列具有同源性。但原文作者卻並沒有報道對E-value進行限制這一常規過程,無可避免地引入了大量的假陽性結果。


此外,在網上有人提出質疑 “一條序列是偶然,四條難道都是偶然嗎?” 的疑問。


事實上,原文作者為了營造這種並非偶然的表現,在比對序列選取上做了人為的取捨。例如,原文圖2所標註的第一處插入序列是 “GTNGTKR” 共7個氨基酸殘基,而在原文表1中用於比對的序列則變成了 “TNGTKR” 共6個氨基酸殘基。我們巧合地發現,使用 “GTNGTKR” 進行比對不能實現與HIV序列的完全一致,只有使用 “TNGTKR” 才能在完全一致的比對結果中找到HIV來源的序列。


綜上所述,印度學者的論文存在數據選取不當、統計分析方法違背基本規範,論證過程毫不嚴密等失誤之處,其結論錯誤。


生物信息學是一個嚴謹的學科,為了避免大數據分析中普遍存在的假陽性錯誤,需要遵循規範、嚴格的研究規範。但在本次疫情中,少數研究團隊基於缺乏方法規範的生物信息學分析結果,提出了一些吸引公眾注意力的觀點。這或是由於似懂非懂的跨界而無意得出了錯誤結論,或是由於種種考慮而對明顯的假陽性結果進行錯誤解讀。公眾應以謹慎的態度看待這樣的結果,本領域的研究人員也有責任及時向公眾進行解釋,共同渡過疫情難關。


分享到:


相關文章: