06.27 數了20年,科學家為何還在爭論人到底有多少個基因?

原文作者:Cassandra Willyard

研究人員對人類基因組進行測序已有十五年左右的時間,但是人類究竟有多少基因,仍未有統一答案。

一群微醺的遺傳學家、美國紐約州冷泉港的一間酒吧、純粹的猜測,這些元素構成了估算人類基因組基因數目的最初幾次嘗試之一。

數了20年,科學家為何還在爭論人到底有多少個基因?

在人類基因組項目完成十多年後,鑑定基因仍然是一個挑戰。

來源:Alan Phillips/ Getty

時間回到2000年,當時人類基因組測序仍處於繪製草圖的階段;遺傳學家則在進行一場“豪賭”:人類究竟有多少個基因。有的認為有幾萬,有的認為有幾十萬。將近二十年過去了,手握實際數據的科學家們依然無法就這一數字達成一致意見——他們認為這個知識缺口會阻礙人們發現疾病相關的基因突變。

5月29日,人們為填補這個缺口而做的最近一次嘗試,其結果發佈在了預印本服務器BioRxiv上。這項研究使用了來自數以百計的人體組織樣本的數據,發現了約5000個之前未曾發現的基因,其中近1200個帶有製造蛋白質的指令。得出的蛋白質編碼基因總數超過21000個,較之前的估算——20000個左右——有了較大提升

然而很多遺傳學家並不相信所有這些新基因都能經受住學界進一步的推敲。他們的批評凸顯了鑑定新基因,甚至定義基因是什麼有多麼地困難。

美國約翰·霍普金斯大學的計算生物學家Steven Salzberg說:“人們在這一領域已經努力了20年,但卻依然沒有得到答案。”正是他的團隊得出了最新的基因計數。

難下定論

2000年,基因組學學界對能發現多少個人類基因的問題爭論不斷,在這樣的背景下,現任歐洲生物信息學研究所(EBI)聯席主任的Ewan Birney發起了一項名為GeneSweep的比賽。他在一次遺傳學年會期間在一間酒吧裡下了第一筆賭注,比賽最終吸引了超過1000名參與者,總獎池達3000美元。針對基因數目的下注範圍低至26000個以下,高至312000個以上,平均在40000個左右。時至今日,人們的預估範圍已經縮小了——大多數估計都在19000至22000個之間,但分歧依然存在(詳見“基因計數”)。

數了20年,科學家為何還在爭論人到底有多少個基因?

來源:M. Pertea & S. L. Salzberg

考慮到分析數據、分析工具和剔除假陽性的標準的不同,基因計數可能存在差異。在最近的這次計數中,研究人員選用了一個規模更大的數據集、與以往不同的計算方法以及一個較寬泛的基因定義。

Salzberg團隊使用的是來自基因型-組織表達(GTEx)項目的數據。GTEx對幾百具屍體的30多種不同組織的RNA進行測序。RNA是DNA和蛋白質中間的媒介。研究者想鑑定出編碼蛋白質的基因和那些非編碼但仍然在細胞裡扮演重要角色的基因,因此他們把GTEx的9000億微小RNA片段組裝起來與人類基因組進行比對。

然而僅憑一段DNA可以被表達為RNA這一點,並不能說明它就一定是一個基因。因此,團隊嘗試採用了一系列手段濾除數據噪音。例如,他們把自己得到的結果與其它物種的基因組進行比較,這背後的邏輯是親緣關係較遠的生物間共有的序列很可能是因為有某種用處而被演化所保留,所以這些序列有可能是基因。

最後,研究團隊得到的是21306個蛋白質編碼基因和21856個非編碼基因——遠遠超過目前使用最廣泛的兩個人類基因數據庫。

EBI維護的GENCODE基因數據庫包括19901個蛋白編碼基因和15779個非編碼基因,美國國家生物信息技術中心(NCBI)運行的數據庫RefSeq則包括20203個蛋白編碼基因和17871個非編碼基因。

NCBI的基因組研究人員、RefSeq前負責人Kim Pruitt認為數目上的差異在某種程度上可能是由Salzberg團隊所分析的數據量導致的。另外還有一個重大的區別:GENCODE和RefSeq都依靠手動管理——有專人審核每一個基因相關的證據並做出計入與否的最終決定,而Salzberg團隊則完全由計算機程序來篩選數據。

“如果人們認可我們的基因清單,那麼也許幾年後我們將成為人類基因研究領域的權威。”Salzberg如是說。

模稜兩可的計數

但是許多科學家都說他們需要更多的證據才能相信清單是準確的。EBI的計算生物學家Adam Frankish負責協調GENCODE的手動註釋工作,他說他和他的小組掃描了Salzberg團隊鑑定出的約100個蛋白質編碼基因。根據他們的評估,其中似乎只有一個是貨真價實的編碼基因。

Pruitt的團隊檢查了十幾個Salzberg小組得到的新蛋白編碼基因,但發現沒有哪一個能滿足RefSeq的標準。其中一些與似乎屬於逆轉錄病毒基因組的部分區域重疊(這些病毒過去侵入了人類祖先的基因組),而另一些則屬於其它重複片段——它們很少被翻譯成蛋白質。

但Salzberg認為有些重複序列可以被認為是基因。ERV3-1就是其中一例:它被收錄在RefSeq中並且編碼一種在結直腸癌中過表達的蛋白質。Salzberg也承認他的團隊所發現的新基因還有待他們自己和其他研究組的進一步驗證

基因並沒有一個明確且不變的定義,這使得計數工作變得更為複雜。生物學家過去認為基因就是編碼蛋白質的序列,但後來瞭解到一些非編碼的RNA分子在細胞裡也起重要作用。裁定哪些序列是重要的、應該被視為基因,是存在爭議的,這或許可以解釋Salzberg與其他人的計數之間存在的部分差異。

瑞士日內瓦大學的遺傳學家、GTEx項目的聯席主席Emmanouil Dermitzakis認為,Salzberg團隊鑑定出的基因至少有一部分仍可能被證明有效。考慮到GTEx數據集巨大的規模,在看到該研究團隊得出的蛋白質編碼基因計數較之前增加5%時,他並沒有感到太驚訝。

準確掌握人類基因的全部數量對於揭示基因與疾病之間的關聯具有重要意義。Salzberg說沒有被統計進來的基因即便是帶有致病的突變,也常會被人們忽略,但Frankish則認為貿然添加新基因亦有其風險。被錯誤計入的基因可能會誤導遺傳學家,導致真正的問題被無視。

數據庫不一樣,基因數目就不一樣,Pruitt認為這對研究人員來說是個棘手的問題。“人們只需要一個答案,”她補充道,“可生物學是很複雜的。”


分享到:


相關文章: