華大從14萬無創產檢者中 獲得了一份基因大數據圖譜

[ 該項研究取樣自14餘萬中國人無創產前基因檢測數據,揭密了中國人群基因遺傳特徵,是華大主導的“百萬人群基因大數據研究”的一期成果。 ]

10月10日,華大基因大股東華大集團在深圳國家基因庫發佈了一項中國人基因組學大數據研究成果。

該項研究取樣自14餘萬中國人無創產前基因檢測數據,揭密了中國人群基因遺傳特徵,是華大主導的“百萬人群基因大數據研究”的一期成果。

“數據集對新的病種開發有很大幫助。舉個例子,原來的經典癌症基因基於西方人數據庫,中國人發現大量意義未明的突變,沒辦法在西方數據庫得到檢驗,這是因為我們找錯了體系。這個數據不僅對華大有用,對中國醫藥健康產業都有巨大價值。”華大集團生命科學研究院院長徐訊接受包括第一財經在內的媒體採訪時表示。

基因推斷身高成可能

華大集團研究小組構建了包含904萬個多態性位點在內的中國人基因頻率數據庫。

通過數據分析,研究小組一次性發現並且驗證了48個與身高以及13個與身體質量指數(下稱“BMI”)顯著相關的基因位點,包括這些位點在內的常見突變位點分別解釋了48%的身高遺傳率和10%的BMI遺傳率。

華大集團方面表示,隨著研究的進一步深入,科學家和算法工程師有可能利用這些信息構建一套適合於中國人的身高預測模型,通過基因數據推斷出個人身高情況。

華大研究小組同時揭露了全國31個省級行政單位人群病毒攜帶率以及病毒在個體血漿中丰度的分佈,研究發現,中國人血漿的病毒組與歐洲人存在較大差異。歐洲人群中攜帶率排名前兩位的分別是與皮膚急疹相關的皰疹病毒7型及與鼻咽癌相關的皰疹病毒4型,而中國人群中排在首位的則是乙肝病毒,其感染髮生率大約為2.5%。

從單個樣本到大數據

在國家級人群基因數據研究上,中國一度並不靠前,主要是因為大型研究項目的完成需要較長週期,項目設計、樣本採集及基因測序需要花費大量時間與資金。

人群基因組項目研究中,以“國際千人基因組計劃”最為知名,項目三期完成對2504人進行基因測序,但僅有301名中國人參與其中,比例遠低於中國佔全球人口比例;世上最大的人類基因變異數據庫ExAC(Exome Aggregation Consortium,外顯子組整合聯合數據庫)項目共對60706人進行研究,但東亞僅有8642人,中國人數未知。

這也導致基因與疾病關聯的研究嚴重偏向於歐洲人群。華大一項數據顯示,該領域78%的研究針對歐洲個體,49%的研究發生在歐洲,54%的研究協會在歐洲。

華大集團生命科學研究院研究員金鑫對第一財經表示,當前疾病研究、藥物研發多數基於白種人數據開展。

與此同時,基因大數據戰略高地的全球競爭異常激烈。冰島2015年發佈冰島人全基因組序列,17年間測序了2636人;澳大利亞2015年啟動4年10萬人基因組計劃;英國今年10月3日宣佈將在未來五年開展500萬人基因組計劃;美國NIH ALL of US研究預計研究對象達百萬人。

但無創產前基因檢測技術(NIPT)為大規模人群隊列研究提供了新思路,目前全球無創產前基因檢測超過1200萬例,中國完成約700萬例,其中華大基因完成逾350萬例。

華大研究團隊選取了14餘萬無創產前基因檢測數據,開發了一系列適用於此類數據的分析方法,揭示了包括31個省份、36個少數民族與漢族在內的中國人群精細的遺傳結構,並將研究成果發表於《細胞》。

用戶隱私是否因此洩露?金鑫對第一財經表示,本次研究披露的是群體分析結果,不包含個體身份信息。華大建立了完整、嚴格的數據和隱私保護體系,技術上使用了加密和存儲、彙集方案;流程上,將受檢者個人身份信息與檢測數據分離;管理上,由多個部門從多環節監督。

金鑫同時表示,受檢者在進行無創產前基因檢測前會簽署知情同意書,醫生會知會受檢者,在不洩露個人隱私的前提下,受檢者可以自願授權研究者對檢測數據進行與可識別個人身份信息無關的、以醫學和科學為目的的研究。

徐訊表示,此次研究成果證明生命科學產業已經從單個樣本的檢測和診斷,進入了基因大數據時代。


分享到:


相關文章: