十二位分子遺傳學家萬字長文,燭照遺傳學和基因組學的未來

十二位分子遺傳學家萬字長文,燭照遺傳學和基因組學的未來


文丨張文叄

前 言

筆者曾在原上海生命科學研究院“Bio2000”課程上聽過饒毅老師兩節生物課。饒毅老師每次都從孟德爾的豌豆實驗講起遺傳學的誕生,進而回顧DNA雙螺旋的誕生以及富蘭克林女士的貢獻與遺憾。在課上,饒毅老師曾點評沃森的為人,讚賞克里克的才華。這麼多年過去,我仍然記憶猶新!

在德國學習的時候,我的遺傳學老師、著名植物生理學家Thomas Schmülling教授給了我一本名為Griffiths Introduction to Genetic Analysis(《格里菲思遺傳分析導論》)的遺傳學教材,裡面用整整一章節介紹了孟德爾這位超越時代、孤獨前進的遺傳學之父八年來精巧靈妙、耗盡心血的實驗,為1864年以後的遺傳學研究點亮了燈塔。

十二位分子遺傳學家萬字長文,燭照遺傳學和基因組學的未來

圖:格雷戈爾·孟德爾;位於捷克布爾諾的豌豆試驗田;Griffiths Introduction to Genetic Analysis

如今,隨著20年前人類基因組計劃的完成,DNA測序和基因組學技術快速發展,遺傳學由此跨進新的時代。Nature Genetics Review期刊創辦20週年之際,該期刊編委會邀請了十二位現代分子遺傳學家,就遺傳學和基因組學領域面臨的主要挑戰和機遇進行探討,為廣大研究者指點迷津,燭照莘莘學子的書案。

為示本篇文章的指導意義,我們首先簡要介紹這十二位卓越的科學家:

Amy L. McGuire為美國貝勒醫學院生物醫學倫理Leon Jaworski席位教授和醫學倫理及衛生政策中心主任。這位科學家獲譽甚多,2014她年被邀請在tedMed演講“人類精神中不存在基因組中”。2020年,她當選為哈斯丁中心(人類第一所生命倫理研究中心)研究員。她的研究側重於探討新興技術的倫理和衛生政策問題,以及基因組學研究,並且她尤其關注個性化醫學和新的神經科學整合領域。

Stacey Gabrielz自Broad研究所2012年成立以來一直擔任研究所主任職務,她帶領研究所在基因組學取得了重大研究成果。她是該研究所的首席科學家,在服務於科研外,還負責該研究所的行政管理事務。她是公認的基因組學技術和多項基因組項目的領導者和執行者,包括Hapmap基因組計劃,1000人基因組計劃,人類癌症基因組圖譜計劃,美國國家心臟、肺和血液研究所的全外顯子組測序項目以及tOPMed計劃。

Sarah a. tishkoffc為美國賓夕法尼亞大學David and Lyn Silfen講席生物學副教授,同時在該校醫學院和科學與藝術學院也有教職。她是美國科學院院士,曾獲得NIH科學先鋒獎、David and Lucile Packard獎、Burroughs/wellcome Fund獎和人類遺傳學Curt stern獎項。她的研究主要關注非洲人群基因變異、人類進化歷史、非洲人群適應環境和表型變異的遺傳因素以及非洲人群感染性疾病的易感性的遺傳基礎。

Ambroise Wonkam為非洲人類遺傳學協會的主席,是一名醫學遺傳學教授。他擔任GeneMaP(非洲人口遺傳醫學研究中心) 主任,同時任南非開普敦大學健康科學學院副院長。他成功領導眾多NIH和Wellcome Trust- Funded基金會資助的項目。在過去的十年中,Wonkam教授專注於鐮狀細胞病臨床變異研究、聽力障礙遺傳學研究等。2014年他被授予英國醫學遺傳學會獎。

Aravinda Chakravarti為紐約大學醫學院的醫學教授和人類遺傳學和基因組學中心主任, Muriel G.和 George W.Singer神經學和生理學講席教授。他是美國科學院院士、美國國家醫學科學院院士和印度國立科學院院士。他參與過人類基因組計劃,國際人類基因組單體型圖計劃(Hapmap)和1000人基因組計劃等。他的研究關注多因素誘發疾病的分子生物學機理。2013他被美國人類遺傳學會授予威廉·艾倫獎,2018年他被人類基因組計劃組織授予 Chen Award獎。

Eileen e.M.Furlong為歐洲分子生物學組織(EMBO)成員和EMBO理事會的成員,並擔任該機構基因組生物學部門主任。她同時是歐洲科學院和歐洲研究委員會(ERC)高級研究員。她領導團隊剖析基因組調控的基本原則以及基因如何在胚胎髮育期間決定細胞命運,包括增強子如何在3D核內發揮組織協調功能。她的研究結合了遺傳學、單細胞測序基因組學、細胞成像和生物信息學,可應用於複雜的多細胞生物學研究。

Barbara Treutlein為蘇黎世聯邦理工學院生物科學和工程系發育生物學副教授。她領導的小組使用和發展單細胞測序技術,結合基於2D和3D培養的幹細胞系統來研究人體器官如何發展和再生,如何調節細胞命運。她獲得了多個獎項和榮譽,包括Friedmund Neumann先靈葆雅基金會獎、國際幹細胞研究學會授予的Susan Lim博士傑出青年科學家獎、EMBO授予的青年科學家獎。

Alexander Meissne為德國馬克斯·普朗克學會(MPI)的成員,目前是柏林馬克斯普朗克分子遺傳學研究所主任。他曾領導哈佛大學基因調控生物學系,並且是幹細胞與再生生物學系訪問科學家。加入MPI之前他是哈佛大學終身教授和Broad研究所的高級副研究員,在次期間他主導進行表觀基因組學計劃。2018年他被選為EMBO成員。他領導團隊使用基因組學技術研究發育生物學和疾病生物學以及表觀遺傳學。

Howard Y. Chang為斯坦福大學癌症基因組學研究中心的弗吉尼亞 D K路德維希講席教授,也是霍華德·休斯醫學研究所的研究員。他是一名生物物理學家,專注於破譯非編碼基因組中隱藏的信息。他最負盛名的研究包括LncRNAs的基因調控,開發新的表觀基因組學研究技術。他是美國科學院院士、美國醫學科學院院士和美國藝術與科學院學院士。

Núria López-Bigas為西班牙巴塞羅那龐培法布拉大學副教授、ICREA生物醫學研究所副研究教授。她在2015年獲得了ERC(歐洲研究委員會)獎項,並在2016年當選EMBO成員。她的研究被授予著名的德銀薩瓦德爾生物醫學研究獎,獲譽加泰羅尼亞國家青年研究人才和人類前沿科學項目授予的職業發展獎。她的研究主要集中在識別癌症的驅動突變基因,不同腫瘤類型中信號通路,以解析基因突變導致癌細胞突變的累積。

Eran Segal為魏茨曼科學研究所計算機科學和應用數學系教授,領導一個多學科實驗室,在機器學習領域積累了豐富經驗,在計算生物學和變異分析的的高通量基因組數據的分析方面貢獻卓越。他的研究側重於微生物學、營養和遺傳學、及其對健康和疾病的影響,旨在開發基於大數據分析的人類個性化醫療。他已經發表了150多篇文章,他的工作獲得了許多獎項和榮譽,包括Overton獎和邁克爾·布魯諾獎項,當選為EMBO成員和以色列青年學院成員。

Jin-soo Kim為韓國大田基礎科學研究所基因組工程中心的主任。他獲得過眾多獎項,包括2017年Asan醫學獎、2017年 Yumin科學獎,2018年他被Nature雜誌評選為東亞地區十大科學明星獎,2019年亞太地區生物化學家和分子生物學家聯合會授予他科學和研究卓越獎。自2018年Kim教授就一直是全球論文高引科學家之一,他領導團隊致力於在生物醫學研究發展中利用和革新基因組編輯工具。

正 文

01

Amy L. McGuire
實現基因組學研究的真正公平

對於遺傳學和基因組學領域來說,21世紀的第一個10年是一段生物學快速發現、變革性技術快速發展和測序成本直線下降的時代。21世紀初,我們通過人類基因組計劃這項劃時代的國際合作項目,繪製了人類全部基因組。此後我們通過十多年的努力,花費數十億美元,實現了個人基因組測序成本直線下降。

在隨後的十年中,即21世紀的第二個10年,這個領域轉向解析生物學研究產生的大量基因組數據、個人的環境因素、生活方式、其他非遺傳因素。鋪天蓋地的宣傳,使我們回憶起過去10年是人類瞭解自身生物學的精緻以及複雜性。然而,醫學領域的藍圖由遺傳風險預測被精準醫學取代,精準醫學涵蓋遺傳、環境和生活方式,以上因素都致力於在恰當的時間利用恰當的藥物治療符合條件的疾病患者。

當我們開啟21世紀的第三個10年,我們現在面對的前景是不僅僅能夠更準確地預測疾病風險和基於遺傳和非遺傳因素調整現有治療方法,而且我們也有可能利用基因編輯技術,完全治癒、甚至消除一些疾病。

這些進步引出了許多倫理和政策問題,包括對於隱私的擔憂和歧視、人們瞭解科學研究成果的權利、消費級基因檢測和受檢測者知情權等。許多重大投資是為了獲取更好地理解臨床基因檢測的風險和利益,而關乎人類基因編輯的倫理已經在科研界展開了激烈辯論。許多著名科學家和生物倫理學家呼籲暫停人類生殖細胞系編輯,直到它被證明是安全有效的,直到能夠獲得廣泛的社會共識。

面臨這些重要問題,我們需要繼續探索,但隨著技術廣泛利用,基因組測序在過去的20年裡開始被應用到常規臨床護理。我們也面臨著最困難的和最基本的挑戰之一:在基因組學、醫學、社會階層不平、和其他一些特權階層導致的不利的因素。基因組學的未來必須是基因組學本身!無論種族、地理或貧富!

這個大膽的目標——實現基因組學真正公平,需要多方面的解決方案。COVID-19時下在全球肆虐,不成比例的疾病和死亡負擔在不同種族和少數民族產生。最近美國掀起的抗議警察虐死黑人弗洛伊德事件,再次敲響了我們反種族歧視運動和要求種族公平權益的警鐘。

為了實現基因組學的真正公平,我們需要改變,而改變需要謙卑。我們必須積極傾聽和互相學習,我們必須要團結起來和承認人類是命運共同體,這需要勇氣和改變!

為實現基因組學研究更公我們能做些什麼呢?我在此提出三個領域方面的建議,我們應該集中注意力來解決這個重要的問題。首先,我們必須確保在基因組學研究的公平。我們檢查核對了2016年進行的2511項全基因組關聯分析(GWAS)的研究,大約3500萬個樣本,但是81%來自歐洲人,只有5%來自非亞洲少數人種。這產生了一個“信息不對等“的問題,降低少數人種臨床基因組解釋的可靠性。美國國立衛生研究院(NIH)已擴大投資致力於努力提高基因組多樣性研究,為了實現基因組學公平目的,但這些研究必須嚴密關注那些弱勢群體和贏得那些曾經被奴役的黑人群體的信任。至少,需要提高參與度、提高透明度、改革問責制、致力於創造機會、促進和支持基因組學的人們的公平,包括之前沒有參與到基因組研究地區的科學家和臨床醫生。

其次,通過分析2018年美國疾病控制和預防中心行為風險因素監測系統,發現與非老齡化白人相比自我識別的種族或少數民族非老齡化人群相比,後者更少的可能去看醫生,這是由於看病成本造成的。這一結果反映出衛生保健在美國延續不公平,導致更大社會階層不公的核心問題。即使社會和經濟因素控制,在獲得遺傳服務方面種族差異固存。大規模持續的研究需要更好地理解並積極解決這個多種因素造成的困擾,包括種族歧視問題,不信任,種族偏見,缺乏知識支撐的遺傳測試,還有濫用基因信息的隱憂。

最後我們面臨的最艱鉅挑戰是,我們必須努力去實現更公平的從基因組學發展到醫學獲益。在慢性疾病和早產兒死亡,許多種族和少數民族與白種人相比,發病率和死亡率不同。性別,性取向,年齡,殘疾狀況,社會經濟地位和地理位置,也存在差異。人類健康狀況是深受社會、經濟和環境因素影響的。因此,儘管我們提供了更多公平的機會獲得基因組服務,確保更公平在基因組研究參與是必要的第一步,但是這還遠遠不夠。基因組學真正的公平,它必須運行在一個衛生保健系統健全和公正的社會!

02

Stacey Gabriel進行種群規模的測序

20年前,我完成了博士學位,克隆了一個RET基因——有幾百個患巨結腸疾病的患者攜帶這個基因的致病性變異。這項工作需要根據基因序列設計引物,進行測序,測到RET基因組的20個外顯子,當時用到的是一代測序。對整個人類基因組進行測序是在我們那個時代被稱之為最瘋狂的夢想!

由於技術的重大進展和遺傳學家,工程師,流行病學家和臨床醫生等的辛勤工作,基因組測序已經取得了很大進展;世界各地大規模的基因組測序正在如火如荼的進行。為尋找致病基因,全外顯子組測序(WES)或全基因組測序(WGS)技術,正在幫助不少家庭和個人鑑定致病基因、對成千上萬種孟德爾遺傳疾病和一些複雜的疾病的誘發突變進行鑑定。

但真正的基因組測序的承諾是實現真正大樣本大規模測序,最終實現數以百萬計的個人基因組測序規模,最後提供了一個查找致病基因變異的目錄。基因組序列應該成為電子醫療記錄的一部分,它將會是一個穩定、持久的信息來源,類似於個人測量體重、血壓等,類似報告吸菸或飲酒史,類似報告家族病史等。

我們能學到什麼呢?需要解決什麼問題呢?有時相當小數量的基因組富集在可檢索的目錄裡,這樣啟用了一種新的方式來利用和解釋基因組數據,照此可瞥見未來。gnomAD10計劃就是一個很好的例子——這個數據庫包含來自15000例個人基因組和1250000個外顯子組。依賴這個基因資源,發現種群內的遺傳變異的頻率是現成的。臨床醫生解釋病人的基因組後可以問患者家庭是否已經存在過一個突變體。這項數據為評估遺傳變異的功能提供一個起點,並且提出遺傳變異缺失問題的能力也存在限制。再加上臨床數據,建立大規模基因組數據,臨床信息的數據庫,將應用於更好評估多基因風險。更多的常規WGS將縮短診斷奧德賽疾病時間,患者父母會通過多輪基因測試確定未來的生育計劃。更有效的臨床試驗可能利用到基因組信息。在衛生系統中如果有所有個人的基因組信息,臨床試驗可以更好的設計,更好的選擇患者。這種基因組資源富集可以提供更有前途、更短時間、更小規模、代價更小的臨床試驗方案。

這些數據庫也必須迅速建立在這樣一種方式,代表的人數,代表實際的種族和民族多樣性,不僅可作為儲存樣本數據集。比如一項歐洲人基因組數據,妨礙了程序風險預測工具對非白人種族個人風險預測,限制了發現人口特定的遺傳關聯分析,比如II型糖尿病(T2DM)病這個例子。

另外,我們必須解決重要的問題——數據共享,數據隱私和數據規模。共享基因數據和臨床數據的關鍵是推動我們發現和理解如何使用這些數據做健康護理。建立信任,必須通過堅持建立和維護隱私的權利,保護隱私,禁止歧視。有一些通過建立數據平臺和數據保護和共享的發展框架的項目正在取得進展,例如通過全球聯盟基因組學和衛生的工作(GA4GH)。

幾家大型生物銀行已經建立數據銀行並努力推向市場。英國生物庫是一個先鋒計劃,包含基於500000個個人的基因型數據,健康問卷,身體測量並且可以鏈接到他們的醫療記錄,其他類似工作也正在進行。

從2008年到2013年,測序成本成指數形式下降。測序成本變化曲線由美國國家人類基因組研究公開報道提供。2016年左右每M基因測序數據的成本一直保持平穩,徘徊在每M數據售價0.01美元,這意味著一個基因組價值1000美元。

全基因組測序可以定價在500美元到700美元的範圍。然而大型項目(超過500000個樣本)測序的成本價格卻不是這樣,大型項目卻通常依賴於製藥巨頭或生物技術資金,從而限制數據共享。我相信,5倍到7倍地降低總成本是需要解鎖更多的人口規模測序。最終基因組測序可以更廣泛的應用於衛生保健系統。每個人基因組100美元,在美國代表成本不到1%的年度人均衛生保健支出。一個基因組序列就像一次投資,可以一次又一次地應用在個人整個壽命期。

我認為三個主要驅動因素將促使得到我們每個基因組的100美元成本,即創新、規模和競爭。

1. 創新:生成序列數據需要有多個技術領域成熟的創新。樣品製備可以通過更有效的提取方法,減少所需的勞動力,或降低建庫成本。減少數據處理成本的創新也需要逐步成熟。最近我們發現,優化計算能力可以降低創建一個測序文件的時間和成本的50% 。降低成本的樣品製備和數據處理非常重要,它們代表的總成本的一小部分。大約70%的人類基因組的測序成本是測序試劑和儀器。

2. 規模:一個基因組測序的成本是固定成本,由測序中心或測序供應商承擔。大規模測序可以變得更有效率、降低成本等,成本包括成本的人員、設備和設施。試劑的規模也會導致成本降低,雖然這個過程是根據嚴格控制和謹慎地接近整體市場動態。

3. 競爭:創新和規模只能做以上的事情。生成數據的成本(成本/ GB)占主導地位,因此必須大幅降低。當前市場需要利用其他方式來推動這一進步。目前,市場上短讀長測序是缺乏可行性的,阻止了競爭,迫使流式細胞密度和機器產量增加,對降低成本產生很大壓力。雖然長讀長測序存在和發揮作用在特定應用程序中,如從頭測序和結構變異,目前他們遠離競爭和市場成本。因此,不適用於降低常規WGS的成本。

我們需要創新,並促進市場競爭。不自滿於時下的測序技術。這可能包括特定類型的投資不僅僅是金融方面的,採用和審查新技術需要時間、創造力、信任和耐心。在5年的時間,我希望我們可以見證100美元基因組的時代,真正的大人口規模的數據庫啟動發現人類新的等位基因,豐富我們人類的知識;重要的是,基因組數據在衛生保健體系的常規使用!

03

Sarah Tishkoff以全球化的視看待人類進化學

過去10年見證了SNP芯片呈指數增長地利用,高覆蓋率的全基因組測序(WGS)數據獲益於基因測序技術的創新。現在可以生成成千上萬人的WGS數據(例如GenomeAsia 100K和NIH TOPMed兩個項目)。個人電子健康記錄逐步增加利用生物銀行數據(例如,the UK Biobank, the Million Veteran Project 和 BioBank Japan),正在促進人們進行復雜疾病的全基因組關聯分析以及全表型組關聯分析,繪製與表型的多效性關聯的基因圖譜。在這些遺傳關聯研究和其他研究中都應用了計算預測疾病的表型和風險的PRSs計算方法。

到2019年,近80%的個人基因組關聯研究分析(GWAS)來自歐洲人,約10%來自東亞人,大約2%是非洲人,約1.5%是西班牙人,只有不到1%來自其它人種。在歐洲,也有一些存在極大偏差的基因組參考數據庫,如gnomAD GTEx數據庫。這些偏差限制了我們對不同種族人群遺傳疾病風險因素的認識,並可能加劇健康不平衡。此外,使用歐洲人的數據估計的PRSs並不能準確預測非歐洲人的表型和疾病風險,尤其是在對非洲人群進行預測時表現最差。PRSs在不同種族中應用缺陷可能是由於基因的連鎖不平衡的模式和單倍型結構(導致不同SNPs變異),等位基因頻率差異,基因加基因效應,環境因素影響。遺傳結構的複雜性可能在不同民族的疾病患者中也存在不同,這是由於不同的人種社會歷史和其適應不同的環境。

儘管有一些倡議增加種族多元化的包容性人類基因組學研究(例如,NIH TOPMed和H3Africa 聯盟),原住民仍然未被覆蓋。更多的注意力應該確保少數民族和原住民基因組研究以尊重倫理道德的方式進行。這包括與原住民當地研究科學家建立合作伙伴關係,尊重民族風俗和文化問題,獲得原住民社區和原住民個人的同意,並將成果回饋給原住民社區。此外,應該在有條件的原住民地區開展基因組研究研究教育和培訓。

未來我們因該關注於利用開發工具和資源在低收入和中等收入人群的國家進行基因組數據測序並進行分析。我們要確保所有的人受益於基因組學革命,精準醫療的進步,以及基因編輯技術。因此,未來十年的挑戰幾個最大的挑戰將是:

(1)增加人類基因組學研究中種族多元化的包容性;

(2)開發更多樣化方法進行長序列讀取技術來獲取不同的參考基因組,單倍型,解釋大量的可能存在於種群內部和群體間的結構變異;

(3)培訓一個更多樣化的基因組群體研究的科學家群體;

(4)發展更好的方法,準確預測跨種族表型和遺傳風險,考量環境效應。

多元種族的融合,包括原住民,對重建人類進化史,理解適應不同環境和飲食的遺傳基礎至關重要。雖然過去有一些成功識別基因對適應當地環境起作用的效應的例子(例如,乳糖耐受性和鐮刀與瘧疾相關的細胞病(SCD)抵抗),鑑定多基因選擇變得更為重要。

基因組的特徵——多基因適應是以檢測數以百計或成千上萬的小基因座上等位基因頻率的細微變化對複雜性狀表型的影響能力為基礎的,並且確定變異是人為人口統計學或自然選擇的結果。一個更艱鉅的挑戰來自之前所描述PRSs問題,與變異相關的複雜的特徵可能不能很好地跨越種族群體嗎,不同的種群中遺傳結構可能有所不同。此外,最近已經被證明未修正的人口分層會導致多基因的錯誤信號。例如,幾項研究識別出多基因的特徵適應整個歐洲人的身高(在北歐增加人身高的選擇和減少了南歐人身高)。然而,最近研究顯示這些結果是受人口結構的影響而且不能用標準方法糾正,特別是下面針對全基因組顯著性水平SNP的方法。當這種分析重複了變異在歐洲人的祖先UK生物銀行,這些重要的多基因適應影響將被擦除。因此,檢測多基因適應特徵的方法受人口結構影響是略微偏差的,並且受人口結構影響偏差將會愈加名下。這些研究納入更多民族的人口在GWAS和更好的識別SNP標誌也會受益。仍然存在的一個挑戰是針對少數群體的GWAS研究中,其樣本量較少。尤其是在些來自非洲人的GWAS研究,可以明顯看到遺傳多樣性和極端表型差異。例如,在不到1600名非洲人中皮膚色素沉著的分佈研究可以幫助鑑定影響膚色的的遺傳新變異位點MFSD12。因此,基因組研究在未來必須優先考慮納入少數民族群體!

GWAS和選擇掃描存在一個挑戰:那些確定的基因變異直接影響可變的表型。大多數變異發生在基因組的非編碼區。開發高通量方法,比如大規模平行熒光素酶表達鑑定基因調控區域和高通量CRISPR篩選在體外和體內識別我們感興趣的基因變異,未來將是非常有用的。並且還需要更好地在單細胞水平了解不同細胞類型特異性變異和基因調控,包括免疫系統刺激反應,藥理學和營養學挑戰。然而,這些方法仍然受制於獲得有效細胞系。這對居住在偏遠地區的原住民居特別具有挑戰!改善誘導多功能幹細胞(iPS細胞)分化成各種細胞類型和類器官將極大地促進功能基因組研究。非人靈長類iPS細胞和類器官的建立將為比較基因組學研究提供信息以確定人類特有的進化特徵,比如大腦發育和認知。然而,iPS細胞可能並不準確反映了突變對發育表型的影響,因此需要我們在模式生物體內建立更有效率的技術。

目前可利用的研究人類進化的最大的革命性技術是測序和獲取古老的目標基因型DNA樣本。獲得古代人的高覆蓋率參考基因組的,像尼安德特人這樣的原始人,歐亞大陸的丹尼索瓦人,可以確定這些古代人基因組中是否插入非非洲人基因片段。其中一些地區的研究比如對高海拔適應和免疫反應起到重要的作用。此外,已經在過去的3萬年裡古代歐洲人的遺傳變異方面產生爆炸性的研究,演示一個更加複雜的歐洲的人種分化模型,以及最近的人類進化適應特性研究,相比以前考古研究或來自現代人的研究。因此最大的挑戰是人類沒有辦法從熱帶氣候的地區獲取高質量的古DNA,比如從非洲和亞洲。雖然有項研究成功分析了15,000年前在非洲人古老的DNA樣本,這一直為人類的遷徙以及人種雜交提供信息;難以獲得更古老的非洲人參考基因組使得研究非洲人基因滲入非常難,即使目前所依賴的是統計建模方法。因此,未來10年基因組學面臨最大的挑戰將是是獲得世界各地區有2萬多年的歷史的DNA樣本基因組序列,使我們可以更好地理解世界各地的人口歷史的複雜網絡!

04

Ambroise Wonkam未來的前沿——非洲人基因組學研究

為了充分發揮全球遺傳醫學的潛力,對非洲人基因組變異的研究是一項必要的科學工作,需要公平的獲取途徑,成為一個需要解決的重大挑戰。研究非洲人基因組變異代表了醫學遺傳學的下一個前沿,主要有三個原因:祖先、生態、公平。

在此基礎上生成一個“泛基因組”,從910個非洲人後裔基因組研究,發現至少有3億個DNA變異(10%)是未在當前人類引用中找到,2-19%的非洲人的祖先基因組來源於研究古代人尼安德特人和現代人。尼安德特人的基因組約佔當今歐洲人的基因組的2%,可以在其中富集相關基因的變異,例如皮膚病學的表型,神經精神疾病和免疫功能。一旦測序低質量DNA的技術瓶頸被突破,研究非洲古人類的基因組方法取得進展,這將對解碼非洲人DNA變異和現代人特徵和疾病做出重大的貢獻。

由於現代非洲人30萬到50萬年的人類基因組歷史,非洲人祖先是是世界上基因多樣性資源最豐富的物種。相比之下,有一個極大的基因瓶頸存在,在非非洲人後裔種將導致更少的變異,自從約7萬年以前人類走出非洲。當前PRSs的目標是預測基因遺傳變異的個體患病風險,考慮到它的應用性和可轉移性,表現出一定的偏差,因為大多數PRSs不考慮復等位基因或由於限制性或由於在非洲人中出現的頻率很高。一個GWAS的基因易感性研究項目發現了一個非洲特有的以前從未報道的II型糖尿病T2DM重要位點,從而顯示32個曾建立的位點的可轉移性。此外,比如PCSK9基因無義突變在非洲人群常見,但是在歐洲人群則是罕見的,伴隨40%含量的下降在血漿中低密度蛋白,這個結果支持PCSK9基因作為治療血脂異常的靶點。在一項樣本量最大、達到14345名非洲人的GWAS研究,展開了對34個複雜形狀的薈萃分析,有幾個位點展示了在人群中的有限的可轉移性,進一步說明了與其它種族不像非洲人含有最多的基因組的變異。因此,非洲人的連鎖不平衡較低,這使得克隆和鑑定致病基因變得相對容易。事實上,在大型GWAS中,只有2.4%的參與者是非洲人,他們佔所有GWAS的7%。此外,對近1000例科薩血統非洲人精神分裂症患者進行了全外顯子組測序,在多個基因種發現了非常罕見危害性突變,這一研究結果在一項針對5000例瑞典人的研究種得以重複。相比之下,科薩血統非洲人的研究結果產生了更大的影響,這顯示了相同的數目病例和對照中,更大的基因非洲種群的變異更能表明檢測基因型與表現型之間的關係。因此,基於基因分型和分析工具優化的利用,數以百萬計的非洲人群基因組必須測序。

實現非洲基人因組的可利用,會提高我們對所有人口基因組變異和複雜的特質關聯性的理解,包括對常見單基因疾病的研究。比如,一個大約有5000到7000年前起源的非洲人的SCD(鐮狀細胞疾病),不僅暗示了歷史較近的人口遷移和非洲人和地中海人,和中東地區人種雜交事件;幫助我們理解基因變異和它對血紅蛋白疾病的潛在影響。比如,類HBB基因家族的變異與胎兒血紅蛋白含量高,這與較輕的鐮狀細胞疾病有關,因為胎兒血紅蛋白水平受基因表達控制,未來這種疾病從檢測到治療可能都將依賴基因編輯技術。此外,增加我們對個體遺傳變異的瞭解,可以對SCD的二級預防和治療策略產生影響。比如,APOL1和HMOX1的共突變遺傳導致的α型地中海貧血症與腎臟功能障礙,SCD病人中風與靶向基因關係則是貝葉斯模型;總體SCD死亡率是與患者的循環系統轉錄組水平相關。據估計,每年全球新出生的305,800名SCD患兒,大約75%來自非洲;如此非洲的SCD將成為理解多數常見單基因變異影響的一種模式,並有助於實施多層基因組醫學。

探索非洲基因組多樣性,會使我們發現更多新突變,和罕見單基因變異。的確,與其它種族比較,非洲人基因組內的等位基因和基因座異質性表現出重要的差異,例如GJB2基因的突變導致近50%先天性聽力障礙疾病。在非洲歐亞混血兒幾乎不存在,但有證據表明與聽力損傷相關的新基因變異更有可能是先在非洲人比歐洲人或亞洲人種被發現。較高的生育率、血緣關係和區域遺傳瓶頸將改善非洲人單基因疾病的變異發現,以及疾病和基因關係對的管理,將解決現有數據庫偏差、推斷的變異危害性,導致變異的錯誤分類這些問題。

05

Aravinda Chakravarti解碼多因子表型

我們生活在基因組學技術和數據計算技術取得巨大進步的時代。我們生活在這樣一個“遺傳學”成為家喻戶曉的詞彙的時代,人們越來越善於理解它與個體生命之間的關係。毫不奇怪,遺傳學研究方法正在被重新發明,重新發現,和重塑。我們比以前更能理解遺傳學這門科學。

眼前,我們面對的遺傳學最重要的難題是對“家庭成員相像”的複雜表型剖析,包括對於智力(遺傳學存在的理由)和技術(疾病診斷和治療)的原因兩個方面。我們早就認識到家族內人們長相相似性來自於共有的等位基因,以及遺傳關係的減弱,但是我們對這其中精確的分子組成和構成這種“相似”現象的原因知之甚少。在二十世紀之交,這是一個痛苦而尖刻的問題!孟德爾學派與生物統計學家展開了激烈的爭論,直到1918年Ronald Fisher進行了統計分析,由於第一次世界大戰,Ronald Fisher的書推遲了出版,這個觀點被後來的科學家Altenburg和Muller用果蠅實驗證實了。

Fisher的模型假設是無窮多的基因共同導致一個性狀,具有共同遺傳變異的性狀在由兩個等位基因組成的每個位點上,這兩個等位基因在基因效應上只有微小的差異,Fisher的基因假設是與當時所知道的情況正好相反。在過去的一個世紀裡,這種觀點日漸成熟,人類表型的隔離分析告訴我們,除了一些主要基因對性狀的影響,大部分性狀變異是多基因造成的,還包括家庭特有和隨機環境因素。今天,我們來自GWAS的證據,使用了來自成千上萬的人測序數據關聯許多性狀和疾病,發現多數的多因子決定性狀架構主要是等位基因上的小小差異造成的。這種泛孟德爾觀點與泛多基因觀點的替換是基因組學對遺傳學最重要的一個的貢獻。不幸的是,這種mapping沒有成功弄清楚涉及的基因數量,沒有弄清楚這些基因的“身份”,沒有弄清楚基因型如何決定表現型。事實上,一些人已經得出結論,許多GWAS分析得到的基因座與每個表現型的生物學核心無關。因此,為了更深刻的理解,我們需要研發新的技術和方法去理解生物體的複雜性狀而不僅僅是盲目增加GWAS的生物學樣本。

然而,從GWAS中出現,呈現在我們面前的最重要的生物學問題是導致性狀的變異不是位於基因編碼區,而是位於調控元件中,多數由增強子造成。這一重要發現揭示了四個新的遺傳學問題。第一,非編碼調控機制是廣泛存在的,這種非編碼調控的程度是多少?又是如何影響表型的?第二,非編碼調控影響許多基因的mRNA表達和蛋白表達,那麼細胞時如何閱讀這海量的變化並作為一種細胞內信號?第三,這種機制如何協調將應答反應翻譯到細胞內進而影響生物體表型?第四,如果特定的環境因素影響生物體表型,那麼異常調節的成份是什麼?在我看來,我們需要回答這些問題的具體性狀和真正瞭解多基因性疾病的生物學本質。最後,這些解釋也必須回答為什麼有的性狀決定是符合是孟德爾遺傳規律的,而其他不是。

未來需要我們重視四個領域:生物學裡面的增強子和與之結合的轉錄因子,增強子上的遺傳變異影響,調控大多數基因的基因調控網絡,基因調控網絡是如何引起胞內應答的?儘管有許多進步,調控特定基因的表達的增強子的數目仍然是未知的。有多少增強子在特定細胞類型表達,有多少是普遍存在?有多少是細胞固有的,多少是在特定細胞週期表達?它們對於調控基因表達是協同作用還是疊加作用?此外,同源轉錄因子是如何結合這些增強子,這種動態是如何調節的?這些細節包括基因的增強子對於評估性狀的影響是非常重要的。增強子的序列變化是如何影響基因的活動?這些變異是否隻影響增強子結合轉錄因子還是也影響轉錄因子與啟動子的相互作用?增強子變異的作用是什麼?在所有的細胞狀態中都很明顯還是隻有一部分?只有一個增強器的變異就足夠調控基因表達呢?或者多重更改多個元素是必要的嗎?

其他關鍵問題包括那些基因與核心通路相關的性狀,以及我們如何鑑定這些基因?研究表明基因是如何在基因調控網絡中被調控的,由於GRN,一個基因的產物可能是下游基因必須的,比如基因間的反饋和負反饋調節。這些GRN由來自基因組,轉錄組和蛋白質組。就像我們在先天性巨結腸的研究一樣,每個GRN由核心基因組成,是一個具備邏輯思維限制速率的細胞階段,富集在基因的編碼和增強子的疾病變異與疾病易感性隨之而增加變異的數量,由於限制其速率的影響而產生的疾病。也就是GRN整合多基因的表達。最後,我們需要了解GRN是如何調節細胞屬性和行為。我推測GRN中的速率限制步驟很重要,是廣義細胞特性的監管者,細胞分化,細胞遷移,細胞增殖,細胞凋亡,細胞內GRN變異整合者。因此,基因組範圍內的遺傳變異影響增強子對許多基因的失調,但只有在它們不正常的時候GRN通過限速步驟來實現影響細胞和組織的生物學。這提供了人類的多基因疾病致病機制的理解。

人們理解生物學複雜性,需要改變研究方法,從反向遺傳學轉向正向遺傳學,從全基因組學轉向單細胞基因組學。我相信我們可以構建不同細胞類型的GRN,包括增強子、轉錄因子、以及它們之間的反饋和負反饋調節,最後定義變異對生物學功能的影響,進而影響表型。縱使這樣,依然不夠!我們要利用系統生物學的方法去測試複雜性狀,生物學方法有向化學方法前進的跡象。作為遺傳學家,我們合格嗎?

06

Eileen Furlong增強子和胚胎髮育

我的課題組工作處於基因組調控和動物的發育兩個領域的交界處,過去的10年這兩個領域都取得了許多令人興奮的進展。發育生物學研究基本過程,比如組織和器官的發育,比如複雜性是如何通過細胞間通訊、細胞運動、和動力學聯合行動出現的。在發現分化的細胞可以被重編程而變成類似胚胎幹細胞的初始狀態後,過去的10年見證了在體外細胞重編程和分化的爆發式研究,類器官研究是令人興奮的延申。這些相當簡單的系統可以做到自我組織和生成複雜性這一點是過去的5-10年一個意想不到的驚喜!圍繞幹細胞的研究,重新引起了人們對細胞在體內的可塑性的興趣,也已經揭示了令人意想不到的細胞轉分化和去分化程度。例如,在小鼠心臟中,在出生後的第一週內受損後,心肌細胞會去分化並增殖以再生心臟組織。我們對伴隨細胞分化帶來的分子變化的理解產生了巨大的進步,歸因於二代測序技術在分辨率和靈敏度的跨越式改變。這導致了對胚胎幹細胞,iPS細胞和胚胎的大量研究,基於基因組調節揭示新概念,通過測量轉錄本多樣性,轉錄因子調控,染色質可及性和構象,染色質、DNA和RNA的修飾。未來的挑戰將是將這些信息與細胞的物理特性聯繫起來,以及它們如何形成複雜的組織。解決胚胎研究工作中面臨的挑戰,新技術將會有所幫助,包括CRISPR基因編輯技術,光遺傳蛋白質學,體內顯微成像技術,再加上低投入,足以克服缺乏樣本的難題。最近尤其令我興奮的是單細胞測序技術的發展,雖然其處於早期階段,但是這項技術為我們研究胚胎髮育提供了新的方法和技術。許多新的見解已經出現,包括未知細胞類型的發現和已知細胞類型的發展軌跡。甚至“細胞識別”的概念也受到了質疑。

“細胞識別”很大程度上是依賴於轉錄因子,通過與順式調控元素“增強子”協作。在我看來最令人興奮的未解之謎之一是增強子如何傳遞信息給目標基因。教科書上對增強子的看法是:增強子是具有獨有的調節功能的“要素”,通過直接與啟動子相互作用實現調控特定靶基因,繼而多個增強子參與其中。然而,在過去10年中出現的一些概念對這些“教條”提出了質疑。一些增強子具有雙重功能,而其他增強子甚至可能調節兩個基因。增強子與啟動子之間的通信可以通過空間轉錄組學窺見,包括拓撲結構域(TADs)和無核膜微組件。出現在相同的TADs可能增加增強子與啟動子相互作用的頻率,但在一個TADs內一個特異增強子如何找到正確的啟動子,或者什麼時間TADs被重新排列,仍然是一個謎!中心蛋白質和凝析物是動態的微組件,包含局部高濃度的蛋白質,包括轉錄因子和轉錄機制。凝析物的潛在暗示:增強子不能需要“直接”接觸基因的啟動子來調節轉錄,確切地說它們可能是足夠接近在同一凝析物內。據推測,一旦蛋白質達到臨界濃度,轉錄就會啟動。雖然這個說法符合最新的研究數據,但仍有許多懸而未決的問題,比如增強子和啟動子之間需要多近才能啟動轉錄?不同增強子的這個距離會因其轉錄因子與DNA 親和性而不同嗎?不同的染色質環境會影響這個過程嗎?在某些基因位點,單個增強子上轉錄因子結合的突變會對基因表達有顯著影響。由於與增強子和啟動子結合的其他蛋白仍然分階段分離,因此很難將這種情況與共享的凝析物模型相協調。相比之下,有很多這樣的例子,轉錄因子結合位點發生突變,甚至整個增強子,對基因表達有最小的影響。這些觀察表明,可能有不同類型的基因座,需要不同類型的染色質拓撲和局部細胞核環境,這將在接下來的幾年很有必要解釋清楚。

20世紀90年代對模式生物遺傳位點的解析,使得21世紀的第一個10年使我們對基因表達調控有了更多的瞭解。在過去的幾十年裡,基因組學的力量使我們獲取了全基因組上所有基因調控信息,提供更公正的觀點,研究了新的基因調控模式。缺少的是大規模的實際檢驗。一個主要的挑戰是在生物體中進行更系統的體內功能解剖。基於CRISPR的篩選技術已經對利用細胞體系研究的基因結構發出了疑問。對胚胎髮育的研究仍然面臨巨大的任務挑戰,這項任務是艱鉅的,即使是利用長久以來利用的模式生物,如果蠅和小鼠,我們也缺乏所有蛋白質編碼基因的敲除菌株,而且調控元件的數量至少要高出一個數量級。過去我們曾利用過可定量的方法研究轉錄因子和增強子對記基因表達的調控。更系統且無偏差的數據將揭示更為普遍的調控原則,增加我們對基因調控和發育程序的預測能力,並增強我們對遺傳變異影響的理解。

也許在未來幾年最有前景和最令人興奮的是利用單細胞基因組學、成像,和兩者的結合來剖析胚胎髮育的複雜性。單細胞基因組學可以揭示信息以一種以前不可行的方式帶來變革。當與時間信息相結合時,這些數據可以重建胚胎髮育軌跡,並識別可能負責每個轉變的調控區域和轉錄因子。數據的規模和不偏不倚的性質,分析成千上萬的細胞,提供了很多比5年前任何人想象的都要豐富的信息,將推理和因果關係模型提高到了一個新的水平。空間轉錄組學將在胚胎髮育的環境中具有變動性,從而揭示空間梯度的功能影響、誘導信號、和細胞與細胞間相互作用,並向數字4D胚胎髮展。將這些方法與遺傳干擾相結合,有望解碼發育程序。這會讓我們對未來十年中推動胚胎髮育的調控網絡有一個預測性的理解嗎?構建“簡單”生物模型是一個極好的測試方法,可以確定所需數據的類型和規模,並開發計算框架來構建預測網絡。基因調控的系統功能解析和單細胞基因組學與單細胞成像的真正整合將帶來許多令人興奮的進展,在未來幾年幫助我們的理解驅動胚胎髮育的因素。

07

Barbara Treutlein單細胞空間多組學

令人難以置信的是,第一個單細胞轉錄組在10多年前就被測序出來了。從這個里程碑開始,來自不同生物體、組織和其他細胞生物系統的數百萬個細胞的轉錄組被測序和分析,這些細胞狀態的圖譜正在徹底改變生命科學。這些技術和相關的計算方法已經成熟和普及到幾乎所有的實驗室都可以將這種方法應用到他們的特定系統或問題上。

當然,獲取轉錄組還不夠,而且已經制定了測量染色質開放性、組蛋白修飾、蛋白質丰度、細胞系和其他與單細胞基因組活性相關的特徵的協議。目前,許多研究使用基於解離的單細胞基因組學方法,在這種方法中,空間背景被打亂,以促進捕獲單細胞,進行下游工作。當然,方法正在改進,在原位空間測量基因組,以及計算分析細胞圖譜。這一階段為單細胞基因組學的下一階段做好了準備,在分子、細胞、組織或生態系統尺度上的多模態基因組活動空間登記將使我們構建具有高分辨率和預測能力的體外重建體系。這些虛擬圖譜將依賴於健康和不安的組織和有機體的多組分析,這對創新提出了重大挑戰和機遇。

單細胞高通量測序仍然是一個挑戰,目前還不清楚以分離單細胞為基礎進而測序將來發揮的作用是什麼。這些操作相當易於實施,世界各地的實驗室每次實驗可以進行成千上萬個細胞分析。但是,在某些情況下在一次實驗中測量數百萬個細胞是很有必要的,比如在干擾篩選。結合條形碼方法克服細胞通量邊界;然而目前還不清楚使用當前單細胞測序技術如何經濟地將全轉錄組測序規模擴大到數百萬。“壓縮感知”模式——即測量每個細胞有限的、選定的和或隨機數量的特徵,並通過推理或與已知參考的相似性恢復高維特徵水平——為增加細胞通量提供了一種有趣的可能性。大多數單細胞轉錄組測序操作步驟目前侷限於啟動存在於所有細胞mRNA上的Poly A富集;然而,這種方法導致了對高表達mRNA的有偏差測序。隨機或靶向RNA富集的創新技術可能是一種構建細胞狀態複合表徵的方法。基於圖像的原位測序方法提供了一種增加每次實驗測序細胞數量的方法,數百萬的細胞可以在不增加經濟成本的情況下成像,如此成像時間是一個限制因素。但是在在測量從微米到釐米空間尺度的轉錄組、隨機條形碼、DNA構象和蛋白質丰度方面,還有很大的實驗改進和計算優化空間,並且追蹤空間組學在未來5年內如何發展將會非常有趣!

目前,大多數高通量測序都是在單細胞懸浮液或完整組織上進行的。也就是說,正在出現的研究測量了同一細胞的幾種特徵;例如,mRNA和染色質開放性或mRNA系譜。

為了構建體外圖譜,可以使用數據集成工具整合來自不同細胞的獨立測序數據,儘管在開發系統時很難比對不同細胞狀態。因此,最終的目標是直接測量在不同細胞中儘可能地表現出的特徵(例如RNA、譜系、染色質、蛋白質和DNA甲基化),理想情況下具有空間分辨率。此外,將遺傳和藥理篩選與單細胞多組學測序相結合,將有助於瞭解細胞狀態景觀和每種細胞類型的潛在調控網絡。CRISPR-Cas領域研究者將繼續為精確的單鹼基位點編輯和開發創造性的技術和工具,而將這些工具包與單細胞測序數據的結合肯定會帶來新的細胞機制的見解。

生命形式天生是動態的,每個細胞都有自己的故事。靜態測序不能提供足夠的機制來協助我們觀察組織內每個細胞狀態。不同時間獨立測序數據計算分析方法整合可以用來重建潛在的細胞命運;然而,這些都是間接推論。使用共聚焦顯微鏡的2D培養和使用光片顯微鏡的3D組織的長期活體成像可以提供細胞的形態、行為、位置,在某些情況下,還可以提供細胞祖先的分子信息。事實上,這樣的長期成像實驗揭示了細胞的命運或細胞狀態可以通過許多代細胞行為來預測。細胞追蹤結合終點單細胞基因組學實驗可以幫助瞭解細胞狀態是如何形成的。有一些策略利用CRISPR-Cas系統在給定時間捕獲細胞內高表達的RNA,並將這些RNA逆轉錄回DNA信息進行存儲和讀取。實時跟蹤和終點單細胞基因組學一起可以提供前所未有的細胞歷史的洞察力!

我的願景是將上述新興技術應用於人類2D細胞培養和3D類器官,以瞭解人類發育和疾病機制。我的團隊和其他科學家正在致力於構建體外人體器官,基於高通量、多狀態單細胞基因組學數據。類器官提供了擾亂細胞系統和了解細胞家系的機會。新一代的單細胞基因組學方法和人類類器官技術將為開發人類疾病的新療法提供前所未有的機會!

08

Alexander Meissner深層次解碼錶觀基因組

大約在1975年,儘管人們對5-甲基胞嘧啶修飾在基因組內的分佈及其相關酶知之甚少,但5-甲基胞嘧啶修飾這一新的機制來調控基因表達的想法獲得了更多的關注。在同樣有限的基因組信息或對參與者的知之甚少的情況下,組蛋白密碼假說於2000年被提出用以解釋染色質的多種不同共價修飾是如何協調以發揮調控功能的。從那以後,表觀遺傳學取得了巨大的進展,已經基本完成發現和鑑定的核心表觀遺傳調控因子的工作。

DNA測序在過去十年中繼續佔據主導地位,並對此做出了貢獻,以指數增長的全基因組圖譜展示了所有層次(DNA、RNA和組蛋白)的調控。在早期,單個CpG位點可以通過限制性內切酶來測定,然而現在我們已經測量了一萬億個胞嘧啶甲基化位點。在轉錄組、組蛋白修飾、轉錄因子佔用和染色質開放性方面,已經收集了數量同樣驚人的全基因組數據。此外,單細胞轉錄組和表觀基因組數據的數量繼續以前所未有的速度增長。

例如,基於許多正常和患病細胞狀態的大量數據,我們現在清楚地瞭解了胞嘧啶甲基化在許多不同生物體中的非隨機分佈。這些圖譜幫助我們更好地理解它與基因表達的關係,包括認識到只有少數啟動子是通常通過這種修飾調控基因表達,而基因經常是靶標,大多數動態變化發生在遠端調控位點。類似的見解存在於許多核心組蛋白修飾研究中,而且總的來說,我們對相關的表觀遺傳學甲基化酶(writer)、閱讀蛋白(reader)、去甲基化酶者(eraser)的瞭解有所增加。在過去的十年裡,我們已經看到了大量的集成和多層表觀基因組分析,提供了相當全面的表觀基因組的圖譜景觀,包括它們在發育和疾病中的動態。

現在需要在數據訪問和共享方面進行更多的創新。如上所述,當然不缺乏數據,但能使個別研究人員產生需要改進的工具來訪問和瀏覽這些數據。在過去的十年中,諸如ENCODE、Roadmap Epigenomics Project和Blueprint Epigenome等大型協同項目啟動了這類研究,但現實是數據並不是每個人都可以觸及的。

此外,儘管幾十年來表觀遺傳學取得了穩定的進展,而且最近還在加速,許多科學家仍在不懈努力。一個重要的問題仍然是觀遺傳修飾對分子的協調和發育功能的影響。例如,基因的胞嘧啶(C)甲基化已經被保存了超過10億年,但它們的精確功能仍在調查中!在全球脊椎動物中基因組甲基化是如何發生以及為什麼發生的?與無脊椎動物相比產生的是選擇性甲基化?這一修飾的具體功能是什麼?無所不在的甲基化酶是如何被招募到細胞的特定部位的基因組?後者是特別及時的?因為最近的研究表明,增強子,DNA重複序列正在進行的新甲基化和去甲基化活動。此外,胚胎外組織顯示的重定向活動與大多數癌症類型中長期觀察到的DNA甲基化改變具有顯著的相似性。最後,非常清楚的是DNA甲基化對哺乳動物的發育至關重要;但是儘管我們在近三十年前就知道了這一點,我們仍然不清楚發育中的敲除突變體胚胎是如何以及為什麼死亡的。具體的發展要求是對許多組蛋白修飾酶也是如此;然而我們仍然不完全瞭解這些修飾如何準確地相互作用以調控基因表達。10年前,我們似乎有可能用新的測序方法來回答這些問題。然而,在大多數情況下表觀基因組的分析發展成為對許多表觀遺傳層面的極有價值、但仍處於描述性階段的理解。所以有人可能會問,現在有什麼不同?為什麼我們期望在未來幾年回答這些問題?

技術創新一直在生物學中扮演著關鍵的角色,一些廣泛適用的,最近的技術突破將使我們能夠推動未來幾年的進展。這些包括CRISPR-Cas基因編輯系統,用於DNA鹼基編輯、表觀基因組編輯和各種基因組編輯。同樣,新的快速發揮作用的內源性蛋白降解系統已經被開發出來,這進一步增強了我們精確探索其功能。在過去的十年中,成像技術以及細胞和分子生物學也取得了重大進步,從2D到3D類器官培養,到利用染色體構象捕捉技術研究細胞核內的組份。另一個主要的轉變包括我們重新認識到無膜細胞結構是一種廣泛存在的細胞組織機制。特別是,在我們對凝聚物的形式和功能,包括轉錄調節的理解上已經有了許多進展。再加上DNA上組蛋白修飾的已知特性,以及許多表觀遺傳調控因子也包含本質上紊亂的區域的事實,可以合理地假設這些物理性質將對我們對染色質的理解產生重大影響。重要的是,拓撲結構的改變已經被認為與疾病有關,並且最近類似的研究連接被報道。這可能會是未來幾年令人興奮的領域!

最後,我們的研究繼續越來越依賴於多學科技能,隨著數學、物理、化學和計算機科學在生物學中扮演著越來越重要的角色,這將需要對訓練和機構組織進行一些重思考來實現我們的目標。展望未來,我們將需要更多的功能整合,這部分是由於上述選定的發現現在很容易處理。特別是,更精確的對基因活性的干擾,對於許多染色質調節因子來說,應該被分離為催化和調節功能,再加上多層分辨率的讀數,將使我們更接近所需的洞察。最近我們用單細胞組分辨度層面來證明表觀調控突變體表型的說明這一點。通過這些研究,我們可以瞭解表觀調控因子如何與環境相互作用來影響或保護機體的表型,將詳細的分子遺傳學與表觀遺傳現象的經典理論聯繫起來。隨著DNA5-甲基胞嘧啶修飾發現100週年的臨近,我們似乎可以希望至少在表觀基因組的某些層面上宣佈,我們完全理解了它們運作的規則。這可能使探索更精確的治療干預成為可能,例如通過重定向染色質修飾因素而不是阻斷它們在正常狀態和疾病狀態之間的普遍催化活性。當然,回顧10年前的預測,人們應該可以預見到還有許多無法預見的進展,這些進展和當時一樣難以預測。

09

Howard Chang構建lncRNAs知識體系

長鏈非編碼RNA (lncRNAs)是許多真核生物轉錄本的主要成分。儘管過去十年的研究已經揭示了許多lncRNAs的調控機制和對疾病的影響,但絕大多數lncRNAs仍然是神秘的。最根本的挑戰是我們缺乏系統地技術和方法將lncRNAs序列轉化為認知其功能。下一個10年lncRNAs的研究進展可能來自於從“閱讀”(測序)到“書寫”(發掘功能)lncRNAs的思維模式轉變。基因調控曾經被認為是蛋白質研究的專屬領域。多疾病診斷和治療的努力幾乎全部集中在編碼蛋白質的基因上,而忽略了絕大多數的基因組。

目前估計人類基因組編碼近60000個lncRNAs,含有幾百個到數萬個鹼基,這些lncRNAs顯然沒有編碼蛋白質的功能。過去十年的研究發現,許多lncRNAs作用於染色質修飾機制和基因組之間的界面。特定的lncRNAs可以作為引導、支撐或誘餌來控制招募染色質修飾酶或轉錄因子集合到DNA上,或者從DNA中去除。lncRNAs也可以激活沉默基因,這些RNA可以通過Cis(順式)和Trans(反式)的方式靶向鄰近基因。對單個lncRNA的詳細分析表明,lncRNA由模塊化的RNA基序組成,使一個lncRNA能夠連接閱讀、書寫或擦除特定染色質標記的蛋白。這些發現極大激發了lncRNA的研究興趣,目前世界各地的實驗室都在研究lncRNAs在不同生命系統的作用,範圍從調控植物開花時間延申到人類遺傳疾病的突變。

儘管如此,到目前為止值得注意的進展可以看作是一件軼事——每個lncRNA都有自己的故事。當一個新的lncRNA序列在基因組數據庫或RNA測序中被鑑定出來時,我們仍然不知道當這個lncRNA被移除後,細胞或有機體會發生什麼(如果有的話)。事實上,在過去的20年裡的實驗研究策略裡面,“解讀”lncRNAs的工作一直佔據主導地位。在ENCODE計劃,FANTOM計劃和新興的細胞圖譜技術已經繪製了lncRNAs的轉錄本景觀、轉錄本異構體,以及最近的單細胞轉錄組測序繪製lncRNAs表達圖譜。現在這些強大的數據與基於基因組規模的CRISPR技術結合起來,一次性敲除成千上萬個lncRNAs,進而觀察可能的細胞缺陷。然而,許多挑戰仍然存在,積極性的應答需要進一步的探索性的研究來確定可能的lncRNAs作用機制,而且我們缺乏一個原則性的策略來結合lncRNAs敲除技術來解決“遺傳冗餘”和“遺傳補償”難題。

從“閱讀”到“書寫”長的RNA腳本是一個潛在的富有成效和互補的方向。在對lncRNAs的RNA序列和二級結構進行系統分析的基礎上,我們等人認為lncRNAs中的信息類似於廣告牌上的信息(關鍵字和口頭語重複出現)而不是精心推敲的法律文件(其中每個逗號都很重要)。小的RNA單位在lncRNAs內重複,在lncRNAs公告板中構建意義,但這些RNA形狀可以在不影響意義的情況下按不同順序或位置重新排列。這些見解使得科學家們能夠從不同物種中識別出具有相同功能的lncRNAs基因,儘管它們的初級序列幾乎沒有相似之處。此外,研究人員能夠將lncRNAs縮小到其基本的單元(單個鹼基),這些關鍵的重複單元和原始lncRNAs的1/10大小,仍然在體內發揮作用,控制整條染色體的染色質狀態。最後,人工合成lncRNAs成為可能。通過在精心選擇的RNA模板中加入RNA重複單元,研究者們開始在生物體內設計調節染色質狀態的lncRNAs,足以部分地挽救生理學上的lncRNA敲除帶來的缺陷,或將lncRNAs靶向到細胞內特定位置。

從“閱讀”到“書寫”lncRNAs的轉變將在技術前沿方面挑戰我們,並且帶來潛在的革命性技術。目前大規模並行報告基因分析技術是建立在將短序列插入到基因組的基礎上。建造數以萬計的lncRNAs合成物需要精確的長序列DNA或RNA合成方法。這些序列將被放置到基因組中適當的位置,並被控制以獲得適當的發育表達、剪接模式和RNA修飾。一項利用通常沉默女性細胞中第二條X染色體的XIST lncRNAs來沉默唐氏綜合徵患者體內細胞中異位染色體的里程碑式研究,突出了生物醫學的特殊意義!

隨著lncRNAs領域大規模合成和測序技術的發展,我們可以實現高準確度測序RNA的序列,加強我們重複單元中的基因信息內容的理解。未來十年將是構建 lncRNAs和創造全新工具來研究基因功能生物學和醫學的激動人心的時期!

10

Núria López-Bigas公平利用基因組學追蹤致癌機制

癌症研究可能是從基因組學在技術和方法上的進步中獲益最多的領域之一。在不到20年的時間裡,該領域見證了令人震驚的腫瘤患者的癌症基因組、表觀基因組和轉錄組數據,包括bulk測序和最近單細胞水平測序。作為一名癌症研究人員,我的夢想是充分了解細胞走向惡性增殖的所有路徑。個體生命、組織和特定的細胞發生了哪些事件,導致有些細胞的惡性轉化。當然,我並不期望得到一個確定性的答案,因為這不是一個確定性的過程。相反,我們應該致力於對驅動腫瘤發生的關鍵事件有些定量或概率性的理解。我們有有確鑿的流行病學證據表明,吸菸會增加患肺癌的可能性,曬太陽會增加患黑色素瘤的可能性,一些抗癌治療會增加繼發腫瘤的可能性。但是在分子和細胞水平上,哪些特定的機制會影響這些癌症發生率增長呢?

癌症基因組學的第一個明確目標是對不同組織中涉及腫瘤發生的所有基因進行收錄。雖然這是一項艱鉅的任務,但實際上是可行的!通過分析腫瘤中基因的突變模式,我們可以識別出那些明顯偏離自然預期的基因,這表明這些突變提供了在腫瘤發生中具有選擇性優勢,因此是腫瘤驅動突變。我們可以想象,在未來,通過對數以百萬計的腫瘤基因組序列進行系統分析,這個目錄越來越接近完成。為了實現這一點,我們不僅需要擴大基因組測序的規模,但更重要的是,必須使數據結果公平(可查找、可訪問、可操作、可重複使用)。為此,促進基因組數據共享的聯盟和倡議,如Beyond 1 Million Genomes聯盟,the GA4GH或者the cBioPortal for Cancer Genomics都是必要的。

值得注意的是,對癌症發生過程中涉及的基因和突變進行分類,雖然是非常重要的第一步,但距離理解它們如何以及在何種條件下驅動腫瘤發生的最終目標還很遙遠。用達爾文學說來解釋癌症的發展進化過程幫助我們找到了通向最終目標的道路。就像對任何達爾文的進化過程來說,它的兩個關鍵特徵都是變異和選擇。由於過去15年的癌症基因組學,我們現在對不同組織細胞間體細胞遺傳變異的起源有了更好的理解。這項工作研究了腫瘤中突變的數量、類型和基因組分佈的可變性,為了解個體不同組織中的體細胞變異提供了一扇窗。此外,最近的研究對健康人的不同組織中的細胞基因組進行了測序,顯示突變在成百上千的細胞中積累。這些研究還在健康組織中發現了某些基因的正向選擇。因此,正向選擇是一個普遍的過程,不僅在腫瘤的發生,而且在健康的組織,它是一個皮膚,食道,血液和其他組織體細胞發育的標誌。舉個例子,無性系造血:它源於連續的達爾文進化過程,在這個過程中,隨著時間的推移(隨著人類年齡的增長),某些血液中的造血細胞隱藏著發育突變基因,如DNMT3A和TET2,在細胞發育方面勝過其他細胞組件。這一過程是正常造血發育的一部分。只有當這一過程失去控制,導致血液中出現白血病或實體組織中出現惡性腫瘤時,問題才會出現。為什麼只有在極少數情況下變異和選擇之間無處不在的相互作用會變得不可控制並導致全面的腫瘤發生?除了已知的致瘤突變外,哪些事件驅動了這一過程?

如果說近年來我們學到了什麼,那就是幾乎所有的腫瘤都有驅動突變,這意味著驅動基因組事件是必要的。然而,他們顯然不足以導致腫瘤的發生,那麼其他的誘因是什麼呢?吸菸者的肺細胞或接受化療的病人的造血細胞中發生了什麼當化療增加了他們惡性增殖的機會。選擇性約束下的表觀遺傳修飾和變化,比如進化生物學的瓶頸,又例如化療的時間,可能是回答一部分問題。

在不久的將來,我的夢想是看到癌症基因組學數據的進一步增加,以幫助我們逐步解析組織中變異和選擇引起腫瘤發生的機制,也可能闡明其他隨年齡增長引起的疾病。

11

Eran Segal將基因組學應用到醫學

過去的20年在基因組學是非凡的。我們開發了高通量測序,並學會了如何使用它高效地測序全基因組,繪製基因表達圖譜,表觀基因組圖譜,甚至在單細胞水平上測序。利用這些能力,我們創造了前所未有的新型基因組目錄,包括幾乎所有生命的DNA功能元件和非編碼RNA。但是,也許除了癌症和某些單基因疾病的基因治療外,基因組學尚未兌現其對我們日常生活產生影響的承諾。例如,藥物和診斷方法仍在以傳統的方式開發,通常通過在動物體內進行篩選實驗來發現靶標,而沒有涉及到任何基因組學的步驟。此外,當全球COVID-19大流行爆發時,正在傳播的SARS-CoV-2冠狀病毒(SARS-CoV-2)的基因組被迅速測序,但仍不清楚為什麼一些感染者表現出嚴重疾病,而其他人沒有。

的確,我們的下一個挑戰是將這些令人難以置信的資源和技術用到基因組學中加深對健康和疾病更好的理解。這種對基因組學的理解將使醫學向個性化醫療的轉變,這預言了個體化治療的未來,即根據病人的獨特特徵,在正確的時間為正確的人提供正確的藥物。如果我們繼續關注越來越多的測序數據,建立越來越多的圖譜和目錄,我們可能會被越來越多的數據和相關發現淹沒。沿著這條路走下去會導致無止無盡的努力,因為bulk測序可以被單細胞測序取代,或者在更高的時間和空間分辨率下測量,跨越更多生物背景。

相反,我們應該利用基因組學來解決一些懸而未決的大問題,比如是什麼導致了我們在表型、疾病使用和藥物反應上的不同?遺傳、表觀遺傳、微生物和環境因素的相對作用是什麼?它們的影響是如何被調節的,不同的干預會有什麼影響。最終,我們應該努力利用基因組學產生可操作的和個性化健康醫療。我們現在正處於基因組學的拐點,這是歷史上第一次我們人類可以應用它來研究人類生物學,實現這些偉大的目標。

在細胞水平上,我們可以使用患者的iPS細胞來構建多種疾病的細胞模型,並根據檢測細胞和分子(例如,基因表達和表觀遺傳學)對現有藥物和藥物組合的應答,實現優化治療。我們甚至可以使用大規模並行分析,分別測量成千上萬的人工精心設計的突變對每個人的影響,包括特定的與患者相關的突變,例如在檢測所有臨床鑑定的TP53突變對細胞功能的影響。檢測編碼轉錄因子突變和信號分子的影響,和其他基因可以揭示信號通路和基因調控網絡研究,用以識別假定的治療靶點。在神經退行性疾病等尚不為人所知的領域應用這種方法,可能會特別有效。

但是,我們可以更有信心直接描繪大量的人類個體組學圖譜。由於分子變化通常先於臨床疾病表現,縱向檢測結合臨床表型非常有潛力確定新的疾病診斷和治療靶點。事實上,追蹤數十萬個體大樣本的生物庫最近已經出現,而且被證明信息量是非常高的。然而,在分子水平上,他們迄今為止的重點仍然是遺傳學。技術的進步和成本的降低使我們能夠獲得測序深度更深的個人個性化的多組學數據,包括轉錄組、蛋白質組、甲基化組、微生物組、免疫系統和代謝組。擁有同一個體在多個時間點上的這些數據,可以揭示哪個基因組層導致每種疾病更混亂,提供更多信息,並確定分子標記與疾病之間的關聯。

使用這些來自人類群體的組學數據的挑戰是確定哪些關聯是因果關係。解決這個問題的一種方法是明智地選擇所研究的本質和表型關聯性。例如,在處理微生物組數據時,我們可以從研究物種組成水平延申到細菌基因SNPs水平的分析。這種關聯更具體,更有可能確定因果關係,如細菌基因dadH中的SNP,它與治療帕金森病的主要藥物代謝和患者腸道微生物群相關。另一種方法是使用縱向檢測數據中模擬目標試驗的時間測量和分離。例如,我們可以從數據子集種選擇幾個已知風險因素(例如,年齡或體重指數)來匹配一個感興趣的標記(例如,基因表達或表觀遺傳標記的存在),並比較未來的疾病發生或者發展。類似地,回顧性分析隨機臨床試驗參與者的多組學數據可能識別那些標記以區分有藥物反應者和無反應者,並用於患者分層或確定其他假定的靶標。

最終,從觀察組中鑑定出的生物標誌物需要進行隨機臨床試驗,以確定因果關係並評估療效。就從人類身上提取的微生物菌株而言,我們或許可以跳過動物試驗,直接進行人體試驗。在其他在操作人類基因等情況下,在進行人體臨床試驗之前,我們需要先進行細胞培養實驗和動物試驗。然而,在所有情況下,被測試的基因組目標應該已經在人類個體中顯示出關聯,從而使它們更有可能在臨床試驗中相關和成功,就像藥物靶點一樣遺傳證據表明他們與這種疾病有關。

除了這些科學挑戰之外,還有一個挑戰,那就是讓公眾、不同的種族和社會經濟群體參與到這樣大規模的多基因組分析研究中來,甚至在我們能夠展示它們之前直接的好處。我們可以從信息性總結報告的形式開始鼓勵數據測序,並逐漸向謹慎和負責任地傳達可操作的見解隨著我們知識的逐漸更新。

克服上述挑戰並不是一件容易的事,但隨著基因組學在過去20年裡取得了驚人的進步,現在可能是解決這些問題的時機。成功可以使基因組學不再被應用主要用於研究,而使其成為醫學不可分割的一部分!

12

Jin-Soo KimCRISPR基因編輯技術應用到臨床

在過去的幾年中,基因組編輯技術已經日趨成熟,特別是因為CRISPR系統的重新利用。基因組DNA可在體內或體外高效率和精確性靶向修飾基因組,有可能使治療性基因組編輯技術用於遺傳性和非遺傳性疾病的治療。用於基因組編輯的三種可編程核酸酶,即鋅指核酸酶、轉錄激活子樣效應核酸酶和CRISPR核酸酶,目前均在臨床研究中。在未來幾年裡,我們將能夠了解這些基因組編輯工具是否足夠有效和安全,以治療包括艾滋病毒感染、白血病、血液病和遺傳性失明在內的一系列疾病,這將預示著醫學的一個新時代。

如果新的藥物或治療方法的發展歷史,如基因療法和單克隆抗體有些指導,治療性基因組編輯的旅途可能會很顛簸,但最終還是值得嘗試的。與可編程核酸酶的醫學應用相關的關鍵問題是它們的傳遞方式、特異性、靶向活性和免疫原性。

首先,基因或mRNA的體內傳遞(或直接傳遞到患者體內)編碼可編程核酸酶或預組裝Cas9核糖核酸蛋白可能是一個挑戰,因為這些核酸酶尺寸太大。一般來說,體外(或間接)輸送比體內輸送更有效,但僅限於從血液或骨髓中提取細胞,這些細胞可以輕鬆採集,在體外編輯,再輸回患者體內。納米顆粒和病毒載體的不斷髮展有望增強和擴大目前輸送系統難以獲得的組織或器官的體內基因組編輯,比如大腦。

其次,可編程核酸酶,包括CRISPR核酸酶,可導致不需要的靶向突變和脫靶問題,這可能導致腫瘤的發生。有幾種基於細胞的和非細胞的方法已發展,以無偏差的方式鑑定全基因組CRISPR脫靶位點。但是,由於當前測序技術固有的錯誤率,在細胞群中鑑定低頻率突變(小於0.1%)位點脫靶仍然是一個挑戰。即使在靶向位,CRISPR-Cas9也能誘導如染色體大片段缺失等意外結果。這將會非常重要的去理解不尋常的靶標活性背後的機制,並衡量和減少此類事件的發生頻率。

最重要一點,Cas9和其他可編程核酸酶可能是免疫原性的,可能會導致意外的先天和適應性免疫反應。在這方面,最初的臨床試驗將重點放在Cas9核糖核酸蛋白的體外傳遞到T細胞或在眼睛,這樣的基因編輯上體系是很有意義的。Cas9表位編輯或從非致病性細菌中提取的Cas9新同源基因編輯可以避免部分免疫反應,在體內那些很少或沒有免疫特權組織或器官利用基因組編輯提供治療模式。

基因編輯技術是有望克服核酸酶介導的基因組編輯的限制的新方法。鹼基編輯器和啟動編輯器分別由一個Cas9切割酶,而不是野生型Cas9核酸酶,以及一個核酸脫氨酶和一個逆轉錄酶組成。因為切割酶不同於核酸酶,它會產生DNA單鏈斷裂或缺口,但不會產生雙鏈斷裂(DSBs),鹼基編輯器和啟動編輯器不太可能導致大片段的靶向,以及對靶向和脫靶引起的DSBs進行非同源末端連接修復(NHEJ)導致染色體重排。此外,當涉及到基因編輯而不是基因擾亂時,這些新型基因編輯器比產生DNA雙鏈斷裂修復的核酸酶更有效、更“乾淨”,因為它們既不需要供體DNA供體,也不依賴於容易出錯非同源末端連接修復(NHEJ);在人類細胞中,DSBs優先由NHEJ修復,導致小的片段插入缺失(indels),而不是通過需要供體的DNA的同源重組修復。

基因編輯技術也很適合胚系編輯和子宮內編輯(即在胎兒的基因組進行編輯),但是應謹慎進行,應充分考慮倫理、法律和社會問題。原則上,CRISPR-Cas9可以用於校正人類胚胎中的致病性突變;然而,供體DNA在人類胚胎中很少被用作修復模板。復發或非復發的從頭突變是絕大多數遺傳疾病的原因。母體血液中的cfDNA可以用來檢測胎兒的這些從頭突變,而這些從頭突變在父母基因組中是不存在的。一些從頭突變甚至在出生前就表現出來,導致出生後流產、殘疾或早逝;這時對新生兒進行基因編輯往往為時已晚,而且效率低下。這些突變可以在子宮內利用記憶編輯技術進行糾正,既不引起不必要的插入缺失,也不依賴低效的同源重組。與胚系編輯或植入前遺傳診斷相比,如果在未來在子宮內編輯中被證明是安全和有效的,應該在倫理上更容易被接受,因為它不涉及創造或破壞人類胚胎。

正如它們的前景和潛力一樣,當前版本基因編輯技術可以進一步優化和改進。例如,Cas9在微生物中進化為一種核酸酶而不是切割酶。當前用於鹼基編輯(D10A SpCas9變體)和啟動編輯(H840A變體)的Cas9切割酶可以被設計來增加它們的活性和特異性。同時,鹼基編輯器和主編輯器中的脫氨酶和逆轉錄酶部分可以被設計或替換為合適的同源基因,以提高基因組編輯的效率和範圍。已有研究表明,鹼基編輯器可以導致引導RNA依賴和引導RNA不依賴的DNA或RNA脫靶突變,這引起了人們對其在醫學上應用的擔憂。主要編輯還可能導致不需要的靶向編輯和脫靶事件,在轉向治療前必須仔細研究應用技術。生物醫學研究人員現在技術裝備齊全、擁有強大的基因組編輯工具。我希望這些工具能夠被開發出來在兩者中得到更廣泛的應用於未的科學研究和醫學。

參考文獻:

The road ahead in genetics and genomics.Amy L. McGuire, Stacey Gabriel, Sarah A.Tishkoff, Ambroise Wonkam, Aravinda Chakravarti, Eileen E. M. Furlong , Barbara Treutlein, Alexander Meissner, Howard Y. Chang, Núria López-Bigas,Eran Segal and Jin-Soo Kim,2020,Nature Reviews Genetcis


分享到:


相關文章: