【信息科學卷No.02】破譯基因表達的調控密碼

【導讀:基因表達調控的“密碼”可能十分複雜,既涉及複雜的生物學機制,也涉及複雜的信息編碼、信息傳遞和信息表達過程,需要多學科交叉去探索這樣一個複雜的系統。這是·[情報通]·科普系列文章,歡迎閱讀】

人類基因組計劃的標誌性成果就是獲得一本“生命天書”,這本天書的載體就是我們的基因組,其既簡單,又複雜。簡單是因為它僅由A、T、C、G等4個字母構成;複雜是因為它包含了人類生長髮育的所有信息,隱含了我們生老病死的規律。人從一個受精卵分裂成多個細胞,進而在不同時間、不同位置上分化為各種類型的細胞,構成組織和器官,直到發育成一個完整的個體,這個過程受到嚴格的程序控制,任何差錯都有可能導致嚴重的缺陷和疾病,而控制著這一切的遺傳信息都記錄在基因組DNA的雙螺旋分子中。通常,人體中的每個細胞都含有相同的基因組DNA,但在不同類型的細胞中,能將遺傳信息表達出來的基因各不相同,從而能夠讓各類細胞行使不同功能。生命的信息究竟是如何組織在基因組中,如何實現對基因表達的精確控制呢?這是目前科學研究者所關注並努力探索的重大科學難題。

1.基因組的兩類信息

基因是指攜帶有遺傳信息的DNA序列,基因表達是指DNA轉錄為RNA,RNA翻譯成蛋白質的過程。基因組編碼有兩類主要信息:一是編碼蛋白質的基因;二是引導基因在特定時空表達的調控信息。20世紀60年代,科學家揭示了基因的信息編碼方式,即三聯體密碼。基因密碼最早在簡單的生命體細菌中被發現,這種基本的遺傳指令為所有生命所共享。基因密碼的發現拉開了在分子水平上進行生命信息科學研究的序幕,啟動了人類探索遺傳語言奧秘的進程。基因組DNA序列並非是一種簡單的生物分子序列,而是一種語言的表示形式,該語言以特殊的方式組織和編碼生命的遺傳信息,控制生物體的生長髮育過程,控制生物體的性狀。DNA分子通過複雜而準確的信息複製、信息傳遞和信息表達,構成不同類型的細胞,形成不同的組織和器官,最終發育成為完整的生命體,一個具體的生命體是基因組信息的生動表現。從20世紀90年代以來,隨著基因組學研究的不斷深入,人們對基因組中信息組織結構和信息組織規律的認識也在不斷深化。在人類基因組計劃開始前,科學家們估計人類至少擁有十萬個基因。然而基因組測序結果表明,人的基因組僅包含兩萬多個基因。相比之下,就連低等動物線蟲的基因組也有近兩萬個基因,而且大部分基因編碼的蛋白質與人類基因非常相似。顯然,基因的數量並不能反映生物體的複雜程度。隨著研究的深入,人們逐漸認識到在物種進化過程中,調控機制的演變起著關鍵性作用,越高等的生物,其基因表達的調控機制就越複雜、精細,能在特定時間和特定細胞中激活特定的基因,按照預先設定的程序進行增殖、分化和行使生理功能。在人類基因組中,蛋白質編碼基因僅佔基因組總長度的1.5%,而在剩餘的非編碼序列中,蘊藏著調控基因表達調控的重要信息,這些信息引導細胞在特定的時空執行基因指令,合成蛋白質產物。

從信息學的角度來看,蛋白質編碼序列包含的信息相當於製造生命機器的“藍圖”,或者說相當於待處理和加工的合成蛋白質產物的“數據”,而非編碼序列中的調控信息則相當於“程序”或“指令”,這些程序指導如何實現“藍圖”,指定如何對“數據”進行加工和處理,確定如何在不同時間和不同空間調節基因表達,控制蛋白質合成。基因組DNA序列好比是計算機上的一串代碼,但不是儲存在電子芯片上的0、1代碼,而是儲存在染色體上的四字符代碼串。在計算機中,數據與程序是相對分立的,而在染色體上,它們則是相互嵌套的,也就是說,蛋白質編碼信息和表達調控信息是融合在一起的。如同計算機程序對輸入數據處理以後產生輸出結果一樣,染色體上的基因經過調控程序的解碼和翻譯產生蛋白質機器,從而發揮生物學功能。無論是數據還是程序,都屬於信息,但它們的作用不一樣,信息組織的規律也不一樣。蛋白質編碼基因數據的組織形式就是簡單的三聯體密碼,是我們所熟知的,而關於基因調控指令和調控程序的組織形式我們卻知之甚少。

對基因表達調控的解碼是從根本上認識生命起源和人類生老病死等基本生命現象的關鍵。掌握了其中的規律,就有可能通過干預基因表達、控制細胞的形態和功能,實現對生命的控制和改造。例如,2006年,日本科學家Takahashi等通過改變少數幾個基因的表達,使已分化的成纖維細胞變成與胚胎幹細胞類似的“多能幹細胞”,實現了對細胞的“重編程”,這對疾病治療、器官移植與再造等具有重大意義。

2.真核生物基因表達調控的複雜性

基因編碼指令是原核生物和真核生物所共有的,然而,真核生物具有更加豐富、精細的調控指令系統,這是原核生物所不具備的。首先,真核生物具有複雜的轉錄調控機制,真核基因的轉錄受到多種轉錄因子的作用,它們共同控制著基因的轉錄過程,綜合調節遺傳信息從DNA到RNA的傳遞。其次,真核基因具有明顯的結構特點,其由非連續的編碼序列(外顯子)所構成,這種獨特的結構為真核基因調控提供了更為複雜、精細的調控方式。第三,真核生物具有細胞核和細胞器,形成了不同的功能分區,基因的轉錄與翻譯過程被分離開來,在多個環節進行調控。另外,真核生物基因組具有複雜的染色質結構,基因表達受到表觀調控因素影響。

【信息科學卷No.02】破譯基因表達的調控密碼

3.真核基因表達調控的主要環節

真核基因的表達過程在多個環節、不同層次都受到嚴格調控,而不同層次之間的調控因素會相互影響。例如,染色質的狀態和結構受特定轉錄因子的影響,有的轉錄因子可以介導DNA和組蛋白的化學修飾,而染色質的移動與轉錄因子之間的蛋白質相互作用有關。最近更有研究表明,基因的剪接受到組蛋白修飾和染色質空間分佈的影響。由此可見,轉錄與轉錄後多個層面的調控因素協同作用,構成了極其複雜的調控網絡,共同決定了特定基因在特定發育階段和組織中的表達。這是一個非常精細複雜的過程,一切都按照“程序”有條不紊地進行,其穩定有序性令人驚歎!

4.面臨的挑戰

近年來,DNA深度測序和基因芯片等新技術的出現為科學家大規模測量細胞中基因表達量的高低、轉錄因子與調控序列的相互作用、基因的選擇性剪接等創造了條件,人們能夠以前所未有的速度獲取更加高通量和高分辨率的數據。然而,數據本身是不產生知識的,如何有效挖掘它們、整合多層次信息、建立模型描述和解碼複雜的基因表達調控過程是研究中面臨的難題。從技術上,各種生物學高通量數據的含義、獲取手段、存儲方式、數據質量都不相同,但共同的特點是數量巨大、關係龐雜。如何對這些數據進行有效存取、比較、檢索、運算等基本處理,對計算能力、存儲能力和算法效率提出了挑戰。在此基礎上,怎樣從數據中發現規律、找到聯繫?怎樣將不同層面的數據結合起來構建描述基因表達調控的網絡和系統,並對其進行解析?怎樣將各種分子層面的模式和規律與複雜的發育過程和疾病聯繫起來等?這些都是我們面臨的難題,若要有效解決,需要生命科學與信息科學等多學科的交又研究,從系統的角度對複雜的基因表達調控網絡進行研究,才有可能揭開其中的奧秘。

目前來看,完全解析調控信息編碼則是一個長期的目標,需要我們不懈地努力去接近這個目標。突破這一科學難題具有重大的意義,相關的研究成果不論是在醫學上,還是在人類認識自身方面,以及改造生物、創造新的生命都具有重要作用。

【注:[情報通]致力於成為新時代互聯網優質信息的發佈空間,圖文均源自網絡,如有侵權即刻刪除】


分享到:


相關文章: