【信息科学卷No.02】破译基因表达的调控密码

【导读:基因表达调控的“密码”可能十分复杂,既涉及复杂的生物学机制,也涉及复杂的信息编码、信息传递和信息表达过程,需要多学科交叉去探索这样一个复杂的系统。这是·[情报通]·科普系列文章,欢迎阅读】

人类基因组计划的标志性成果就是获得一本“生命天书”,这本天书的载体就是我们的基因组,其既简单,又复杂。简单是因为它仅由A、T、C、G等4个字母构成;复杂是因为它包含了人类生长发育的所有信息,隐含了我们生老病死的规律。人从一个受精卵分裂成多个细胞,进而在不同时间、不同位置上分化为各种类型的细胞,构成组织和器官,直到发育成一个完整的个体,这个过程受到严格的程序控制,任何差错都有可能导致严重的缺陷和疾病,而控制着这一切的遗传信息都记录在基因组DNA的双螺旋分子中。通常,人体中的每个细胞都含有相同的基因组DNA,但在不同类型的细胞中,能将遗传信息表达出来的基因各不相同,从而能够让各类细胞行使不同功能。生命的信息究竟是如何组织在基因组中,如何实现对基因表达的精确控制呢?这是目前科学研究者所关注并努力探索的重大科学难题。

1.基因组的两类信息

基因是指携带有遗传信息的DNA序列,基因表达是指DNA转录为RNA,RNA翻译成蛋白质的过程。基因组编码有两类主要信息:一是编码蛋白质的基因;二是引导基因在特定时空表达的调控信息。20世纪60年代,科学家揭示了基因的信息编码方式,即三联体密码。基因密码最早在简单的生命体细菌中被发现,这种基本的遗传指令为所有生命所共享。基因密码的发现拉开了在分子水平上进行生命信息科学研究的序幕,启动了人类探索遗传语言奥秘的进程。基因组DNA序列并非是一种简单的生物分子序列,而是一种语言的表示形式,该语言以特殊的方式组织和编码生命的遗传信息,控制生物体的生长发育过程,控制生物体的性状。DNA分子通过复杂而准确的信息复制、信息传递和信息表达,构成不同类型的细胞,形成不同的组织和器官,最终发育成为完整的生命体,一个具体的生命体是基因组信息的生动表现。从20世纪90年代以来,随着基因组学研究的不断深入,人们对基因组中信息组织结构和信息组织规律的认识也在不断深化。在人类基因组计划开始前,科学家们估计人类至少拥有十万个基因。然而基因组测序结果表明,人的基因组仅包含两万多个基因。相比之下,就连低等动物线虫的基因组也有近两万个基因,而且大部分基因编码的蛋白质与人类基因非常相似。显然,基因的数量并不能反映生物体的复杂程度。随着研究的深入,人们逐渐认识到在物种进化过程中,调控机制的演变起着关键性作用,越高等的生物,其基因表达的调控机制就越复杂、精细,能在特定时间和特定细胞中激活特定的基因,按照预先设定的程序进行增殖、分化和行使生理功能。在人类基因组中,蛋白质编码基因仅占基因组总长度的1.5%,而在剩余的非编码序列中,蕴藏着调控基因表达调控的重要信息,这些信息引导细胞在特定的时空执行基因指令,合成蛋白质产物。

从信息学的角度来看,蛋白质编码序列包含的信息相当于制造生命机器的“蓝图”,或者说相当于待处理和加工的合成蛋白质产物的“数据”,而非编码序列中的调控信息则相当于“程序”或“指令”,这些程序指导如何实现“蓝图”,指定如何对“数据”进行加工和处理,确定如何在不同时间和不同空间调节基因表达,控制蛋白质合成。基因组DNA序列好比是计算机上的一串代码,但不是储存在电子芯片上的0、1代码,而是储存在染色体上的四字符代码串。在计算机中,数据与程序是相对分立的,而在染色体上,它们则是相互嵌套的,也就是说,蛋白质编码信息和表达调控信息是融合在一起的。如同计算机程序对输入数据处理以后产生输出结果一样,染色体上的基因经过调控程序的解码和翻译产生蛋白质机器,从而发挥生物学功能。无论是数据还是程序,都属于信息,但它们的作用不一样,信息组织的规律也不一样。蛋白质编码基因数据的组织形式就是简单的三联体密码,是我们所熟知的,而关于基因调控指令和调控程序的组织形式我们却知之甚少。

对基因表达调控的解码是从根本上认识生命起源和人类生老病死等基本生命现象的关键。掌握了其中的规律,就有可能通过干预基因表达、控制细胞的形态和功能,实现对生命的控制和改造。例如,2006年,日本科学家Takahashi等通过改变少数几个基因的表达,使已分化的成纤维细胞变成与胚胎干细胞类似的“多能干细胞”,实现了对细胞的“重编程”,这对疾病治疗、器官移植与再造等具有重大意义。

2.真核生物基因表达调控的复杂性

基因编码指令是原核生物和真核生物所共有的,然而,真核生物具有更加丰富、精细的调控指令系统,这是原核生物所不具备的。首先,真核生物具有复杂的转录调控机制,真核基因的转录受到多种转录因子的作用,它们共同控制着基因的转录过程,综合调节遗传信息从DNA到RNA的传递。其次,真核基因具有明显的结构特点,其由非连续的编码序列(外显子)所构成,这种独特的结构为真核基因调控提供了更为复杂、精细的调控方式。第三,真核生物具有细胞核和细胞器,形成了不同的功能分区,基因的转录与翻译过程被分离开来,在多个环节进行调控。另外,真核生物基因组具有复杂的染色质结构,基因表达受到表观调控因素影响。

【信息科学卷No.02】破译基因表达的调控密码

3.真核基因表达调控的主要环节

真核基因的表达过程在多个环节、不同层次都受到严格调控,而不同层次之间的调控因素会相互影响。例如,染色质的状态和结构受特定转录因子的影响,有的转录因子可以介导DNA和组蛋白的化学修饰,而染色质的移动与转录因子之间的蛋白质相互作用有关。最近更有研究表明,基因的剪接受到组蛋白修饰和染色质空间分布的影响。由此可见,转录与转录后多个层面的调控因素协同作用,构成了极其复杂的调控网络,共同决定了特定基因在特定发育阶段和组织中的表达。这是一个非常精细复杂的过程,一切都按照“程序”有条不紊地进行,其稳定有序性令人惊叹!

4.面临的挑战

近年来,DNA深度测序和基因芯片等新技术的出现为科学家大规模测量细胞中基因表达量的高低、转录因子与调控序列的相互作用、基因的选择性剪接等创造了条件,人们能够以前所未有的速度获取更加高通量和高分辨率的数据。然而,数据本身是不产生知识的,如何有效挖掘它们、整合多层次信息、建立模型描述和解码复杂的基因表达调控过程是研究中面临的难题。从技术上,各种生物学高通量数据的含义、获取手段、存储方式、数据质量都不相同,但共同的特点是数量巨大、关系庞杂。如何对这些数据进行有效存取、比较、检索、运算等基本处理,对计算能力、存储能力和算法效率提出了挑战。在此基础上,怎样从数据中发现规律、找到联系?怎样将不同层面的数据结合起来构建描述基因表达调控的网络和系统,并对其进行解析?怎样将各种分子层面的模式和规律与复杂的发育过程和疾病联系起来等?这些都是我们面临的难题,若要有效解决,需要生命科学与信息科学等多学科的交又研究,从系统的角度对复杂的基因表达调控网络进行研究,才有可能揭开其中的奥秘。

目前来看,完全解析调控信息编码则是一个长期的目标,需要我们不懈地努力去接近这个目标。突破这一科学难题具有重大的意义,相关的研究成果不论是在医学上,还是在人类认识自身方面,以及改造生物、创造新的生命都具有重要作用。

【注:[情报通]致力于成为新时代互联网优质信息的发布空间,图文均源自网络,如有侵权即刻删除】


分享到:


相關文章: