又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources


又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

2020年2月3日,内蒙古农业大学食品科学与工程学院骆驼研究团队吉日木图课题组与安诺基因联合,在Molecular Ecology Resources在线发表了题为“Chromosome-level assembly of wild Bactrian camel genome reveals organization of immune gene loci”的研究论文。该研究利用二代、三代及Hi-C辅助组装相结合的测序策略,组装获得了连续性好、准确度高的染色体水平的野生双峰驼基因组,并基于组装的参考基因组,对骆驼科动物中免疫相关基因位点的结构进行了深入分析。内蒙古农业大学食品科学与工程学院明亮博士为第一作者,安诺基因刘涛为该文章共同合作作者。

又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

研究背景

骆驼科动物是目前唯一能够产生重链免疫球蛋白(IGs)的哺乳动物。重链抗体分子量小,在水溶液中稳定、可溶,对部分抗原具有高亲和力,是许多生物医学应用的理想工具。近来发现,重排后的TRDV和TRGV基因中频繁发生的体细胞超突变会增加骆驼科动物(单峰驼)中T细胞受体(TCR)的多样性。值得注意的是,在哺乳动物中,通常只有IGs位点会存在体细胞超突变现象,在TCR中极少出现。并且,虽然TCR V基因的体细胞超突变增加了TCR的多样性,但调控抗原产生的部分MHC基因在Old World camles中的遗传多样性却远低于预期。一个完整、连续、准确的参考基因组对于探究免疫系统的分子作用机制及多样性至关重要。但现有已发表的骆驼科动物的基因组草图多基于短读长组装,其连续性和完整度有限。而多数免疫基因位点重复性高、序列长,基因注释过程中会产生较多片段,在一定程度上限制了后续研究。

主要研究结果

基因组组装及质量评估

该研究以野生双峰驼为研究材料,利用PacBio测序获得了125.56 Gb subreads,其中N50 12.82 Kb,拼接获得了4,402条Contigs,最终组装了大小2.09 Gb的野生双峰驼基因组,其中,Contig N50 5.37 Mb,Scaffolds N50 76.03 Mb。BUSCO评估高达95.6%,基因组完整性良好。随后,研究人员以雌性野生双峰驼为材料,构建了Hi-C数据库,借助LACHESIS对基因组草图序列进行聚类、排序和定向。最终,将2,382条Contigs挂载到了37条染色体上,挂载率96.5%。对基因组覆盖度评估发现,组装基因组的各项指标均优于已发表骆驼基因组(CB1和MBC1),基因组的连续性得到了大幅提高,并且没有引入过多的拼接错误,可用于后续分析。


又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

图1 野生双峰驼染色体水平的组装结果

免疫球蛋白基因位点

重链免疫球蛋白由IGH编码产生,目前为止,仅在羊驼基因组中解析获得了IGH基因位点。该研究利用不同物种的IGH序列,借助复杂的生信流程对组装的双峰驼基因组中的IGH基因进行分析,发现双峰驼基因组中的IGHD、IGHJ、IGHC和IGHV基因聚集在6号染色体一端的基因位点上(图2a)。其中,IGHD-J簇和除IGHG3外的大多数IGHC基因共定位在一个Contig上,且其基因数量和序列与羊驼相似。值得注意的是,有3个IGHC基因(IGHG2A/2C和IGHG3)第一个外显子的供体剪接位点侧翼处的GT至AT突变使得其能够编码重链抗体,但IGHG3基因并未与其他IGHC基因成簇,而是位于组装基因组的另一个Contig中(图2a)。V区在野生双峰驼和羊驼之间的序列保守性较低,可能是物种分化过程中抗原结合位点发生了快速进化。在双峰驼中,17个IGHV基因中有4个基因的第二个阅读框中的四个氨基酸(V42Y/F、G49E、L50R/C、W52F/G/L)能够发生替换,使得IGHV基因具有即可编码重链抗体又可编码常规抗体能力,即混合的(intermixed)IGHVs基因组成是野生双峰驼能够同时能够产生重链抗体和常规抗体的主要原因。

又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

图2 免疫球蛋白位点的基因结构

TCR基因位点

体细胞超突变是骆驼科动物(单峰驼)TRG和TRD可变域内多样性产生的主要原因,这是骆驼科动物免疫系统所独有的特点。但体细胞超突变通常发生在哺乳动物的B细胞,T细胞中几乎不存在。在双峰驼中,也仅在7号染色体上发现了两个长度跨越45kb左右TRG cassette,每个cassette均由一个TRGV基因,一个TRGJ基因和一个TGRC基因组成(图3a)。虽然上游还有另外一个cassette,但它更像是带有TRGC的假基因。

对于TRD位点而言,其基因数虽较少,但由于与TRA共定位,基因结构较复杂。研究人员在6号染色体的一个Contig中找到了TRA和TRD位点的完整区域(图3b),发现TRDV-D-J转座子嵌套在TRAV基因中,其中含有三个TRDV亚组(TRDV1,TRDV2和TRDV3),七个TRDD基因和四个TRDJ基因。

此外,组装基因组中虽还存在大量的TRAV和TRBV基因,但由于体细胞超突变不适用于TRA和TRB,因此认为生殖谱系(germline pools)可能是多样性产生的主要来源。TRA位点全长约为600 kb,包含27个TRAV功能基因,54个TRAJ功能基因和一个TRAC基因(图3b)。位于7号染色体上TRB位点长度超过300 Kb,其中有35个TRBV功能基因分布在五个连续的Contigs上(图3c)。

又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

图3 TRC位点的基因结构

传统的MHC区域

MHC区域是基因组中基因密度最大、多态性最强的区域之一,组装难度较大。由于骆驼基因组中MHC遗传多样性极低,目前只有一小部分Class I和Class II基因被鉴定出来。在双峰驼中,MHC区域分布于20号染色体的一个Contig中,其核心亚区I、III、II长度跨越约2.5 Mb左右(图4)。除II亚区外,双峰驼的MHC结构与牛总体相似(牛的II亚区被较大的物理距离分开,而在骆驼中该区域相对较近),这暗示着该区域的结构变异可能发生在骆驼科动物和其他反刍动物发生分歧之后。研究人员在500 Kb区域内鉴定到了两个分离的I类MHC簇(图4),其中有10个MHC I类基因和类I基因,包括已发表的基因组中提到的那些基因(B-67-like,BL-3-7-like和MICA-like)。II区主要由嗜乳脂蛋白(butyrophilin)和II类MHC基因组成(图4)。III区则是与免疫相关的各种基因簇,如淋巴细胞抗原、补体因子和肿瘤坏死因子,其中大多数基因与牛是直系同源基因。在此过程中,研究人员还鉴定出了完整的传统II类基因和其他类型的II基因,完善了MHC区的基因图谱。

又一力作!安诺助力骆驼基因组刊发Molecular Ecology Resources

图4 野生双峰驼和牛的经典MHC区域比对图

文章总结

骆驼科动物是目前唯一能够产生重链免疫球蛋白(IGs)的哺乳动物,但其免疫基因位点的重复序列较多,使用短读长测序难以获得准确信息。该研究利用三代测序结合Hi-C辅助组装技术,组装获得了连续性好、准确度高的染色体水平的野生双峰驼基因组。将所有的IG和TCR位点都定位到了特定的染色体上,且其中大多数(IGK/IGL/TRG/TRA/TRD)和经典的MHC基因位点都被准确定位到了没有gap的Contig中。尽管双峰驼的V基因表现出了较大的变异性,但这些位点的基因组结构在骆驼科动物中是保守的。对于IGHV和TRBV簇中仍存在的缺口,后续可通过靶向扩增子测序以获得更完整的野生双峰驼种系库。


安诺基因配备了一系列先进的分子生物学仪器设备,实现了从样本提取、文库制备到上机测序的全自动化操作,先进的三代PacBio(7台Sequel II+10台Sequel)测序平台,保障测序工作高效、快速的开展;专业的生物信息分析团队,丰富的项目分析经验,为数据分析提供有力支持和保障。安诺基因已与中国农业大学、中科院遗传与发育所、中国海洋大学、中国农业科学院、福建农林大学等多家科研院所开展了深度合作,助力基因组文章发表于Nature、Nature Plants、Nature Communications、Molecular Plant、Communications Biology、The Plant Journal等多个国际高水平期刊。


分享到:


相關文章: