PacBioHiFi+HiCanu完成准确度超99.999% ContigN50达77Mb组装结果


最近来自美国NIH的生信科学家在预印本文献上发表了他们最新使用PacBio HiFi Reads组装基因组的数据,文章标题: HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads。研究小组使用HiCanu组装工具(专门针对PacBio HiFi Reads优化了组装流程),对果蝇和人类标准基因组进行了组装,重点探索了PacBio HiFi Reads对基因组单倍型的区分,主要组织相容性复合体(MHC)变异,染色体上卫星区域和片段重复的检测能力。

HiCanu+HiFi 对基因组连续性和准确性的提升

使用30X PacBio HiFi Reads通过HiCanu将人CHM13细胞系的基因组组装的Contig N50 提升至77M,单碱基准确性超过99.999%(Q50)!在组装的准确性和连续性这两个方面,PacBio HiFi Reads的组装结果都超过了最新的高覆盖度超长牛津纳米孔测序的结果。

使用PacBio HiFi和Ultra-Long (Oxford Nanoproe) 组装人CHM13基因组结果对比,都是未经短读长测序数据polis

HiCanu+HiFi对基因组单倍型检测的提升

当组装多倍体时,组装软件必须要能区分不同的等位基因,并将它们保存为不同的序列,以主要Contig和替代Contig的模式表示。对于双倍体人基因组的组装,HiCanu的组装结果包含超过2 Gbp的替代Contig,而其它的组装软件只能产生不到400 Mbp的替代Contig。这说明HiCanu结合HiFi Reads具有更强的区分单倍型的能力。如下图所示,HiCanu组装的主要Contig和替代Contig都具有较高的BUSCO完整性(分别为> 94%和> 75%),而采用超长牛津纳米孔测序的BUSCO完整性分别只有63%和0.3%。并且HiCanu + Pacbio HiFi Reads的Phase Block NG50是高覆盖度超长牛津纳米孔测序的2.5倍!

HiCanu与其它一些组装软件组装双倍体基因组的结果对比,其中HG00733的Haplotype asm hap1(hap2)a和HG002的H

为了评估不同组装工具对难以检测的复杂临床相关等位基因的分型结果,研究小组通过HiCanu+PacBio HiFi Reads得到的六个经典的人类白细胞抗原(HLA)基因的装配分型结果与之前通过多种检测方法获得的已知HG002和HG00733等位基因进行了比较。只有HiCanu和TrioCanu能够恢复具有100%序列同一性的所有等位基因。这也体现出HiCanu+PacBio HiFi Reads对于潜在的复杂临床相关基因的精确检测能力。

HiCanu+HiFi应对复杂片段重复序列

为了评估对片段重复(SD,segmental duplications)序列的组装能力,研究人员使用了BAC文库挑战。被选择的这些BAC文库序列中包含了大量片段重复序列,而片段重复区域又往往是基因组上最难组装的区域之一。经过初步比对,HiCanu+PacBio HiFi Reads在所有组装方案中解析了最多的BAC,并且还实现了最高的BAC对比质量(如下图所示)。

不同测序数据与组装工具在BAC文库挑战中的结果

研究人员针对在CHM13中未能成功解析的BAC进行了深入研究,发现其中有11个BAC本身可能包含组装错误或克隆伪像。手动检查这11个BAC的HiFi组装结果,并没有发现明显的组装错误(如下图所示)。这表明HiCanu+PacBio HiFi Reads实际上成功解析了CHM13 341个BAC中的337个。

人工检查可能本身存在错误的BAC

HiCanu+HiFi对人类染色体着丝粒的组装

使用HiCanu+PacBio HiFi Reads研究人员成功生成了包括CHM13 19号染色体着丝粒在内的共9个人类染色体着丝粒的装配图。CHM13 19号染色体的着丝粒区域被认为是最难组装的着丝粒之一,因为它由多个HOR(Higher Order Repeat)区域组成并与1号和5号染色体的着丝粒区域共享α卫星序列。

HiCanu+PacBio HiFi Reads不仅能够组装一个覆盖整个着丝粒的contig群,而且还可以准确地区分三个不同的HOR区域:D19Z1,D19Z2和D19Z3。在之前的X染色体T2T研究中,为了达到如此完整的人类染色体着丝粒组装结果,需要使用包括高深度超长纳米孔测序,60X PacBio CLR测序和illumina短读长测序的数据共同组装才能达到这样的效果。而现在仅使用一种测序技术,即PacBio HiFi Reads结合HiCanu就能够解析人类染色体着丝粒的结构。

CHM13 19号染色体着丝粒的HiCanu装配。tig00006497的RepeatMasker揭示了位于19号着丝粒(D19Z1,D19Z2α和D

总结与展望

通过这项研究,研究人员已经证明PacBio HiFi Reads结合HiCanu能够生成迄今为止最准确,最完整的人类基因组装配体。也可以应用于其他应用,例如同样也需要高精度Reads的宏基因组组装。HiFi数据擅长解决大型高度相似(但不完全相同)的重复序列。HiCanu+HiFi Reads对人类1号,7号,9号和16号染色体的重建显著改善了先前超长纳米孔测序的组装的连续性。这些染色体包含多个长度超过200 kbp的片段重复,需要PacBio HiFi Reads才能识别变异并分离出单个拷贝。使用PacBio HiFi Reads这一种测序数据就独立完成了人类染色体九个着丝粒区域的装配草图,这也是T2T项目的最难挑战之一。

HiFi Reads的长度对组装结果有很大影响,目前最新的HiFi Reads长度已经可以达到25k。HiCanu在亚马逊云平台上组装一个人类基因组只需要22小时,这还不是目前最快的针对PacBio HiFi数据的组装软件,最快的软件只需要2小时。相信未来随着HiFi Reads的长度不断提高,以及更多针对PacBio HiFi Reads优化的组装软件出现,基因组的从头组装会更快更准。

参考文献:

Nurk S, Walenz BP, Rhie A, et al (2020) HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. doi: 10.1101/2020.03.14.992248