PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果


PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

最近來自美國NIH的生信科學家在預印本文獻上發表了他們最新使用PacBio HiFi Reads組裝基因組的數據,文章標題: HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads。研究小組使用HiCanu組裝工具(專門針對PacBio HiFi Reads優化了組裝流程),對果蠅和人類標準基因組進行了組裝,重點探索了PacBio HiFi Reads對基因組單倍型的區分,主要組織相容性複合體(MHC)變異,染色體上衛星區域和片段重複的檢測能力。

HiCanu+HiFi 對基因組連續性和準確性的提升

使用30X PacBio HiFi Reads通過HiCanu將人CHM13細胞系的基因組組裝的Contig N50 提升至77M,單鹼基準確性超過99.999%(Q50)!在組裝的準確性和連續性這兩個方面,PacBio HiFi Reads的組裝結果都超過了最新的高覆蓋度超長牛津納米孔測序的結果。

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

使用PacBio HiFi和Ultra-Long (Oxford Nanoproe) 組裝人CHM13基因組結果對比,都是未經短讀長測序數據polis

HiCanu+HiFi對基因組單倍型檢測的提升

當組裝多倍體時,組裝軟件必須要能區分不同的等位基因,並將它們保存為不同的序列,以主要Contig和替代Contig的模式表示。對於雙倍體人基因組的組裝,HiCanu的組裝結果包含超過2 Gbp的替代Contig,而其它的組裝軟件只能產生不到400 Mbp的替代Contig。這說明HiCanu結合HiFi Reads具有更強的區分單倍型的能力。如下圖所示,HiCanu組裝的主要Contig和替代Contig都具有較高的BUSCO完整性(分別為> 94%和> 75%),而採用超長牛津納米孔測序的BUSCO完整性分別只有63%和0.3%。並且HiCanu + Pacbio HiFi Reads的Phase Block NG50是高覆蓋度超長牛津納米孔測序的2.5倍!

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

HiCanu與其它一些組裝軟件組裝雙倍體基因組的結果對比,其中HG00733的Haplotype asm hap1(hap2)a和HG002的H

為了評估不同組裝工具對難以檢測的複雜臨床相關等位基因的分型結果,研究小組通過HiCanu+PacBio HiFi Reads得到的六個經典的人類白細胞抗原(HLA)基因的裝配分型結果與之前通過多種檢測方法獲得的已知HG002和HG00733等位基因進行了比較。只有HiCanu和TrioCanu能夠恢復具有100%序列同一性的所有等位基因。這也體現出HiCanu+PacBio HiFi Reads對於潛在的複雜臨床相關基因的精確檢測能力。

HiCanu+HiFi應對複雜片段重複序列

為了評估對片段重複(SD,segmental duplications)序列的組裝能力,研究人員使用了BAC文庫挑戰。被選擇的這些BAC文庫序列中包含了大量片段重複序列,而片段重複區域又往往是基因組上最難組裝的區域之一。經過初步比對,HiCanu+PacBio HiFi Reads在所有組裝方案中解析了最多的BAC,並且還實現了最高的BAC對比質量(如下圖所示)。

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

不同測序數據與組裝工具在BAC文庫挑戰中的結果

研究人員針對在CHM13中未能成功解析的BAC進行了深入研究,發現其中有11個BAC本身可能包含組裝錯誤或克隆偽像。手動檢查這11個BAC的HiFi組裝結果,並沒有發現明顯的組裝錯誤(如下圖所示)。這表明HiCanu+PacBio HiFi Reads實際上成功解析了CHM13 341個BAC中的337個。

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

人工檢查可能本身存在錯誤的BAC

HiCanu+HiFi對人類染色體著絲粒的組裝

使用HiCanu+PacBio HiFi Reads研究人員成功生成了包括CHM13 19號染色體著絲粒在內的共9個人類染色體著絲粒的裝配圖。CHM13 19號染色體的著絲粒區域被認為是最難組裝的著絲粒之一,因為它由多個HOR(Higher Order Repeat)區域組成並與1號和5號染色體的著絲粒區域共享α衛星序列。

HiCanu+PacBio HiFi Reads不僅能夠組裝一個覆蓋整個著絲粒的contig群,而且還可以準確地區分三個不同的HOR區域:D19Z1,D19Z2和D19Z3。在之前的X染色體T2T研究中,為了達到如此完整的人類染色體著絲粒組裝結果,需要使用包括高深度超長納米孔測序,60X PacBio CLR測序和illumina短讀長測序的數據共同組裝才能達到這樣的效果。而現在僅使用一種測序技術,即PacBio HiFi Reads結合HiCanu就能夠解析人類染色體著絲粒的結構。

PacBioHiFi+HiCanu完成準確度超99.999% ContigN50達77Mb組裝結果

CHM13 19號染色體著絲粒的HiCanu裝配。tig00006497的RepeatMasker揭示了位於19號著絲粒(D19Z1,D19Z2α和D

總結與展望

通過這項研究,研究人員已經證明PacBio HiFi Reads結合HiCanu能夠生成迄今為止最準確,最完整的人類基因組裝配體。也可以應用於其他應用,例如同樣也需要高精度Reads的宏基因組組裝。HiFi數據擅長解決大型高度相似(但不完全相同)的重複序列。HiCanu+HiFi Reads對人類1號,7號,9號和16號染色體的重建顯著改善了先前超長納米孔測序的組裝的連續性。這些染色體包含多個長度超過200 kbp的片段重複,需要PacBio HiFi Reads才能識別變異並分離出單個拷貝。使用PacBio HiFi Reads這一種測序數據就獨立完成了人類染色體九個著絲粒區域的裝配草圖,這也是T2T項目的最難挑戰之一。

HiFi Reads的長度對組裝結果有很大影響,目前最新的HiFi Reads長度已經可以達到25k。HiCanu在亞馬遜雲平臺上組裝一個人類基因組只需要22小時,這還不是目前最快的針對PacBio HiFi數據的組裝軟件,最快的軟件只需要2小時。相信未來隨著HiFi Reads的長度不斷提高,以及更多針對PacBio HiFi Reads優化的組裝軟件出現,基因組的從頭組裝會更快更準。

參考文獻:

Nurk S, Walenz BP, Rhie A, et al (2020) HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. doi: 10.1101/2020.03.14.992248


分享到:


相關文章: