樣本總是「戴錯帽子」?解讀錯配率趨於0的DNA納米球技術

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

進入高通量時代,更多的樣本混合上機成為常態。研究人員在構建文庫時,將不同的index加到每個樣品上,就像給它們戴上獨特的“帽子”,這讓生信工程師能在“茫茫reads海”中一眼就看到自己的目標。這一方案降低了測序成本,使臨床基因測序得到廣泛應用。

但是,在實際流程中,不能保證所有操作的準確率100%,總有樣本會“戴錯帽子”。最近研究發現[2-8],基於ExAmp(排他性擴增)的測序平臺,例如HiSeq 3000/4000、HiSeq X Ten以及NovaSeq, 混樣上機測序會出現index錯誤分配(index hopping)問題, 樣本錯誤分配率超過1%,且對於PCR-free文庫,index hopping比例可高達6%[5]。即使採用繁瑣的non-combinatorial dual index方案來解決這個問題,index汙染率也只能降低到0.08%[5]。

今年6月份,bioRxiv公開了題為《Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform》[1]的文章,使用三種主要的文庫製備方法研究了DNB測序平臺的Index hopping問題。

其中,BGISEQ測序儀利用獨特的DNA納米球(DNB)技術,基於滾環複製(RCR)進行文庫擴增,這種線性擴增可以避免常規PCR帶來的錯誤累積。基於DNB的NGS應用僅使用單個index就實現了0.0001%至0.0004%低樣本錯誤分配率。此外,用水代替DNA,加入index,增加空白對照,DNB測序平臺發生錯誤匹配的概率為36 million reads分之一,即0.0000028%。

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

圖1.不同測序技術的index hopping比例

DNB測序平臺的極低的index hopping比例,不僅可以有效避免樣本的“張冠李戴”,還可帶來以下效果:

1. 高的檢測準確度,保證體細胞低頻突變、HPV檢測等基因檢測的準確性[1];

2. Single index避免了繁瑣的non-combinatorial dual index帶來的額外成本和勞動力浪費[2];

3. 避免大通量測序中樣本數據完整性的丟失。

DNB測序平臺具有極少index hopping的原因及解決方法

1.DNA納米球技術的高index保真度

BGISEQ平臺將DNB加載到規則陣列(patterned arrays)上,並利用組合引物錨定測序技術(cPAS)進行測序[9]。獨特的DNB技術採用具有強鏈置換活性的Phi29聚合酶和能夠進行線性擴增的RCR工藝,每個擴增循環都以原始的單鏈環狀DNA文庫為模板,保持每個拷貝子的獨立性(圖2a)。因此,即使出現寡核苷酸的index hopping等錯誤,也不會累積錯誤拷貝,正確的序列總是會在後面的DNA拷貝中複製,保證最高的擴增保真度。

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

圖2. Index hopping在不同的測序平臺產生的機制

2.信號外溢造成極少的index hopping

Index汙染可以通過實驗操作、PCR錯誤、測序錯誤、寡核苷酸合成錯誤引入。為了檢測BGISEQ平臺極少index hopping的原因,研究人員首先找到那些出現錯配的DNB,調查其測序質量。發現這些不匹配的DNB在index區域的平均Q30僅為36.66%,顯著低於正確匹配的DNB的index區域(平均Q30 = 91.19%)。同時,統計了DNB在芯片上的位置,並計算了與其周圍DNB共享相同index序列的概率。平均而言,無index hopping的DNB與相鄰DNB共享相同index序列的概率為20.21%,存在index hopping的DNB共享相同index 的概率則為57.04%。該結果表明相鄰DNB的信號外溢造成了index hopping。對於這種情況,

index的測序質量通常偏低,研究人員可以通過Q30>60%過濾來降低因此產生的index hopping

3. Oligo合成汙染為另一主要原因

與原因2不同,研究人員還發現EFEMP2 / LOX被錯誤分配到index 7的 reads的index區域的測序質量值很高(平均Q30 = 85.03%和82.38%),如表1所示。index 2和index 7之間的漢明距離是8,索引3和7之間的漢明距離是9,因此,EFEMP2 / LOX 的index hopping也不太可能由隨機測序錯誤引起的。

很可能的一個原因是,Index 7 oligo在合成或寡核苷酸處理過程中汙染了其他寡核苷酸,導致在測序時候在其他的裡面發現了index7。寡核苷酸合成汙染可能是index錯誤分配的另一個主要原因,可通過使用IDT的TruGrade的oligo,有效避免此類index hopping的產生。

表1. BGISEQ平臺的index hopping結果

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

此外,對於PCR-free的文庫,由於起始量高,需要加入更多濃度的index,因此相比PCR文庫更容易造成去除不乾淨的情況[2],如圖3所示:

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

圖3. PCR-free和PCR在兩種測序芯片上index hopping比例的比較[2]

除了常規PCR文庫外,文中還對PCR-free文庫在BGISEQ平臺的index hopping情況進行調查,未經過任何Q30過濾的99.9998%精度再次證實了DNB可以在很大程度上最小化index汙染。與上面的常規PCR文庫類似,汙染率平均約為0.0004%。

表2. PCR-free 文庫index汙染比率

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

最後,對目標區域捕獲文庫進行測試,BGI肺癌試劑盒的數據驗證了DNB測序平臺上的single index不易發生index hopping,可用於準確檢測癌症等疾病的低頻變異。結果顯示在不同庫類型中BGISEQ index hopping比率都非常低,表明DNB測序技術的數據準確性不受文庫構建方法的影響

未來,測序通量極速擴大是大概率事件,避免樣本的“張冠李戴”顯得更加重要。基於DNB技術的測序平臺,憑藉極低的錯誤分配率和不斷完善的技術,將有望提升數據質量,幫助科研人員牢牢把握精準數據以及背後的重大發現。這對所有科研人員而言,都是一個振奮人心的進步。

樣本總是“戴錯帽子”?解讀錯配率趨於0的DNA納米球技術

BGISEQ測序儀

參考文獻:

[1] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137

[2] Illumina. Effects of Index Misassignment on Multiplexing and Downstream Analysis (white paper). 4 (2017). doi:10.1101/125724

[3] Macconaill L E, Burns R T, Nag A, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. Bmc Genomics, 2018, 19(1):30.

[4] Sinha, R, Stanley G, Gulati GS, et al. Index Switching Causes “Spreading-Of-Signal” Among Multiplexed Samples In Illumina HiSeq 4000 DNA Sequencing. bioRxiv,125724 (2017). doi:10.1101/125724.

[5] Costello M, Fleharty M, Abreu J, et al. Characterization and remediation of sample index swaps by non-redundant dual indexing on massively parallel sequencing platforms. BMC Genomics, 2018 May 8;19(1):332.

[6] Griffiths J A, Lun A T L, Richard A C, et al. Detection and removal of barcode swapping in single-cell RNA-seq data:[J]. Nature Communications, 2018, 9.

[7] Vodák D, Lorenz S, Nakken S, et al. Sample-Index Misassignment Impacts Tumour Exome Sequencing.[J]. Scientific Reports, 2018, 8(1):5307.

[8] Van der Valk, T. et al. Low rate of index hopping on the Illumina HiSeq X platform. bioRxiv 179028 (2018). doi:10.1101/179028

[9] Huang J, Liang X, Xuan Y, et al. A reference human genome dataset of the BGISEQ-500 sequencer[J]. Gigascience, 2017, 6(5):1-9.


分享到:


相關文章: