合作文章|變異檢測軟件技能PK,誰是Battle King?

DNA變異是個體間遺傳變異的重要來源之一。第二代測序技術(NGS)和第三代測序技術(TGS)都在遺傳變異研究中大放異彩。許多變異檢測工具可以用來解析二代或三代數據,但是目前沒有軟件能兼顧靈敏性和特異性地分析NGS或TGS數據,且通過不同工具組合的分析流程得到的結果可能會有很大差異,那麼變異檢測到底應該用什麼軟件呢?近日,

安諾優達裴素蕊博士等人聯合中山大學中山眼科中心國家重點實驗室謝志老師課題組在Briefings in Bioinformatics上發表了“Benchmarking variant callers in next-generation and third-generation sequencing analysis”。文章基於12套NGS和TGS數據系統評估了11款變異檢測工具。話不多說,小編帶你一探究竟~

合作文章|變異檢測軟件技能PK,誰是Battle King?

文章亮點

  • 本文系統評估了用於NGS 數據的4個胚系突變檢測工具、6個體細胞突變檢測工具和3個用於TGS數據的胚系突變檢測工具。
  • Sentieon、GATK、DeepVariant均可獲得高準確、高靈敏的NGS數據胚系變異檢測結果。從準確性和經濟性的角度綜合考慮,推薦使用30x的全基因組測序深度應用於NGS變異檢測研究。
  • Sentieon的DNAseq模式,GATK的HaplotypeCaller模式和DeepVariant的PACBIO模式在SNP檢測中的表現類似,但DeepVariant在InDel檢測中表現優於Sentieon和GATK。TGS數據在極端GC區域和高重複區域的SNPs和InDel檢出數量高於NGS數據。
  • Sentieon的TNscope模式和GATK的MuTect2模式對於體細胞變異的檢測率明顯高於其他軟件。腫瘤標本純度越高,SNPs和InDel檢測的準確性越好。
  • 變異檢測的準確性依賴於分析工具的謹慎選擇及其參數和所應用的測序平臺等。

研究背景

第二代測序技術(NGS)是目前應用最廣泛的全基因組變異檢測技術。基於NGS的全基因組或全外顯子組測序技術通常用於鑑別孟德爾遺傳疾病中的患者特異性胚系突變和癌症中的體細胞突變。目前常見的檢測軟件包括應用於胚系突變的GATK HaplotypeCaller模式,Sentieon(DNAseq或者DNAscope模式),DeepVariant和應用於體細胞突變的GATK MuTect2模式,Sentieon的TNseq和TNscope模式,NeuSomatic和Strelka2。針對第三代測序技術,DeepVariant新開發的PACBIO模式也可以實現SNP和InDel變異檢測。本研究對不同變異檢測工具的系統評估將為研究者在不同場景下使用合適的檢測工具提供系統且有價值的建議。

研究主要內容

1. NGS數據胚系突變結果評估

對於NGS數據胚系突變檢測作者測試了Sentieon的DNAseq和DNAscope模式,GATK的HaplotypeCaller模式和DeepVariant的WGS模式。結果表明,以上4個檢測工具在7個數據集中均可獲得高準確、高靈敏的SNP和InDels檢測。其中,在覆蓋深度為30x時,SNP變異檢測的F1值均大於0.99,InDels變異檢測的F1值均大於0.98(圖1)。為了評估不同測序深度對變異檢測結果的影響,從NGS002和NGS005數據集中隨機抽取測序深度為2x、5x、10x、15x和30x的數據集。在小於15x的低測序深度下,測序深度的變化對精確度影響不大,但召回率較低。當測序深度超過15x時,F1值的增長幅度減小。從30x增加到50x時,F1值無明顯變化。因此,在進行胚系突變檢測時,為了兼顧成本和準確性,建議採用30x深度用於NGS胚系突變檢測。

注:F1=2*(精確度*召回率) / (精確度+召回率)

合作文章|變異檢測軟件技能PK,誰是Battle King?

圖1 NGS數據集胚系突變檢測結果的Precision-recall曲線

2. TGS數據胚系突變結果評估

對於TGS數據胚系突變檢測作者測試了Sentieon的DNAseq模式,GATK的HaplotypeCaller模式和DeepVariant的PACBIO模式。其中,3款測試工具在SNP檢測中F1值都高於0.99,且三者之間的差異很小。然而,3款工具在InDel檢測結果具有顯著差異。DeepVariant的F1得分最高(TGS001、TGS002和TGS005分別為0.9902、0.9927、0.9924),其次是Sentieon(0.9433、0.9390、0.9393),而GATK(V4.0.7)的F1得分僅為(0.8437、0.8223和0.8078)。因此DeepVariant的PACBIO模式在TGS數據變異檢測中的準確性和一致性的表現更好(圖2)。

合作文章|變異檢測軟件技能PK,誰是Battle King?

圖2 TGS數據集胚系突變檢測結果的Precision-recall曲線

3. NGS和TGS數據集胚系突變檢測結果比較

研究隨後用DeepVariant測試比較了NGS和TGS數據集中的SNP和InDel位點信息。結果發現,相比NGS數據,TGS數據能檢出更多的SNPs和InDel變異位點,尤其是在極端GC區域和高重複區域(圖3)此外,還發現了一些特異性的SNP和InDel位點僅在TGS數據集中被檢測到。由此表明單分子實時測序能較好地解決PCR擴增導致的GC偏好性問題且在高重複區域的變異檢測具有明顯的優勢。

合作文章|變異檢測軟件技能PK,誰是Battle King?

圖3 NGS和TGS在不同GC區域和重複區域的平均變異位點數量

4. 體細胞變異檢測結果評估

為了評價不同腫瘤樣本純度對體細胞變異檢測的影響,作者分別混合了10%、20%、40%和60%腫瘤純度的模擬數據。在MIX10時,變異檢測精確度雖然可以達到0.99以上,但召回率僅為0.5左右,F1值低於0.9。由於覆蓋度不足,當腫瘤細胞混合比例較低(10%)時,部分體細胞變異位點將不能被檢測到。隨著腫瘤樣品純度的提高,精確度變化不大,召回率顯著提高。在MIX20腫瘤樣本中,MuTect2和TNscope的SNPs F1得分提高到0.97。當腫瘤純度增加到40%和60%時,除TNseq外,其餘所有軟件均表現出較高的SNPs 的F1評分。對於InDel檢測,MuTect2_GATK和TNscope_Sentieon在MIX20時F1得分最高,MuTect2_GATK和VarScan2在MIX40和MIX60時F1得分最高。因此,TNscope和Mutect2的體細胞變異檢測表現優於其他測試工具(圖4),且腫瘤標本純度越高,SNPs和InDel檢測的準確性越好。

合作文章|變異檢測軟件技能PK,誰是Battle King?

圖4 不同腫瘤樣本中體細胞變異的Precision-recall曲線

5. 計算資源消耗評估

文章比較了所有檢測工具的計算資源消耗和時間成本(圖5)。其中,在不影響檢測準確性的情況下,Sentieon的計算資源消耗和時間成本都最少。因此,當以檢測速度為考量標準,Sentieon為較優選擇。否則,DeepVariant和GATK為更好的選擇。對於TGS數據,Sentieon的資源消耗最小,而DeepVariant的準確率最高。因此,各位老師應根據項目實際需求謹慎選擇分析軟件。

合作文章|變異檢測軟件技能PK,誰是Battle King?

圖5 不同檢測工具的計算資源消耗情況

本研究中所評估的檢測工具詳細信息見表1。

合作文章|變異檢測軟件技能PK,誰是Battle King?

表1 變異檢測評估軟件和模式彙總表

總之,在不同的應用場景下,變異檢測的準確性依賴於分析工具的謹慎選擇及其參數和所應用的測序平臺等。

安諾基因在人基因組測序方面擁有多樣化的產品類型,涵蓋了單基因病人重測序產品、複雜疾病人重測序產品以及腫瘤全基因組重測序產品等。此外,安諾優達配置有7臺Sequel II測序儀,全面為科研助力。三代人重全變異檢測產品採用DeepVariant、Sniffles等高分文章專業分析軟件,坐享極速測序週期和雲計算快速分析,助您一次測序輕鬆搞定SNP、InDel和SV全變異分析,徹底解決短讀長測序高GC區域覆蓋難題。總之,你想要的我們這裡都有,還不心動嘛?快和我們的銷售經理聯繫,下一個高分文章就是你的!

參考文獻:

Pei S, Liu T, Ren X, et al. Benchmarking variant callers in next-generation and third-generation sequencing analysis[J]. Briefing in Bioinformatics, 2020.doi:10.1093/bib/bbaa148


分享到:


相關文章: