高通量測序測序深度 sequence depth 和覆蓋度 sequence coverage

測序深度(depth):指測序得到的總鹼基數與待測基因組大小的比值。

假設一個基因大小為1G,測序深度為10X,那麼獲得的總數據量為10G;被測基因組上單個鹼基被測序的平均次數,比如某樣本的測序深度為30X,那麼就是說該樣本的基因組上每一個單鹼基平均被測序(或者說讀取)了30次,注意,是平均。當然了,depth也有最大和最小值,這個都可以由信息分析得到。

覆蓋度(coverage):是指測序組裝出的序列佔該物種整個基因組的比例。由於基因組中的高GC、重複序列等複雜結構的原因,目前測序手段還無法組裝出物種的全部序列信息,而沒有拼接出的區域就稱為Gap。大片段拼接的gap、測序讀長有限、重複序列等問題的存在,測序分析後組裝得到的基因組序列通常無法完全覆蓋所有區域,覆蓋度就是最終得到的結果佔整個基因組的比例。例如一個人的基因組測序,覆蓋度為98.5%,那麼說明該基因組還有1.5%的區域通過我們的組裝和分析無法得到。

舉例15x假設一個水稻基因組共有a個鹼基,那麼這次測序共測出了15a個鹼基,相當於平均每一個鹼基都被測了15次。高通量測序是將基因組隨機打斷成小於150bp的片段,之後進行拼接,只有提高覆蓋率,才能保障拼接的準確性。

但是要注意的是,覆蓋度是指測序獲得的序列佔整個基因組的比例。指的是基因組上至少被檢測到1次的區域,佔整個基因組的比例。當然,有些文章中也會將測序深度稱為Coverage,容易給我們帶來混淆。因此,我們還是需要根據語境來推斷Coverage的意思。

測序深度與基因組覆蓋度之間是一個正相關的關係,而測序帶來的錯誤率或變異檢測(例如,SNP)假陽性結果會隨著測序深度的提升而下降。有時當測序深度達到10x時基因組的覆蓋度已接近飽和。但在測序深度達到10X的時候,SNP的檢測率卻沒有達到飽和。


分享到:


相關文章: