99% 科研人會忽略的測序致命傷

HiSeq X Ten 和 NovaSeq 大大提升了測序通量,但樣本標籤錯配問題著實讓人頭疼。


FFPE、液態活樣本的趨動變異頻率實在太低,而建庫環節、PCR 環節、測序本身的錯誤率就和變異頻率差不多,如何將它們區分開?


優化的建庫方案是解鎖各項難題的一把鑰匙。解題之前讓我們先熟悉一下很多人傻傻分不清,但與上述問題直接相關的兩種標籤(index)。


不熟悉樣本標籤、分子標籤的夥伴,可以瞭解下名詞解釋哦~


▶ 樣本標籤:即 sample index。高通量的測序儀由於每一條 lane 的測序能力都遠大於一個樣本所需的數據量,為了避免試劑浪費,會將不同樣本混合在一起測序。樣本標籤是不同序列的寡核苷酸片段,通過對樣本添加標籤就可以區分不同樣本,獲得測序數據後通過樣本標籤將分屬於不同樣本的測序數據歸攏到一起。所以樣本標籤是用於區分不同樣品的,是樣品的「身份」。


  • 樣本標籤分為單端標籤和雙端標籤,分別指在樣本一端用標籤標記,和在樣本兩端用標籤標記。雙端標籤可以實現更多種的組合,隨著測序通量的提高,雙端標籤被更廣泛的使用。
  • 雙端標籤又分為組合型雙端標籤(Combinational Dual Index–CDI)和序列特異雙端標籤(Unique Dual Index–UDI)。CDI 通過對樣本兩端的標籤進行組合來標記樣本,例如 i5 有 8 個唯一序列的標籤,i7 有 12 個唯一序列的標籤,組合起來就有 96 種組合方式,可以標記 96 個樣本。而對 UDI 而言,所有的 i5 與 i7 標籤都是序列特異的(圖 2)。


▶ 分子標籤:MBC-Molecular Barcode,有時也稱 UID(Unique identifiers),UMI(Unique molecular identifiers)。是對原始樣本基因組打斷後的每一個片段都加上一段特有的標籤序列,用於區分同一樣本中成千上萬的不同的片段,在後續的數據分析中可以通過這些標籤序列來排除由於 DNA 聚合酶擴增以及測序過程中所引入的錯誤。單端分子標籤通常為大約 10 nt 左右的隨機序列,雙端分子標籤通常為兩端各 3 個鹼基的隨機序列。有別於樣本標籤,分子標籤是針對同一個樣本中的不同片段加上的標籤序列。


  • 分子標籤又分為單分子標籤和雙分子標籤,前者只在原始 DNA 片段的一條鏈上結合一個標籤;而後者則是在原始 DNA 片段的正義鏈和反義鏈的兩端各結合兩個序列不同的標籤。


什麼是樣本標籤錯配,它會對實驗結果帶來什麼影響?


即 index misassignment。樣本標籤錯配最主要的原因是標籤跳躍(index hopping),標籤跳躍在最新型的測序平臺上特別顯著,一些樣本標籤在新型高通量測序儀 Flow Cell 裡的某些特殊機制的作用下發生了跳躍,被分配到錯誤的樣本上,導致了樣本標籤的錯配。


99% 科研人會忽略的測序致命傷

圖 1. 多樣本混合測序與標籤跳躍。通過在文庫構建過程中對每個 DNA 片段添加該文庫的獨特序列標籤,可以將多個文庫混合在一起測序。測序數據根據不同的標籤被分配到不同樣本。標籤跳躍會導致數據分配錯誤,並可能導致數據拼接錯誤或下游分析中結論的錯誤【1】。


▶ 樣本標籤錯配對測序結果的影響可能是致命的


美國斯坦福大學的研究團隊通過 HiSeq 3000/4000/X Ten 對小鼠造血幹細胞和胎心細胞 RNA 測序找到了 41 個可能的新的造血幹細胞亞群,然而同樣的文庫在 NextSeq 500 上測序時卻無法重現之前的發現。最終他們發現用 HiSeq 3000/4000/X Ten 測序時,有高達 5~10% 的序列讀數(或信號)被錯誤地分配給了同一個混合樣本池內的其它樣本,從而導致了那些假陽性的發現【2】。之後相繼又有多家研究機構都發現了在新型高通量測序儀上有樣本標記錯誤的問題。


▶ 「標籤跳躍」(index hopping)是導致樣本標籤錯配最主要的機制【1】


Illumina 在 2017 年 4 月公佈的白皮書《Effects of Index Misassignment on Multiplexing and Downstream Analysis》中承認,在採用 Patterned Flow Cell Technology(PFCT)的高通量型號,如 HiSeq 4000,Hiseq X 系列,以及 NovaSeq 上容易出現樣本標籤錯配(index misassignment)問題。


▶ 除了標籤跳躍,其它實驗過程也會引入標籤錯配


例如在核酸片段加完接頭以後,如果文庫純化不充分,殘餘的接頭與引物會引起文庫汙染,從而可能導致標籤跳躍和錯配【1】。所以做好文庫的純化與質控也非常必要。


建庫方案的優化首先需要解決標籤錯配的問題


目前最普遍採用的雙樣本標籤,相當於給樣本標記加上雙保險。然而組合型的雙端標籤(Combinational Dual Index–CDI)仍然存在標籤共用的問題,以 96 CDI 為例,每一列的 i5 標籤都是相同的,每一行的 i7 標籤也都是相同的。當標籤發生跳躍,形成新 i5 與 i7 組合時,這一組合產生的錯誤數據將無法被剔除。除此以外,組合型的樣本標籤需要將不同的 i5 與 i7 標籤組合使用,一旦發生標籤汙染,就會引入假陽性。序列特異雙端標籤(Unique Dual Index–UDI)不存在標籤共用問題,一對樣本標籤同時兩兩跳躍到另一段 DNA 片段上的概率幾乎為零,因而可以更好的解決標籤跳躍問題。


99% 科研人會忽略的測序致命傷

圖 2. 左圖為組合型樣本標籤 CDI 示例。不同樣本共享 i5 和 i7 標籤,通過兩兩組合成 96 組或 384 組樣本標籤對。右圖為序列特異的雙端樣本標籤 UDI 示例。UDI 的 i5 與 i7 的標籤序列均互不相同,樣本無需共享標籤。96 UDI 就含有 96 對序列完全不同的標籤對,384 UDI 就含有 384 對序列完全不同的標籤對。


同時還要「解決掉」文庫構建與測序環節引入的「錯誤」


在文庫構建的 PCR 環節和上機前文庫的擴增環節,DNA 聚合酶和擴增會引入一些原始樣本基因組上原本不存在的錯誤以及擴增的偏好性【3】。而測序環節,以最常見的 illumina 測序儀為例,取決於不同的測序讀長、base calling 算法,以及檢測的突變類型,測序錯誤率為 1%~0.05%【4】。這些系統錯誤的存在,干擾了利用高深度測序檢測低頻突變,導致難以區分所檢測到的變異到底是真實的樣本突變還是由於這些系統錯誤所造成的假陽性。


▶ 分子標籤解決 PCR 擴增與測序過程引入的錯誤


如圖 3 所示,通過分子標籤的標記,同一個樣本的每一個初始 DNA 片段都結合了一組特異序列的標籤,它們會隨目標序列一起經過文庫構建、PCR 擴增,然後被一同測序。最終測得的序列中,凡帶有相同分子標籤的序列,就說明它們是從同一條原始的 DNA 片段擴增而來的;而帶有不同標籤的序列,則說明它們來自不同的原始 DNA 片段分子。由於 PCR 和測序過程中的錯誤是隨機發生的,因此根據這些分子標籤,可以在去除冗餘的過程中將 PCR 和測序等過程中帶來的系統突變剔除掉。


▶ 雙分子標籤可以校正 PCR 早期引入的假陽性


然而單一分子標籤是很難校正 PCR 早期引入的假陽性的,而在雙分子標籤(Dual MBC)系統下,可以通過比對正義鏈的序列與反義鏈的序列來較正那些 PCR 早期發生的突變,有效去除 PCR 早期引入的假陽性【5】,相比單 MBC 在對抗低頻變異樣本的假陽性上表現更出色。


99% 科研人會忽略的測序致命傷

圖 3. 雙分子標籤(Dual MB)分別對正義鏈與反義鏈進行標記,通過比對兩條鏈的序列信息,可以校正 PCR 早期引入的突變【5】。


哪些實驗要特別小心標籤錯配、PCR 過程的錯誤,以及測序過程本身的錯誤率?

極低頻率變異的檢測,比如液態活檢、FFEP 樣本,混合樣本中的微量病原微生物檢測,以及基因表達研究等。簡而言之,在背景複雜、高背景噪音下檢測微量靶標的應用都容易受到標籤錯配和 PCR 與測序過程帶來的假陽性的影響。


怎樣的優化建庫方案才能讓我們步步為營,步步為贏呢?

安捷倫最新推出的 SureSelect XT HS2 有效解決上述問題。它提供了:

  • 384 對序列唯一雙端標籤(384 UDI)滿足高通量測序混樣需求,同時有效應對標籤錯配,預混好的 384 UDI,方便操作,避免手動混合潛在的交叉汙染風險
  • 雙端分子標籤(Dual MBC)校正 PCR 與測序過程的假陽性,包括 PCR 早期引入的假陽性
  • 優化的接頭連接體系,大幅提高轉化效率,生成高複雜度的文庫,從微量的 FFEP 和液態活檢樣本中獲得儘可能全面的信息
  • 樣本片段化的兼容性,兼容機械打斷與酶切打斷(後者在低頻變異應用中表現更為出色)
  • 樣本的兼容性,FFPE、低質量的 FFPE, ctDNA 等樣本均可採用同一操作流程
  • 靈活的工作流程,既可以在一天內完整雜交、捕獲,又可以過夜雜交
  • 靈活的包裝,包括自帶磁珠的包裝,方便訂購
  • 另外,安捷倫 SureSelect 酶切片段化試劑盒具有很好的 Tris/EDTA 濃度兼容性,基本無需稀釋,即可對不同樣本採用同一酶切程序
99% 科研人會忽略的測序致命傷


分享到:


相關文章: