08.21 中科院團隊:從低分辨率Hi-C數據識別高分辨率3D基因組結構的工具

中科院團隊:從低分辨率Hi-C數據識別高分辨率3D基因組結構的工具

三維基因組最近幾年火爆了!為什麼?原因很簡單,因為基因組的空間結構太重要了!

從基因轉錄到DNA的複製和損傷修復等,高等真核生物的核內活動基本上都和基因組的三維空間結構息息相關,所以人們非常急切地想了解他們所關心的物種或細胞在其關注的狀態下,基因組的三維空間結構特徵是怎樣的。傳統研究基因組的空間結構可以通過影像學的方法,比如FISH。隨著組學技術的逐步發展,基於染色質構象捕獲技術(3C)的各種技術變體得到了迅猛的發展,其中比較常見的技術就是Hi-C和ChIA-PET。這些技術也引爆了3D基因組學研究領域。其中,Hi-C是無偏性的全基因組檢測染色質相互作用,但是它分辨率相對比較低,測序量要求高。ChIA-PET針對特定的介導蛋白,具有高分辨率、測序量較低的特點,但是技術複雜、對初始的細胞數量要求很高,目前應用沒有Hi-C廣泛。

由於上述技術複雜度和數據分辨率之間的矛盾,3D基因組學的研究,還難以在類似精準醫學人群隊列研究中大規模展開,也難以對極少量細胞的樣本得到高分辨率的數據。尤其是對於單細胞Hi-C來說,在目前的分辨率水平下,在單個細胞的基因組中是否存在特定的拓撲結構域(TAD)都還存在爭議。如果有一種方法,以能夠低成本、快速的從極低分辨率Hi-C數據中獲得高分辨率的染色質空間結構,就有望解決上述難題。

中科院團隊:從低分辨率Hi-C數據識別高分辨率3D基因組結構的工具

近日,中國科學院北京基因組研究所的張治華研究員團隊及其合作者連續發表了兩篇重磅論文,分別利用了低分辨率的Hi-C結合其他的表觀組數據去預測高分辨率的TAD和相互作用(loop)的方法,使得在大樣本中,快速、低成本獲得染色質高精度結構信息成為一種可能。

第一種方法為張治華團隊和中國科學院軟件研究所李昂生研究員團隊合作的成果。該方法基於李昂生團隊之前發展的結構信息熵理論,應用低分辨率的Hi-C預測高分辨率TAD。張治華、李昂生團隊創造性地把Hi-C數據看作是一個相互連接的網絡。基於此,他們開發了稱之為deDoc的算法。相關論文於2018年8月15日在線的發表於《自然·通訊》(Nature Communications)期刊上。

deDoc的兩個重要特徵,使得它顯著的區別於當前其他方法。第一,deDoc不需要對數據歸一化。也就是說,對於Hi-C數據,deDoc可以直接用原始測序數據。這一特徵是非常重要的,因為正確的歸一化方法對其他的軟件來說十分關鍵,不恰當的歸一化往往會得到糟糕甚至是錯誤的結果,而且歸一化原始數據耗時可觀。而對於deDoc來說歸一化是完全沒有必要的,這使得分析速度大大加快。第二,deDoc的高精度預測能力對數據總量的依賴非常低。測試發現,甚至只要少於1%的Rao et al 2014 的1kb分辨率數據,就可以獲得充分好的染色質結構的預測。他們進一步測試了deDoc在單細胞數據中的功效,驚訝的發現,只要把低至十個單細胞Hi-C數據聚合在一起,就可以很清晰的鑑定到類似拓撲結構域的結構。這說明儘管對於單個細胞來說,我們仍然無法確切的知道是否真的存在TAD結構, 但是我們可以肯定的說,這種域結構是非常關鍵的,以至於只需要少到十個細胞就能夠湧現出域結構。這一事實對我們理解染色質結構在細胞群體中的構成是有幫助的。最後,張治華、李昂生團隊還發現可以用所謂的一維信息熵去確定任何一套Hi-C的最優分辨率大小,也就是binsize。在傳統的方法中,人們是通過控制Hi-C連接矩陣中非零數元素的比例這一主觀的方法來確定binsize。而利用信息熵,他們發現使得一維信息熵極小值的binsize,對於數據分析來說是最可靠的。這是第一個定量確定合適Hi-C分辨率的方法。由於deDoc的這兩個重要特徵,使得deDoc可以成為在大的人群隊列以及針對極低量細胞樣本進行三維基因組研究的重要工具。

第二種方法是張治華團隊開發的CISD_loop方法。deDoc可以識別拓撲結構域,但是對更精細的結構比如染色質之間的相互作用,則需要引入新的方法。真核生物的核小體在基因組上的排布是不均勻的。東南大學的孫嘯教授曾經報道過不同的轉錄因子結合位點附近的核小李排布存在不同的特徵。人們很早也就知道蛋白質的結合可以在DNA上形成一種類似於障礙物的效果,使得在進行隨機運動的核小體在障礙物附近形成統計上相對比較穩定的排布結構。基於這兩個觀測,張治華團隊猜測染色質的相互作用也可能會形成一種特定穩定的障礙體結構,從而使得周圍的核小體排布呈現一種特徵性的分佈。那麼如果能夠識別這種特性的分佈,就可以去預測染色質的相互作用。

基於這樣的想法,張治華團隊開發了一個機器學習模型,利用MNase-seq數據來預測高精度的染色體相互作用位點,然後進一步引入低分辨率的HI-C數據來預測高精度的染色質相互作用。他們通過在特定位點進行高精度的3C實驗驗證了這一構想。通過欠抽樣的實驗,他們發現,CISD_loop只需要極少量的Hi-C數據,就可以在1kb的精度上預測染色質的相互作用。這使得CISD_loop和deDoc方法類似,可以成為在大的人群隊列,以及針對極低量細胞樣本進行三維基因組研究的重要工具。目前,張治華團隊正致力於改進CISD_loop,以利用更容易獲取的ATAC-seq數據更高效的實現類似功能。

CISD_loop在2017年底發表在《核酸研究》(Nucleic Acids Research)上。

上述兩篇論文的源代碼均可通過github下載:

https://github.com/huizhangucas/CISD

https://github.com/yinxc/structural-information-minimisation.

1. Angsheng Li*, Xianchen Yin, Bingxiang Xu, Danyang Wang, Jimin Han, Yi Wei, Yun Deng, Ying Xiong and Zhihua Zhang* (2018) Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy. Nature Communications 2018. Doi:10.1038/s41467-018-05691-7.

2. Hui Zhang, Feifei Li, Yan Jia, Bingxiang Xu, Yiqun Zhang, Xiaoli Li, Zhihua Zhang* (2017) Characteristic arrangement of nucleosomes is predictive of chromatin interactions at kilobase resolution. Nucleic Acids Research V45, 12739 - 12751.


分享到:


相關文章: