又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources


又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

2020年2月3日,內蒙古農業大學食品科學與工程學院駱駝研究團隊吉日木圖課題組與安諾基因聯合,在Molecular Ecology Resources在線發表了題為“Chromosome-level assembly of wild Bactrian camel genome reveals organization of immune gene loci”的研究論文。該研究利用二代、三代及Hi-C輔助組裝相結合的測序策略,組裝獲得了連續性好、準確度高的染色體水平的野生雙峰駝基因組,並基於組裝的參考基因組,對駱駝科動物中免疫相關基因位點的結構進行了深入分析。內蒙古農業大學食品科學與工程學院明亮博士為第一作者,安諾基因劉濤為該文章共同合作作者。

又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

研究背景

駱駝科動物是目前唯一能夠產生重鏈免疫球蛋白(IGs)的哺乳動物。重鏈抗體分子量小,在水溶液中穩定、可溶,對部分抗原具有高親和力,是許多生物醫學應用的理想工具。近來發現,重排後的TRDV和TRGV基因中頻繁發生的體細胞超突變會增加駱駝科動物(單峰駝)中T細胞受體(TCR)的多樣性。值得注意的是,在哺乳動物中,通常只有IGs位點會存在體細胞超突變現象,在TCR中極少出現。並且,雖然TCR V基因的體細胞超突變增加了TCR的多樣性,但調控抗原產生的部分MHC基因在Old World camles中的遺傳多樣性卻遠低於預期。一個完整、連續、準確的參考基因組對於探究免疫系統的分子作用機制及多樣性至關重要。但現有已發表的駱駝科動物的基因組草圖多基於短讀長組裝,其連續性和完整度有限。而多數免疫基因位點重複性高、序列長,基因註釋過程中會產生較多片段,在一定程度上限制了後續研究。

主要研究結果

基因組組裝及質量評估

該研究以野生雙峰駝為研究材料,利用PacBio測序獲得了125.56 Gb subreads,其中N50 12.82 Kb,拼接獲得了4,402條Contigs,最終組裝了大小2.09 Gb的野生雙峰駝基因組,其中,Contig N50 5.37 Mb,Scaffolds N50 76.03 Mb。BUSCO評估高達95.6%,基因組完整性良好。隨後,研究人員以雌性野生雙峰駝為材料,構建了Hi-C數據庫,藉助LACHESIS對基因組草圖序列進行聚類、排序和定向。最終,將2,382條Contigs掛載到了37條染色體上,掛載率96.5%。對基因組覆蓋度評估發現,組裝基因組的各項指標均優於已發表駱駝基因組(CB1和MBC1),基因組的連續性得到了大幅提高,並且沒有引入過多的拼接錯誤,可用於後續分析。


又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

圖1 野生雙峰駝染色體水平的組裝結果

免疫球蛋白基因位點

重鏈免疫球蛋白由IGH編碼產生,目前為止,僅在羊駝基因組中解析獲得了IGH基因位點。該研究利用不同物種的IGH序列,藉助複雜的生信流程對組裝的雙峰駝基因組中的IGH基因進行分析,發現雙峰駝基因組中的IGHD、IGHJ、IGHC和IGHV基因聚集在6號染色體一端的基因位點上(圖2a)。其中,IGHD-J簇和除IGHG3外的大多數IGHC基因共定位在一個Contig上,且其基因數量和序列與羊駝相似。值得注意的是,有3個IGHC基因(IGHG2A/2C和IGHG3)第一個外顯子的供體剪接位點側翼處的GT至AT突變使得其能夠編碼重鏈抗體,但IGHG3基因並未與其他IGHC基因成簇,而是位於組裝基因組的另一個Contig中(圖2a)。V區在野生雙峰駝和羊駝之間的序列保守性較低,可能是物種分化過程中抗原結合位點發生了快速進化。在雙峰駝中,17個IGHV基因中有4個基因的第二個閱讀框中的四個氨基酸(V42Y/F、G49E、L50R/C、W52F/G/L)能夠發生替換,使得IGHV基因具有即可編碼重鏈抗體又可編碼常規抗體能力,即混合的(intermixed)IGHVs基因組成是野生雙峰駝能夠同時能夠產生重鏈抗體和常規抗體的主要原因。

又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

圖2 免疫球蛋白位點的基因結構

TCR基因位點

體細胞超突變是駱駝科動物(單峰駝)TRG和TRD可變域內多樣性產生的主要原因,這是駱駝科動物免疫系統所獨有的特點。但體細胞超突變通常發生在哺乳動物的B細胞,T細胞中幾乎不存在。在雙峰駝中,也僅在7號染色體上發現了兩個長度跨越45kb左右TRG cassette,每個cassette均由一個TRGV基因,一個TRGJ基因和一個TGRC基因組成(圖3a)。雖然上游還有另外一個cassette,但它更像是帶有TRGC的假基因。

對於TRD位點而言,其基因數雖較少,但由於與TRA共定位,基因結構較複雜。研究人員在6號染色體的一個Contig中找到了TRA和TRD位點的完整區域(圖3b),發現TRDV-D-J轉座子嵌套在TRAV基因中,其中含有三個TRDV亞組(TRDV1,TRDV2和TRDV3),七個TRDD基因和四個TRDJ基因。

此外,組裝基因組中雖還存在大量的TRAV和TRBV基因,但由於體細胞超突變不適用於TRA和TRB,因此認為生殖譜系(germline pools)可能是多樣性產生的主要來源。TRA位點全長約為600 kb,包含27個TRAV功能基因,54個TRAJ功能基因和一個TRAC基因(圖3b)。位於7號染色體上TRB位點長度超過300 Kb,其中有35個TRBV功能基因分佈在五個連續的Contigs上(圖3c)。

又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

圖3 TRC位點的基因結構

傳統的MHC區域

MHC區域是基因組中基因密度最大、多態性最強的區域之一,組裝難度較大。由於駱駝基因組中MHC遺傳多樣性極低,目前只有一小部分Class I和Class II基因被鑑定出來。在雙峰駝中,MHC區域分佈於20號染色體的一個Contig中,其核心亞區I、III、II長度跨越約2.5 Mb左右(圖4)。除II亞區外,雙峰駝的MHC結構與牛總體相似(牛的II亞區被較大的物理距離分開,而在駱駝中該區域相對較近),這暗示著該區域的結構變異可能發生在駱駝科動物和其他反芻動物發生分歧之後。研究人員在500 Kb區域內鑑定到了兩個分離的I類MHC簇(圖4),其中有10個MHC I類基因和類I基因,包括已發表的基因組中提到的那些基因(B-67-like,BL-3-7-like和MICA-like)。II區主要由嗜乳脂蛋白(butyrophilin)和II類MHC基因組成(圖4)。III區則是與免疫相關的各種基因簇,如淋巴細胞抗原、補體因子和腫瘤壞死因子,其中大多數基因與牛是直系同源基因。在此過程中,研究人員還鑑定出了完整的傳統II類基因和其他類型的II基因,完善了MHC區的基因圖譜。

又一力作!安諾助力駱駝基因組刊發Molecular Ecology Resources

圖4 野生雙峰駝和牛的經典MHC區域比對圖

文章總結

駱駝科動物是目前唯一能夠產生重鏈免疫球蛋白(IGs)的哺乳動物,但其免疫基因位點的重複序列較多,使用短讀長測序難以獲得準確信息。該研究利用三代測序結合Hi-C輔助組裝技術,組裝獲得了連續性好、準確度高的染色體水平的野生雙峰駝基因組。將所有的IG和TCR位點都定位到了特定的染色體上,且其中大多數(IGK/IGL/TRG/TRA/TRD)和經典的MHC基因位點都被準確定位到了沒有gap的Contig中。儘管雙峰駝的V基因表現出了較大的變異性,但這些位點的基因組結構在駱駝科動物中是保守的。對於IGHV和TRBV簇中仍存在的缺口,後續可通過靶向擴增子測序以獲得更完整的野生雙峰駝種系庫。


安諾基因配備了一系列先進的分子生物學儀器設備,實現了從樣本提取、文庫製備到上機測序的全自動化操作,先進的三代PacBio(7臺Sequel II+10臺Sequel)測序平臺,保障測序工作高效、快速的開展;專業的生物信息分析團隊,豐富的項目分析經驗,為數據分析提供有力支持和保障。安諾基因已與中國農業大學、中科院遺傳與發育所、中國海洋大學、中國農業科學院、福建農林大學等多家科研院所開展了深度合作,助力基因組文章發表於Nature、Nature Plants、Nature Communications、Molecular Plant、Communications Biology、The Plant Journal等多個國際高水平期刊。


分享到:


相關文章: