南科大醫學院張文勇欒合密發表多組學新算法研究進展

近日,南科大醫學院教授張文勇、研究助理教授欒合密等在國際著名生物信息學與計算生物學期刊Bioinformatics上發表題為“CPVA: a web-based metabolomic tool for chromatographic peak visualization and annotation”的論文。該研究創新提出了以色譜中心策略算法(CCS)提高基於質譜的組學數據質量,並搭建了R-Shiny的Web應用CPVA,實現了組學數據在線交互式的處理(圖1)。

南科大醫學院張文勇欒合密發表多組學新算法研究進展

CPVA是一個交互式網頁工具,用於對峰形進行可視化和註釋,揭示峰形的隱藏特性,從而提高非目標組學研究的數據質量。有審稿人認為該論文及其工具填補了非靶向組學數據處理過程中的一個主要的漏洞。

南科大醫學院張文勇欒合密發表多組學新算法研究進展

圖1 CPVA算法與在線工具的流程示意圖

定量系統生物學是描述生命體的細胞、組織、器官以及整體水平上結構和功能各異的各種分子(包括基因、蛋白質、小分子代謝物等),以及分子在生命體的內部之間、與外界環境之間的相互作用,通過精準的分析測量技術、結合計算生物學來定性、定量構建生命的數字化模型,預測生理狀態或者疾病的功能、表型和轉化的前沿科學。生命體的運作是在基因調控下,由許許多多的生化反應形成的複雜代謝網絡。定量系統生物學將代謝網絡節點的各種分子及其相互作用的反應速率數字化,構建計算模型描繪從局部到整體,最終完成整個生命活動的數字化網絡圖譜。在分子尺度上由基因、小分子代謝物構成的代謝網絡則是定量系統生物學的關鍵樞紐,而小分子代謝物是這一系列事件的最終結果,它能夠更準確地反映系統生命體系的瞬時狀態。

隨著基於液相色譜結合質譜技術的組學方法不斷完善,人們對代謝網絡有了更深入瞭解。質譜技術在檢測靈敏度、色譜圖分辨率和質量測量精度方面的快速提高使科學家能夠一次性分析成千上萬種代謝物。但是,從生物樣品中獲得的高分辨率質譜數據非常嘈雜,並且可能包含很多的背景信號與噪音。智能的組學大數據處理算法與工具對於代謝物的定性和定量表徵至關重要。

針對基於質譜的非靶向代謝組學數據中存在的大量的假陽性與冗餘的信號峰,該論文提出了色譜中心策略算法(CCS),並開發了在線互動工具來解決該領域普遍存在的問題(圖2)。色譜中心策略是指通過對組學數據中提取的色譜峰形狀進行數字化描述,包括對稱性(Symmetry)、鋸齒度(Jaggedness)、形態(Modality)、色譜質量指數(MCQ)等,並以在線互動的方式直接展示色譜峰的形態特徵。同時,CPVA能夠自動化註釋檢測峰中遇到的穩定同位素簇、加合物以及常見的782種質譜背景汙染物,從而大大減少假陽性與冗餘峰的數量,提高非靶向代謝組學研究的數據質量。研究團隊採用受試者工作曲線(ROC)評估該算法對臨床代謝組學數據的處理能力,結果顯示,該算法表現出了非常出色的識別假陽性或者冗餘峰的能力(AUC = 0.95)。

南科大醫學院張文勇欒合密發表多組學新算法研究進展

圖2 CPVA算法與工具的結果展示

Bioinformatics 雜誌為國際計算生物學會(ISCB)的官方期刊,由牛津大學出版社出版,是生物信息學與計算生物學的專刊、生信領域的頂尖期刊。

張文勇課題組成員、醫學院兼前沿與交叉科學研究院研究助理教授欒合密為第一作者,欒合密與張文勇為論文的共同通訊作者,南科大為論文的第一作者單位。這一研究得到了國家自然科學基金委青年基金項目與深圳市教育局項目的支持。

論文鏈接:

https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btaa200/5809525


分享到:


相關文章: