人工智能預測蛋白質成功,探祕蛋白質的“光學指紋”

人工智能預測蛋白質成功,探秘蛋白質的“光學指紋”

指紋,是每個人獨有的“人體身份證”。通過指紋測量和辨認,我們可以確認每個人的身份。世界上不存在一模一樣的兩枚人體指紋,也不存在一模一樣的兩個蛋白質。

作為生命的基石,每個蛋白質都有獨特的生命功能“身份”。一般來說,不同的蛋白質擁有穩定而又靈活可變的蛋白結構,通過結構演化實現不同的生命功能,如果結構和身份認證亂套,對生命體來說可謂是災難性的。然而,每個蛋白質都是納米和微米尺度的物體,直接深入到微觀去觀察和認證每個蛋白質的身份是很艱難的事情,既需要極高倍數的顯微鏡,還要能夠固定每個蛋白質不動。於是科學家們發展了光譜學的方法,通過測量蛋白質對光照的響應信號,可以發現不同的蛋白質的光譜特徵都不一樣。比如,X射線光譜、紅外吸收光譜、拉曼光譜、紫外吸收光譜,都可以指認出蛋白質的“光學指紋”。而紫外光譜對蛋白質全局的骨架結構信息很敏感,在測量紫外吸收光譜所獲得蛋白質的骨架“光學指紋”,經過理論模擬的解讀,可以揭示出精確的蛋白質結構,為生命科學和醫學診斷提供極其重要的指導。

然而,蛋白質光學指紋的理論解讀也不是一件容易的事,由於它們的結構通常複雜多變,需要做大量的高精度的量子化學理論計算。巨大的計算量,導致最厲害的超級計算機也輕易“吃不消”。長期以來,蛋白質的光譜的理論解讀是一個困難和挑戰,這個困難也限制了光譜的準確分析和蛋白質結構的發現。因此,怎樣在光譜理論模擬中避免太昂貴的量子化學計算,從而高效率地解讀蛋白質骨架的紫外“光學指紋”,是一個重要的科學課題。

近年來,人工智能技術被廣泛的應用到各個領域,用於大幅度降低複雜體系的計算量。受此啟發,中國科學技術大學微尺度物質科學國家研究中心江俊教授,與中科大羅毅教授和美國加州大學爾灣分校Shaul Mukamel教授合作,把人工智能機器學習中的神經網絡技術,用來模擬蛋白質肽鍵結構與性質之間的構效關係,將計算量一下降低了上萬倍。最後他們成功地預測了肽鍵紫外光譜,還用隨機森林的辦法揭示了具有化學內涵的結構描述子和構效關係。人工智能與量子化學理論計算的結合,為預測蛋白質的光學特性提供了一種高效的工具。相關成果以“A Neural Network Protocolfor Electronic excitations of N-Methy lacetamide”為題發表在《美國科學院院報》(Proceedings of National Academy of Science, DOI: 10.1073/ pnas. 1821044116)。

江俊課題組近些年致力於發展機器學習技術在量化領域的應用,努力探究使其成為解決量化問題的一種重要工具。在本工作中,研究人員首先在300K溫度下通過分子動力學模擬以及量子化學計算,得到了五萬組不同構型的肽鍵模型分子。通過機器學習算法篩選出分子的鍵長,分子的鍵角,多個原子之間的二面角跟電荷信息作為描述符,通過神經網絡來構建肽鍵基態結構與其激發態性質之間的構效關係。基於訓練好的機器學習模型,預測出了肽鍵的基態偶極矩及激發態性質,最後預測出肽鍵的紫外吸收光譜。為了驗證機器學習模型的魯棒性,研究人員又基於300K的溫度下得到的機器學習模型,預測出肽鍵在200K以及400K溫度下的紫外吸收光譜,其結果與時間密度泛函理論計算很好的吻合。

這是人工智能技術首次用於理論計算預測蛋白質的光譜研究。通過理論計算得到大量數據,使用人工智能加以訓練構建構效關係,使用最後得到的模型用於預測,為模擬蛋白質的光譜提供了一種新的思路。本項工作確立了機器學習模擬蛋白質肽鍵骨架紫外吸收光譜的可行性和優勢,蛋白質的“光學指紋”解讀也將會變得更加輕易和有效。

相關工作得到了國家自然科學基金、中國科學院先導項目的資助,該論文第一作者為博士生葉盛與博士後胡偉、李鑫,江俊與Shaul Mukamel為共同通訊作者。論文鏈接:
https://doi.org/10.1073/pnas.1821044116

想要了解更多科學知識,關注蔲享學術,帶給你不一樣的學術體驗!(
https://mp.weixin.qq.com/s/T_OvkzRWjxpvQp3uc_CgGQ)


分享到:


相關文章: