新藥研發的加速器:MIT研究人員開發機器學習方法,實現分子設計自動化

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

來源:MIT News 編譯:Kathy

設計新的藥物分子需要手工進行,耗時且容易出錯。但是麻省理工學院的研究人員已經朝著完全自動化的設計過程向前邁出了一步,這將大大加快設計過程,並獲得更好的結果。機器學習模型可以幫助化學家更快地製造出具有更高功效的分子。

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

藥物發現依賴於先導化合物的優化。根據先導化合物與特定的生物目標的相互作用,增減官能團,手動調整分子結構來獲得新的分子。每個修飾步驟都要耗費大量時間,並且往往得不到期望中的分子。

麻省理工學院計算機科學與人工智能實驗室( CSAIL )和電子工程與計算機科學系( EECS )的研究人員開發了一種模型用於更有效的選擇先導分子。該模型輸入分子結構數據,創建分子圖片,詳細展示分子結構,節點代表原子,邊線代表化學鍵。這些圖又被分解成更小的有效官能團簇,成為“構件”,用於實現更精確的分子重構和修飾。

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

“設計這個模型的目的,是想用自動迭代取代低效的人工分子改造過程,並確保設計出有效的分子,”CSAIL博士生,本文的主要作者Wengong Jin說。該模型在7月份舉行的2018國際機器學習會議上進行了展示。論文的共同作者還包括CSAIL和EECS的Delta電子系教授Regina Barzilay和電氣工程和計算機科學,數據、系統和社會研究所的Tommi S. Jaakkola教授。

這項研究是麻省理工學院與八家制藥公司於五月宣佈的藥物發現與合成機器學習聯盟的其中一部分工作。該聯盟將先導物的優化確定為藥物發現的一個關鍵挑戰。

Barzilay說:“ 目前來說,需要許多熟練的化學家的大量工作才能實現先導物的優化,而這正是我們想要改進的地方。下一步的計劃,是讓該技術從學術界走向真正的藥物設計實踐,並證明它可以幫助人類化學家完成該項工作,而這將是一個挑戰。"

Jaakkola說:“程序自動化也為機器學習帶來了挑戰。通過學習關聯、修改和生成分子圖推動新的技術思想和方法的產生。"

生成分子圖

近年來,分子設計自動化的系統層出不窮,但問題是產生的分子是否有效。Jin說,這些系統通常會產生符合化學規則但實質無效的分子,並且生成的分子不具備最佳性質。這實際上使完全自動化設計分子變得行不通。

這些系統運行在分子的線性符號上,稱為“簡化分子-輸入線-進入系統”(simplified molecular-input line-entry systems, SMILES),其中長串的字母、數字和符號代表可由計算機軟件解釋的單個原子或化學鍵。當系統修改一個前導分子時,它會一個符號一個符號地擴展它的字符串表示,一個原子一個原子,一個鍵一個鍵,直到生成一個最終的具有更高的期望屬性的SMILES字符串。最後,系統可能會生成一個最終的SMILES字符串,雖然在SMILES語法下似乎是有效的,但實質上是無效的分子。

研究人員通過建立一個直接在分子圖上運行的模型來解決這個問題,和SMILES字符串不同,該方法可以更有效和準確的修改分子結構。

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

模型的核心是一個定製的可變自動編碼器——一個神經網絡,它將輸入分子“編碼”成向量,這個向量是分子結構數據的存儲空間,然後將該向量“解碼”成與輸入分子匹配的圖形。

在編碼階段,模型將每個分子圖分解成簇或“子圖”,每個簇或子圖代表一個特定的構建元件。這樣的簇是由一個常規的機器學習“樹分解”來自動構建的,其中複雜的圖被映射成一個簇的樹結構,提供了原始的分子圖支架。

支架樹結構和分子圖結構都被編碼到它們自己的向量中,其中分子根據相似性被分在一組。使得尋找和修飾分子變得更容易。

在解碼階段,該模型以“由粗到細”的方式重建分子圖——逐漸增加低分辨率圖像的分辨率以創建更精細的版本。它首先生成樹形結構的支架,然後將關聯的簇(樹中的節點)組裝在一起形成一個連貫的分子圖。確保重建的分子圖是原始結構的精確複製。

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

該模型可以基於期望的性質修改先導分子。通過預測算法,用期望性質的效力值對每個分子進行評分。例如,在這篇論文中,研究人員尋找具有兩種性質的分子——高溶解度和可合成性。

對於給定的期望性質,該模型通過使用預測算法來優化先導分子,從而通過編輯分子的官能團來修改向量,從而修改結構,以獲得更高的效力分數。重複這個步驟經過多次迭代,直到找到最高的預測效能分數。然後,模型通過編譯所有相應的簇,最終從更新的向量中解碼出一個修改了結構的新分子。

正確且有效

研究人員在ZINK數據庫中的25萬個分子圖上訓練了他們的模型,ZINK數據庫是一個可供公眾使用的三維分子結構集合。他們對模型進行了任務測試,以產生有效分子並找到最佳前導分子,設計出具有增強能力的新型分子。

在第一次測試中,研究人員的模型從樣本分佈中產生了100 %的化學有效分子,而SMILES模型從相同分佈中只產生43 %的有效分子。

第二項測試包括兩項任務。首先,該模型搜索整個分子集合,以找到所需性質的最佳先導分子——溶解性和可合成性。在這項任務中,該模型發現了一種先導分子,其效力性能比傳統系統高出30 %。第二項任務是修飾800個分子來獲得更高的分子效力性能,但結構類似於先導分子。在此過程中,該模型創造了與先導分子結構非常相似的新分子,且分子平均效力提高了80 %以上。

除了溶解度以外,研究人員接下來的目標是測試模型的更多性質,這些性質與醫療關係更密切。但是這也需要更多的數據。製藥公司對能夠對抗生物靶點的分子特性更感興趣,但他們掌握的這類數據較少。研究人員面對的挑戰是開發一種能夠在有限的訓練數據下工作的模型。

未參與此項研究的Amgen醫藥公司的醫藥化學主管Angel Guzman-Perez說:“論文中描述的算法朝著模仿先導分子優化設計的目標邁出了重要的一步,而這個工作目前是醫藥化學家在做的。由於這種計算方法在向量空間中進行分子性能優化,它有可能設計出完全不同和新穎的化學結構,這是藥物化學家在化學結構空間中考慮問題時所無法企及的。因此,這種算法可以補充和提升藥物化學家的工作。”

一些參考

lab: http://mlpds.mit.edu/

ref: https://pubs.acs.org/doi/full/10.1021/acs.accounts.8b00087

paper: https://arxiv.org/pdf/1802.04364.pdf

datasets: http://zinc.docking.org/

Demo:http://askcos.mit.edu/

-The End-

將門是一家以技術創新為切入口的早期創新發掘機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

新药研发的加速器:MIT研究人员开发机器学习方法,实现分子设计自动化

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: