新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

機器之心分析師網絡

作者:仵冀穎

編輯:Joni Zhong

數月以來,COVID-19 病毒在全球範圍內肆虐。建立在數十年來對冠狀病毒家族特徵的基礎研究之上,科學界對最近的 COVID-19 病毒爆發作出了快速反應,眾多前沿實驗室開放共享關於病毒的基因組數據庫,從而使得研究人員能夠快速開展針對這種新病原體的測試。本文以DeepMind開發的AlphaFold System為引子,探討了機器學習領域的一個專門方向,即如何利用機器學習協助藥物開發。希望為有志於此的讀者提供一份參考性指南。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

最近,Deepmind 發佈了利用其基於機器學習的 AlphaFold System 所實現的與引起 COVID-19 的病毒有關的蛋白質結構的預測結果 [25][26]。DeepMind 強調,這些結構預測尚未得到實驗驗證,但希望它們能有助於科學界解釋病毒是如何發揮作用的,以及為今後開展治療學的實驗工作提供一個假設的生成平臺。我們知道,瞭解病毒的蛋白質結構是瞭解其功能的重要資源,但受限於複雜的蛋白質結構和實驗流程,確定蛋白質結構的實驗可能需要數月或更長的時間。為此,研究人員一直在開發從氨基酸序列預測蛋白質結構的計算方法。

這次,DeepMind 的工作(AlphaFold)是在沒有類似蛋白質的結構可用時,利用稱為「自由模型」的機器學習模型精確預測蛋白質結構。一般情況下,研究人員會等到披露具體研究方法的文章被學術期刊同行評議後再公佈方法或模型。然而,考慮到 COVID-19 的潛在嚴重性和時間敏感性,DeepMind 在一個開放的許可證下提前發佈了預測結構,以便任何人都可以利用它們開展相關科學研究。

在這篇文章中,我們並不具體分析 AlphaFold 的結構和應用,感興趣的讀者可以閱讀我們機器之心相關的資料。在 DeepMind 這項工作的啟發下,本文探討機器學習的一個專門的應用方向,即「如何利用機器學習協助藥物研發」

。實際上,在藥物發現領域,近年來,機器學習技術已經實現了一定程度的應用,例如預測藥物早期階段的分子特性等。我們一起來在這篇文章中對主要的應用情況進行回顧,主要內容參考了三篇綜述的文章 [27][28][32]。

一、應用於藥物研發的機器學習方法概覽

得益於強大的 CPU 和 GPU 硬件,深度神經網絡(DNNs)在藥物發現中的應用非常廣泛,包括生物化合物活性預測、化學結構設計、合成預測等,這其中不同的 DNN 結構,包括經典的卷積神經網絡 CNNs、循環神經網絡 RNN、長短期記憶神經網絡 LSTM、深度自編碼神經網絡 DAEN、生成性對抗網絡 GAN 等都被應用在不同的藥物發現任務中。

應用於藥物發現領域中的機器學習的工作是由至少 80% 的數據處理和清理以及 20% 的算法應用組成的,數據處理所佔的比例遠高於其它機器學習的應用任務。因此,機器學習在藥物發現領域的應用效果取決於高質量的大量數據的可用性,訓練數據需要準確、有組織性和儘可能完整,以便最大限度地提高可預測性。實驗設計通常涉及到對理想樣本大小的討論和正確估計該參數的適當功率計算。在訓練數據系統性好、標註質量高、噪聲小的情況下,機器學習方法往往能在藥物發現應用中獲得很好的效果。

二、應用領域分析

在本小節中,我們選取了幾個應用機器學習算法的藥物研發領域進行介紹。

1、化合物活性預測

包括人工神經網絡在內的機器學習方法在藥物研發的化合物活性預測中應用已久。具體來說,化合物的活性直接反映在它的分子描述符(molecular descriptors),因此可以使用 DNN 進行建模來預測活性。Dahl 等在 Merck-Kaggle challenge 數據庫上針對二維拓撲描述符使用 DNN 獲得了較好的效果 [1],Dahl 的實驗發現:(i)DNNs 可以處理數千個藥物相關的描述符。由於 DNN 的特性,無需進行預先的特徵選擇。(ii)使用 dropout 可以避免傳統人工神經網絡存在的過度擬合問題。(iii) 對超參數(層數、每層節點數、激活函數類型等)進行優化調整可以改進 DNN 性能。(iv)多任務 DNN 模型的性能優於單任務模型。Mayr 等提出了一種多任務 DNN[2],該多任務 DNN 同樣使用了 dropout 和 ReLU 激活函數,同時基於 GPU 實現了並行計算,大大提升了計算速度。他們使用一個帶有靜態描述符(對於預定義毒物的 3D,2D 描述符)和動態生成的擴展連接指紋描述符(extended connectivity fingerprint descriptors,ECFP)的大特徵集,使 DNN 能夠在訓練期間進行自我特徵推斷,此外,利用 ECFP 對 DNN 模型進行統計關聯分析,可以識別出與各隱層已知毒物顯著相關的亞結構。

另一類用於化合物活性預測的方法是圖卷積模型(graph convolution models),其基本思想是利用神經網絡 NNs 自動生成一個分子描述向量,通過訓練 NN 來學習向量值。受 Morgan 的圓形指紋方法(circular fingerprint method)啟發 [31],Duvenaud 等人提出了神經指紋方法(neural fingerprint method),通過引入圖卷積模型將神經指紋作為分子描述向量,該方法的工作流程如圖 1 所示 [3]。首先,讀取 2D 分子結構以形成狀態矩陣,其中包含每個原子的原子和鍵信息(基於與原子相連的鍵)。然後,狀態矩陣通過單層神經網絡進行卷積運算,生成固定長度的矢量作為分子表示。通過考慮相鄰原子的貢獻,卷積運算可以在不同的層級上進行,這相當於在不同的相鄰層級上的圓形指紋。由不同卷積運算產生的向量首先經過一個 softmax 變換,然後求和形成化合物的最終載體,它是編碼分子水平信息的神經指紋。神經指紋通過另一個全連接的神經網絡層來產生最終的輸出。神經指紋中的比特值是通過訓練學習的,並且是可微的

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 1:圖卷積神經網絡(GCNNs)圖解。

2、預測反應和逆合成分析

在該領域中,兩類問題可以通過機器學習來解決。一種是正向反應預測(forward reaction prediction),即在給定一組反應物的情況下預測產物;另一種是逆向合成預測(retrosynthetic prediction),即在給定最終產物的情況下,預測生成產物的反應步驟。如圖 2,從機器學習本質上,逆向合成和反應預測所需要的是在可能的幾十條或數百條匹配規則中選擇正確的規則。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 2:預測反映和逆向合成挑戰。

Coley 等人利用神經網絡對 15,000 個反應的訓練庫中的一組反應的候選產品進行排序,這些候選產品來自於美國專利。將產生的不同反應劃分為模板,訓練後的模型對於主要產品等級為 1 的情況實現了 71.8% 的正確分類,對於主要產品等級為 3 的情況實現了 86.7% 的正確分類,而對於主要產品等級為 5 的情況實現了 90.8% 的正確分類。為了克服經典基於模板的反應預測方法 (template-based) 所面臨的覆蓋率和效率問題,在同一研究組的後續研究中提出了一種無模板的方法。他們使用 Weisfeiler-Lehman 差分網絡對生成的候選反應進行評分,與之前基於反應模板的方法相比,獲得了更好的性能 [30]。Liu 等人使用神經序列到序列模型進行反向合成預測,他們使用從美國專利獲得的 50,000 個反應來訓練網絡,並獲得與基於規則的方法相似的精度 [29]。

在另一項工作中,Segler 等人將策略網絡和蒙特卡羅樹搜索相結合,以實現逆向合成。具體來說,研究人員利用由 1200 萬科學文獻反應組成的訓練庫進行預測的 [6]。為了自動提取規則,Segler 等人使用了 Reaxys 數據庫 (約 1100 萬個反應和約 30 萬條規則),並執行了蒙特卡羅樹搜索 (Monte Carlo tree search,MCTS),以結合 DNN 對樹節點進行評分,以將搜索引導到最有希望的概率反應方向。該方法可以完成與經典基於規則的方法(rule-based)相比約兩倍的分子逆向合成計劃。在定量分析中,該方法優於黃金標準,即最佳優先搜索,並且可以有兩種不同的實現方式 (啟發式方法和神經網絡)。此外,對於幾乎三分之二的被檢查的分子,MCTS 比傳統的計算機輔助搜索方法快 30 倍。定性測試也是在一項雙盲研究中進行的。有機化學家被要求在基於文獻的合成路線和預測的合成路線之間進行選擇,而不知道路線是如何獲得的。在這裡,所訪問的化學家們認為預測路線的質量平均而言與文獻中的路線一樣好。該方法的流程如圖 3 所示,其中,使用的機器學習方法是 DNN。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 3:神經符號方法流程示例。

3、藥物靶點識別和驗證

開發藥物(小分子、肽、抗體或包括短 RNAs 或細胞療法在內的新模式)是藥物研發領域中最重要的任務,其目的是開發出能通過調節分子靶點的活性來改變疾病狀態的藥物,即通過靶點的調節實現對疾病狀態的調節。首先,根據現有醫學證據確定靶點,之後,使用生理相關的體內外模型來驗證所選靶點在疾病中的作用(靶點驗證)。早期靶點確認對於將研發精力集中在可能成功的項目上是至關重要的。

機器學習的方法可用於分析具有假定目標函數信息的大型數據庫以預測潛在因果關係,目前,機器學習已經以這種方式應用於靶點識別的幾個方面。Costa 等人構建了一個基於決策樹的元分類器 [7],該分類器訓練了蛋白質-蛋白質、代謝和轉錄相互作用的網絡拓撲,以及組織表達和亞細胞定位,目的是預測與發病率相關的基因,而這些基因可用於藥物治療。通過對決策樹的研究,他們將多轉錄因子(transcription factors, TFs)、代謝途徑的中心性和細胞外定位確定為關鍵的分類特徵。Jeon 等人建立了一個支持向量機(SVM)分類器,使用各種基因組數據集將蛋白質分類為乳腺癌、胰腺癌和卵巢癌的藥物靶點和非藥物靶點。主要分類特徵為基因必要性、mRNA 表達、DNA 拷貝數、突變發生率和蛋白質相互作用網絡拓撲結構 [8]。

文獻是瞭解靶點與疾病關聯的主要來源。自然語言處理(NLP)是一種應用於文本挖掘的機器學習方法,基於 NLP 的最新進展,數據挖掘能夠更有效地識別相關論文。BeFree 等應用 NLP 核方法識別 Medline 摘要中的藥物-疾病、基因-疾病和靶向藥物關聯 [9]。這種監督學習方法依賴於人工標註的歐盟藥品不良反應(EU-ADR)關係數據庫語料庫和基於遺傳關聯數據庫的半自動標註語料庫。

Medline 是美國國立醫學圖書館生產的國際性綜合生物醫學信息書目數據庫,是當前國際上最權威的生物醫學文獻數據庫。內容包括美國《醫學索引》(IndexMedicus,IM)的全部內容和《牙科文獻索引》(IndextoDentalLiterature)、《國際護理索引》(InternationalNursingIndex)的部分內容,涉及基礎醫學、臨床醫學、環境醫學、營養衛生、職業病學、衛生管理、醫療保健、微生物、藥學、社會醫學等等領域。

瞭解剪接信號(splicing signals)的遺傳變異能夠找到替代模式或新靶點來確定治療時機。最新的機器學習集成剪接模型將剪接因子在體內結合的 CLiP-seq 分析數據與這些剪接因子被敲除或過度表達的 RNA 測序實驗結合起來 [10],結合剪接編碼模型和對從頭開始和複雜剪接變化的預測,可以識別特定於阿爾茨海默病的剪接變體 [11]。

機器學習還可以預測腫瘤特異性藥物效應。Iorio 等從 265 種抗癌藥物中篩選了 990 株癌細胞株,研究了全基因組基因表達、DNA 甲基化、基因拷貝數和體細胞突變數據對藥物反應的影響 [12]。他們使用方差分析、邏輯模型和機器學習算法(彈性網絡迴歸和隨機森林)來識別預測藥物反應的分子特徵。癌症類型中最具預測性的數據類型是基因表達,而最具預測性的癌症特異性模型包括基因組特徵(驅動基因突變或拷貝數改變),如果包括 DNA 甲基化數據,則效果更好。

對藥物開發人員來說,另一個重要的問題是一種藥物有多大可能被用於任何給定的靶點。對於小分子藥物來說,這就需要識別出具有表明這些蛋白質可以結合小分子的特徵。一些研究從已知藥物和非藥物靶點的蛋白質序列中獲得了各種物理化學性質,並將 SVM 或有偏 SVM 與疊層自編碼(stacked autoencoders,一種深度學習模型)一起應用於預測藥物靶點 [13]。這些機器學習方法的例子生成了一組預期可能與藥物結合的靶點,從而減少了潛在的搜索空間,當然,這些靶點仍需要進一步的驗證。

4、小分子設計與優化

發現能夠阻斷或激活感興趣的目標蛋白的候選藥物涉及對大型化合物文庫進行廣泛的虛擬和實驗性的高通量篩選。然後進一步提純和修飾候選結構,以提高靶標專一性和選擇性,同時優化藥效學、藥代動力學和毒理學特性。然而,由於缺乏足夠的高質量的新化學數據,如蛋白質水解靶向分裂 (PROTAC) 和大環,可能會限制應用機器學習方法對這些化學的影響。

當推斷小分子的性質和活性時,DNNs 可以顯著提高預測能力 [14]。單樣本學習(one-shot learning)技術可以用來減少在新的實驗裝置中對分子讀數進行有意義的預測所需的數據量。結合機器學習和馬爾可夫狀態模型,這項技術被用來鑑定以前未知的阿片劑與μ阿片受體結合的機制,揭示了參與其激活的變構位點 [15]。

機器學習在化學信息學、藥物研發中的另一個有趣的應用是通過 NNs 產生新的化學結構。Gomez Bombarelli 等人提出了一種利用變分自動編碼器(VAE)生成化學結構的新方法(圖 4)。第一步是使用 VAE 進行無監督學習將 ZINC 數據庫中的化學結構(SMILES 符串)映射到潛在空間。當 VAE 訓練完成,潛在空間中的潛在向量就成為分子結構的連續表示,並且可以通過訓練後的 VAE 可逆地轉化為 SMILES 符串。通過任何一種優化方法(如貝葉斯優化)在連續的潛在空間中搜索最優的潛在解,然後將搜索到的潛在解解碼成 SMILES 符串,就可以生成具有期望性能的新結構。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 4:變分自動編碼器(VAE)方法的說明。

基於 Kaggle 社區的競賽在推動藥物研發領域的方法開發也有著積極的意義。默克·夏普 (Merck Sharp) 的研究人員組織了一項 Kaggle 比賽(https://www.kaggle.com/c/MerckActivity),用於預測其他相關物質的吸收、分佈、代謝和排洩 (absorption, distribution, metabolism and excretion,ADME) 參數以及某些生化指標。獲勝的團隊使用 DNNs,在 15 個化驗系統中,有 13 個系統的表現略好於標準的隨機森林 [16]。

小分子設計領域中一個尚未解決的挑戰是如何最好地表示化學結構。目前存在過多的化學結構表示方法,包括簡單的循環指紋、擴展連通性指紋 (extended-connectivity fingerprint,ECFP),以及複雜的對稱函數等等,如圖 5 所示。目前還不清楚哪種結構表示法最適合於哪種小分子設計問題。因此,在化學信息學領域中機器學習研究的興起是否會為結構表示的最佳選擇提供更多的指導,這將是一件非常有趣的、值得深入探討的事情。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 5:機器學習模型中化學結構表示的 Kaggle 挑戰賽。

5、預測性生物標記物

基於機器學習的生物標記物發現和藥物敏感性預測模型已經被證明是幫助提高臨床成功率、更好地瞭解藥物的作用機制,以及為患者識別正確藥物的一種有效方法。在藥物研發的整個過程中,後期臨床試驗需要花費多年時間和數百萬美元來進行,因此使用臨床前和/或早期臨床試驗數據及早建立、驗證和應用預測模型將是非常有益的。這一流程包括:在臨床前數據庫上使用機器學習方法預測翻譯生物標記物,在使用獨立的數據庫 (臨床前或臨床) 進行驗證後,使用該模型及其相應的生物標記物對患者進行分層,識別潛在的適應症,並提示藥物的作用機制。整個過程如圖 6 所示。藥物敏感性預測模型 (黃框) 可以使用機器學習方法生成臨床前數據。然後,可以使用來自早期臨床患者樣本的數據來測試該模型。一旦得到驗證,該模型可用於患者分層和/或疾病適應症選擇,以支持藥物的臨床開發,並推斷其作用機制。圖 6 中:En 表示彈性網絡;IHC 表示免疫組織化學;MOA 表示作用機理;RF 表示隨機森林;SVM 表示支持向量機。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 6:利用預測生物標誌物支持藥物發現和開發。

不過,雖然有關生物標記物和預測模型的文獻數以千計,但很少有文獻應用於臨床試驗。造成這一差距的因素有很多,包括數據質量、模型選擇、數據和軟


分享到:


相關文章: