一個殘酷的事實是,我們已研發出的藥物,與現存的疾病數目相比,可謂是九牛一毛,有許多疾病至今無藥可治,而新的疾病、病毒又層出不窮,比如我們眼下正在經歷的新型冠狀病毒肺炎。
我們如何才能提升新藥研發的效率?也許人工智能可以?
賴力鵬
晶泰科技聯合創始人麻省理工學院生物物理博士後傳統的新藥研發過程是怎樣的?它有兩個特點:第一,週期特別長;第二,體系非常複雜。
一個藥物的發現,首先需要在生物學上確定可能產生疾病的原因,然後到各種可能的分子當中去尋找,找到合適的藥物,最後在醫學上臨床測試。
傳統藥物的研發過程
前後平均下來,可能要花超過10年時間,總體的投入會超過10億美元,但成功率可能還不到10%。
1901年,我們人類第一次確診阿爾茲海默症,到2019年已經經過了100多年的時間,我們依然沒有能夠找到有效的治療方法。(阿爾茨海默症,一種神經退行性疾病,多發於老年,出現記憶障礙、失語、失去認知能力等是該疾病主要表現)我們等待了100年,還是沒有找到更好的藥。
《Nature》在2017年有篇文章叫The drug-maker’s guide to the galaxy,它給了我們一個新的希望:經過化學家的分析,在整個化學空間裡面,我們可以找到的藥物分子的個數,可能性是10的60次方。
整個化學空間中可以找到的藥物分子的個數,可能性是10的60次方
什麼概念呢,我們太陽系裡面所有的原子加到一起,數量大概是10的54次方,所以這不單單是54和60的區別,這是一個指數級的差別。
而我們在傳統實驗室裡,通過傳統的藥物篩選辦法能夠接觸到的分子數量,大概在10的11次方,11和60,這兩個數字中間,存在著一個巨大的差異。
就像我們要探索的可能是整個太陽系裡所有的原子,我們要把每個原子都拿起來,看一看這個原子到底能不能成為藥物,但我們現在實驗室裡能夠接觸到的原子,大概可能就是不到這個屋子這麼大的一個範圍裡的原子數量。
賴力鵬在造就演講
這篇文章中還提到,在人類的實驗室裡,我們沒有辦法真的把這些分子全部合成出來,那麼虛擬的手段,或者人工智能手段,可能是我們下一個階段尋找新藥的努力方向。
《復仇者聯盟》裡面有個角色叫蟻人,蟻人可以把自己縮小到叫量子力學的尺度,在電影裡他可以在這個尺度看到一個非常奇幻的世界。
現在其實不需要到量子力學尺度,阿伏加德羅定律告訴我們,我們周圍大概20升的氣體裡面大約有10的23次方個分子,假設這些分子都各不相同,我們想做的就是在這麼大量的分子數目裡面,去找到那個和我們所遇到的疾病、我們所遇到的挑戰,能夠相匹配的藥物分子。
類似於我們去問在宇宙中10的25次方個恆星當中,存不存在另外一個人類可以居住的星系?在這麼大規模的潛在藥物分子裡面,我們能不能找到一個真的能夠治癒我們疾病的分子?
如果有,我們怎麼找到它?
我們把這個問題拆成兩個部分:
第一,如何構造一個虛擬的化學空間?現在很多的化合物,包括層出不窮的新藥,它本來在自然界中是不存在的,那麼我們需要想出一個方法,把它構造出來。
第二,在這10的60次方的空間裡面,我們怎麼找到真的能夠成為藥物的分子?
當我們真的走近第一個問題去看的時候,我們就發現,首先在工程上這是一件很難的事情,我們假設每一個藥物分子,可以用一個比特來存儲,這已經是一個很理想的假設,因為一個分子,它可能並不是只有0和1兩個狀態,這裡只是一個簡化的假設。
目前像Facebook這麼龐大的社交網絡,它所有的數據加起來,大概在10的18次方的比特左右。假設我們地球上每一個人,都擁有Facebook這麼大的存儲能力,我們大概有100億人,也就是10的10次方,每個人有10的18次方的存儲能力,所以我們擁有接近10的28次方的存儲能力。
我們需要的空間是多大呢,10的60次方。所以這就意味著——我們要在宇宙當中對應每一個恆星有100億人,然後每一個人,都擁有像Facebook這樣的存儲能力,我們才能把這些數據存下來。
10的60次方意味著什麼
再假設,我們突然有了一個特別好的高科技,我們能把這些數據全部儲存下來,我們的處理能力也不夠。
現在我們經常處理的一個龐大的虛擬化合物庫的數據量,大概可能到1000億的範圍。而在1000億的可能性當中尋找到藥物分子的處理時間,大概需要幾天時間。
所以當數據從1000億,也就是10的11到12次方,增加到10的60次方的時候,它已經是一個比一般概念的天文數字更大的一個數字。現有的計算能力,我們還沒有辦法處理這麼龐大的數據。
我們會關注新的計算方法,比如說量子計算的出現,會不會在這種暴力美學的情況下,給我們帶來一些更多的可能性。但在新的計算方法還沒有出現之前,我們還需要想辦法。
我們提出一個設想,10的60次方的化學分子,是不是都是有用的分子?
比如,現在針對阿爾茲海默症的藥物,很顯然在10的60次方里面,它們並不是都是對阿爾茨海默症有用的分子,我們只需要找到那些可能孤立的、但是每個分子都可能對阿爾茨海默症有用的小島。
賴力鵬在造就演講
面對著10的60次方的化合物空間,我們怎麼樣用一個更好的數學方法,把這些可能有用的化合物小島找出來、表示出來?
一個藥物能夠成為藥,它在多方面都必須是優秀的:有很好的藥效,被很好地吸收,不具有毒性……我們就是要在這個空間當中,用這些條件去找到那些孤立的小島,讓我們發現藥物的機會變得越來越大。
和傳統的方法相比,我們具有模擬的優勢:在對一個分子去做一些改變的時候,我們可以相對容易的用計算機產生幾十萬或者幾百萬和這個分子相似的一些分子,讓它們能夠具有相似的成藥的可能性;
大家看這個分子,是我隨便挑出來的,你們覺得這個分子長得漂亮嗎?它像不像個藥?
來那度胺
其實這個是一個已經成藥的、非常重磅的抗腫瘤藥物,叫來那度胺。它是美國Celgene公司在2005年上市的一個重磅藥物,最近幾年的年銷售額應該是過幾十億美元。
化學、生物本身,它也有自己的語言規律
熟悉這種語言,並針對這種大量的分子結構,做深度學習,人工智能就有可能學會這種化學分子結構的語言。
人工智能畫的分子
這是我們做的一個比較早期版本的一個人工智能,就像大家可能聽過說人工智能可以作曲、畫畫,其實人工智能也可以畫分子。
我們通過讓機器學習了大量的分子結構數據之後,它學到了一些化學的知識,然後它開始去產生分子結構。
但我知道這些圖畫出來,如果有化學家看見,可能會把我拍在地上,其中有些分子的化學結構可能是非常不合理的。目前我們在這個最早期版本上已經做了很多的改進,讓AI產生的分子儘可能符合藥物設計的要求。
化合物空間分佈示意圖
這張圖我非常喜歡,它特別像天空中的一些星圖,它也特別像大腦。它是我們自己做出來的一張化合物空間分佈示意圖。
這個圖上的每一個點代表一個分子結構:藍色的點是我們用來訓練人工智能所用到的我們的分子數據集。紅色是人工智能學習完之後,去隨機地產生不同的、新的分子結構的分佈。
我們最想找到的是,去找到那些更可能成藥的真正高質量的小島。
就像Alpha Go或者Alpha Master,它們可以和自己對弈,不斷強化,不斷去糾正自己的習慣,從而下得越來越好一樣。產生分子的人工智能也是,我們通過一定的規則去告訴它,我到底需要什麼樣的分子結構,那麼它就可以去學習。
這張圖上黃色的點,是我們對分子溶解度表現進行重點優化後篩選出來的分子。可以看到這些經過強化學習的黃色分子的分佈,和紅色的隨機分佈,產生了顯著的不同。
我們其實是利用我們的化學手段,在嘗試和人自身進行一場對話。
上個世紀的人類基因組計劃是一個偉大的計劃,是我們嘗試在分子層面上去理解:
我們的生命是如何自我表達,我們的代際之間是怎麼去溝通,我們如何通過遺傳物質,讓一代人和下一代人進行對話。
現代生物學已經知道,鹼基可以形成DNA的序列,然後DNA通過生物學的過程,可以去指導蛋白質的合成,而蛋白質是由20種氨基酸按照一定的規律排列起來的,不同的排列可能會有不同的功能。
而我們已經可以用人工智能和計算的方法在一定程度上做到:你給我一個蛋白質序列,我可以告訴大家,它在三維空間當中會具有什麼樣的結構,而這個結構會怎樣影響到生物的功能,不同的蛋白質之間通過三維的結構如何產生對話,從而去影響彼此。
在虛擬空間計算得到的蛋白質的三維結構
下面這張圖左邊藍色的部分是蛋白質,是生物學的理解,然後黃色的部分,是我們做的化學分子,是我們的化學語言。
藥物研究是一場我們嘗試與自身的“對話”
我們要做的事情就是,
剛才所講的這些東西聽起來很科幻,但它其實並不是神話。這裡演示的是我們的實際案例,但圖裡面的結構不是真實案例中的。這裡只是演示了我們利用人工智能進行早期藥物發現的過程:
人工智能藥物發現的流程
我們拿到了一個蛋白,然後我們可以用人工智能的方法去產生那些我們所感興趣的、可能有用的化合物的空間,這個案例裡我們產生了600萬的化合物空間;然後我們基於對蛋白結構的理解,以及對小分子化合物的溶解度、毒性,在體內的吸收、代謝、排洩等屬性進行同時的優化,最後我們留下了六個分子;然後這六個分子,在為期一個月的篩選過程中,最後的結果表現非常良好,可以進行到藥物研發的下一個階段。
這個項目我們在繼續推進,在未來,新的藥物很有可能會誕生在這六個分子當中。
這也是人工智能比傳統的方法更有優勢的地方,利用機器學習、人工智能的方法,能夠在在非常早期,對未來將會成為藥物的這些分子同時進行相對全面的判斷,我們能提前篩掉後續實驗會失敗的分子。
賴力鵬在造就演講
所以這就是為什麼,人工智能用在新藥發現上,有希望能極大地提高現在的發現效率和現在的成功率,我們可能有希望說,把現在需要三到四年才能完成的新藥發現的前期過程,縮短到一年的時間就可以做完。
但回到現在現狀本身,我們不得不充滿敬畏地說,生物是一個非常複雜的體系。我們不認為說現在人工智能,可以單槍匹馬完成整個新藥發現的歷程,我們更多認為人工智能,是在幫助我們更好地理解自己。
在整個新藥發現的過程中,人工智能技術已和藥物化學家一起合作,來讓人類可以去發現更好的藥物。
當然,在所有的藥物發現創新過程中,計算只是一方面。我們可以看到還有其它大量的創新:機器人自動化的實驗方法、基因檢測技術和化合物篩選的結合、大規模的分子庫的篩選方法,其實都在蓬勃的發展中。
藥物發現創新過程中的創新
2019年美國FDA一共批准了48款新藥,其中有20個是全新意義上的新藥。
在藥物創新這一塊,大家都在努力,但是遠遠不夠。在人工智能幫助我們發現新藥的路徑上,我們可能還是會面臨很多挑戰,比如如何把各個藥企的數據結合到一起,利用更多高質量數據去做出更好的模型。
更重大的挑戰是,當面臨這樣一個跨學科的複雜問題,在人工智能新藥發現這個話題下面,我們會匯聚化學、生物、計算機、數學、統計等多個學科的人才,這些人怎麼樣才能夠站到一起,彼此對話,彼此理解,而不是堅持己見,保有原來固有的思維方式。這個可能是我們需要解決的最大的困難。
阿西莫夫曾經在《永恆的終結》中說:
阿西莫夫《永恆的終結》中的一句話
用技術發現藥物,也是這樣。
文字 | 李瑩;視頻 | Don
版面 | 田曉娜