前言
眾所周知,超級計算機用處廣泛,但用在農業上,讓很多人覺得不可思議。
高粱,一種重要的農作物,用作食品和生物燃料的生產。美國科學家考慮在這個領域如何提高產量和質量,他們的辦法是AI。人工智能(AI)會如何影響農業,食品工業和生物工程領域?美國能源部(DOE)橡樹嶺國家實驗室(ORNL)生物科學部門的研發人員Dan Jacobson提出了一些想法。
在過去的5年中,雅各布森和他的團隊研究了許多類似高粱的植物,以瞭解使它們適應不斷變化的環境和氣候的遺傳變量和模式。作為計算生物學家,雅各布森使用了一些世界上最強大的超級計算機進行工作,包括最近退役的Cray XK7 Titan和世界上最強大,最聰明的開放科學超級計算機IBM AC922 Summit超級計算機,兩者均位於Oak Ridge領導層計算設施(OLCF),是ORNL DOE科學辦公室的用戶設施。
圖源:Pixabay
去年,Jacobson及其團隊在Summit上使用一種稱為“混合精度”的特殊計算技術,成為第一個達到百億分之一秒速度(每秒大約五百億次計算)的計算機組,從而獲得了戈登·貝爾獎。
雅各布森(Jacobson)的團隊目前正在從事眾多項目,這些項目形成了AI在植物育種和生物能源領域的未來發展路線圖。該團隊的工作在10月份的《生物技術趨勢》中有介紹。
在此次問答中,Jacobson討論了他的團隊在基因組選擇算法方面的工作,他對環境基因組學的未來的願景以及模擬與AI相遇的空間。
問:您的團隊在過去一年中一直在做什麼?
雅各布森:我們一直在做一些事情。最近,我們已經開發出新的方法來進行所謂的“基因組選擇”,或設計用於繁殖目的的生物。我們已經開發了一種新的基因組選擇算法,該算法由新興的機器學習方法(統稱為“可解釋的AI”)驅動,該領域通過嘗試瞭解這些算法的決策方式來改進黑盒分類器AI方法。
該算法可幫助我們確定需要組合基因組中的哪些變異,以產生能夠適應其環境的植物。這將根據您要採取的生物工程策略為育種工作,基因編輯工作或這些工作的組合提供信息。
問:去年,您使用一個允許您研究生物體與其環境之間的組合相互作用的代碼突破了百億億美元級障礙後獲得了戈登·貝爾獎。該算法如何適合該研究?
雅各布森:我們仍在使用去年使用的模型,但是現在,我們已經將這種由AI驅動的基因組選擇算法引入到組合度量[CoMet]代碼中,並且每年都會向其提供環境信息,因此我們可以在整個氣候時間內進行全基因組關聯研究。
此外,我們已將我們所謂的“氣候類型”(即植物正在適應的氣候和環境信息)的工作擴展到全球範圍。藉助ORNL的彼得·桑頓(Peter Thornton)及其團隊在生物地理學和氣候領域的專業知識,我們構建了地球上每平方公里土地的模型,並將從土壤到光譜的50年環境和氣候數據編碼到這些模型中質量,介於兩者之間。
為了瞭解不同環境之間的所有關係,我們在峰會上使用了添加到CoMet代碼庫中的稱為Duo的新算法將這些環境相互比較。據我們所知,這是有史以來最大的科學計算。
問:這聽起來是一項巨大的成就。這些比較可以為您提供哪些信息?
雅各布森:這些比較可以幫助我們準確地確定我們可以針對特定環境的位置,以及我們需要包括哪些基因突變和等位基因以幫助這些植物適應不同的環境。我們可以看一個環境,然後說:“對於這種環境,這是我們在植物基因組中要擁有的一切,才能使其儘可能地繁衍。”
問:這是環境基因組學的未來嗎?
雅各布森(Jacobson):我們所看到的綜合視野是所有“-組學”層之間的聯繫,從基因組學(基因表達),蛋白質組學(蛋白質表達)和代謝組學(代謝產物表達)一直貫穿表型(可觀察到的性狀)。因此,從基因組到現象組以及介於兩者之間的所有事物。
理想情況下,我們希望將基因型數據與氣候和環境數據結合在一個集成模型中,從單個核苷酸(構成DNA的分子結構)到行星規模的環境和氣候,都應結合在一起。由於我們實際上已經計算出了行星上每個點的光譜尺度,這是可能的,因為我們實際上已經計算出了地球上每個點的光譜尺度,這是來自我們最近的恆星太陽的天體表型。
首先,我們需要研究此類模型中的組合相互作用,以瞭解它們如何導致我們試圖在植物中優化其新興特性以實現未來的生產力和可持續性。然後,我們可以將其與植物歷來適應環境的方式聯繫起來,以便為生物能源或食品生產設計新的理想基因型,並對其進行優化以在特定環境中蓬勃發展。
問:將來農業中會需要這種東西嗎?
雅各布森(Jacobson):隨著世界的變化,利用“邊際土地”的壓力越來越大,這是目前通常不用於農業或不能有效地用於農業的土地。因此,如果我們設計在這些邊緣環境中壯成長的基因型,那麼除了我們的能源生產外,我們還將能夠增加我們的糧食生產。這是一項雙重用途技術。
我們還真的擔心土地過度施肥,因為這可能導致徑流產生嚴重的生態後果。如果我們能夠優化植物以利用幾乎不需額外肥料的養分,那麼對可持續發展也將帶來巨大好處。因此,我們實際上是試圖從整體上看待這個問題,並儘可能在模型中建立儘可能多的適應,以便我們知道在某些環境中的影響。
問:接下來要做什麼?
雅各布森(Jacobson):下一步是查看歷史數據以及所有這些關係,然後進行展望,以便我們可以實際設計不僅在當前環境區域中能夠繁盛,而且在未來隨著全球網絡變化而繼續繁盛的基因型。對於一年生作物和長期多年生作物而言,向前預測的能力非常重要。
問:還有哪些挑戰?
雅各布森:我們正在做的一切都是繁重的工作,但我們正在研究如何在Summit和OLCF未來的百億億分之一系統Frontier上設計這種新方法,以便我們能夠真正理解所有這些關係。而且,既然我們在所有這些“ -omics”層上都擁有此數據,我們就必須運行這些稱為多面體的層組合,成千上萬次。我們正在構建的下一組算法是在所有多表位之內和之間找到所有可能的關係和關聯。那是下一個領域。
問:您的工作是否會與傳統的氣候模擬模型相交?
雅各布森(Jacobson):這是由數據和AI驅動的氣候信息視圖,與模擬方法不同。隨著時間的流逝,看到它們相交的位置將很有趣,並且我們在這裡可能學到的東西對於氣候模型很有幫助,反之亦然。我們也知道,這種可解釋的AI技術可以在模擬研究中提供很多幫助。理想情況下,我們可以開發可解釋的AI驅動模型,該模型可以幫助模擬模型解決某些瓶頸問題。如果我們可以學習模擬模型使用的模式,並用學習的結果代替它們的某些瓶頸,那麼這些模型可以做更多有創意的事情。確實,這是我們將來可能會看到某些空間相交的地方。
▍來源:網絡整理
▍聲明:如有侵權,請聯繫小編刪除。
▍公眾號:康研機器人
▍今日頭條:康研機器人
▍本公司提供機器人便利店,機器人商店,機器人咖啡館,智能藥房等智能化產品。