COVID-19數據集彙集AI專家,生命科學研究員進行治療

  BIO-IT社區已經建立了COVID-19開放研究數據集,以支持有關尋找該病毒治療方法的研究。(GETTY圖像)

COVID-19數據集彙集AI專家,生命科學研究員進行治療

COVID-19

  AI Trends編輯總監Allison Proffitt

  所有的Bio-IT團體都渴望為SARS-CoV-2及其所致疾病COVID-19的治療,診斷和疫苗計劃做出貢獻。公司正在提供諮詢服務,計算資源,用於臨床試驗的工具等等。但是最大的捐贈可能是龐大的數據量,供研究人員挖掘答案。

  3月16日,艾倫AI研究所(AI2),陳·扎克伯格計劃(CZI),喬治敦大學安全與新興技術中心(CSET),微軟和國家醫學圖書館(NLM)發佈了COVID-19開放研究數據集(CORD-19)。

  該數據集可通過艾倫人工智能研究所的語義學者平臺訪問,其中包含有關COVID-19,SARS-CoV-2和冠狀病毒組的學術文獻。

  語義學者總經理道格·雷蒙德(Doug Raymond)對AI Trends表示,語義學者是一種免費的,由AI驅動的工具,可用於瀏覽科學文獻。成立於2015年的Semantic Sc​​holar收集了數百萬篇經過同行評審的期刊文章,預印本服務器出版物,相關的GitHub存儲庫,博客文章,臨床試驗數據,演示文稿,視頻等。語義學者收錄的論文超過1.8億篇。

  Doug Raymond,語義學者

  該CORD-19數據集目前包括47,000篇學術文章,包括來自考研36000篇文章的全文,使用的搜索查詢包括COVID-19,冠狀病毒,SARS,MERS和其他相關方面發現。根據相同的查詢,包括來自bioRxiv和medRxiv的預印本。雷蒙德說,該數據集包括一般性冠狀病毒的信息,論文可追溯到1970年代。

  “我們與Elsevier,世界衛生組織以及許多其他機構合作,以獲得文章的全文,然後我們以JSON格式創建了此數據的結構化表示,使您可以查看所有內容。元數據,全文,”他說。“我們計劃添加其他元數據,例如引文,以顯示不同論文之間的鏈接。”

  目前,CORD-19數據集每週更新一次,研究人員可以下載。雷蒙德說,他們正在努力發佈每日更新。

  除了數據池外,AI2團隊還發布了工具。CoViz使研究人員能夠識別CORD-19數據庫中出現的概念之間的關聯。CORD-19 Explorer是建立在頂部的搜索引擎。

  “從本質上講,這是一種獲取以前成千上萬個PDF PDF的方法,並使它非常非常容易地針對任何特定的研究興趣來複習該文獻。”

  結構優勢

  實際上,通常有大量有關COVID-19和冠狀病毒的信息,許多小組正在努力收集和共享這些數據。世界衛生組織有一個COVID-19研究數據庫 ,美國國立衛生研究院LitCOVID 資源也跟蹤COVID-19文獻​​。Microsoft專門提供了COVID-19資源頁面 和 CORD-19 AI強力搜索。歐弗頓(Overton)創建了COVID-19政策數據集,而Cochrane圖書館也策劃了COVID-19文學評論集。

  “我們坐在上個世紀我們創造的科學寶庫上。我們想讓與COVID-19相關的任何事物向全世界開放,以找到一種治療方法,並使我們瞭解我們目前正在經歷的事情,這只是超現實的事情。”邁克爾·丹尼斯說,他迴盪了許多人的想法。

  化學摘要服務創新副總裁Michael Dennis

  Dennis是美國化學學會的一個分支化學摘要服務的創新副總裁。100多年來,CAS一直在收集小分子並對其化學結構,序列,毒性和已知的生物學活性進行分類。CAS已建立了約50,000種化合物的候選化合物數據集,這些化合物是根據其化學結構與已知抗病毒化合物的相似性以及這些結構的可藥物性和毒性而選擇的。該集合在CORD-19數據集中可用。

  丹尼斯說:“如果願意的話,這將是科學家的開端。”

  CAS首先使用SciFinder n編譯所有已知抗病毒劑的列表,SciFinder n是用於在CAS註冊表中挖掘1億個小分子的CAS發現平臺。

  “我們淘汰了已知的抗病毒化合物。一個例子是瑞德昔韋。它具有CAS登記號,我們對該分子(包括其形狀)瞭解很多。我們最終獲得了約100種已知的抗病毒藥。我們不僅僅關注COVID-19;我們不僅關注冠狀病毒。我們擴大了一點,”丹尼斯說。從那裡開始,研究小組通過尋找具有相似化學結構的化合物進行亞結構搜索和相似性搜索,然後根據大小,毒性和生物學活性進一步完善了該列表,從而基於這100種已知的抗病毒劑擴展了候選對象庫。他們尋找抗感染藥,呼吸系統藥和酶抑制劑。

  “最終我們得到了約50,000種化合物的候選化合物數據集,” Dennis說。“我們不能保證他們會治療[病毒感染],但基於我們所做的所有工作,它們與已知的抗病毒藥物有關。”

  CAS於3月中旬發佈了其COVID-19結構數據集,並通過語義學者託管的CORD-19數據集提供了該數據集。CAS已經在處理其他數據集。“我們開始研究SAR數據-結構活動關係數據。這與這些分子如何與靶標蛋白質結合有關。這種關係對任何疾病的治療都很重要。”丹尼斯說。

  團結努力

  Dennis says the CAS dataset has been downloaded by pharma companies, biotechs, and academic researchers all over the globe. Many are organizations CAS has had long relationships with, but some are new. “They’re organizations that aren’t traditional biotech or pharmaceutical companies. They’re organizations that focus more on software and AI. They normally wouldn’t license tools like SciFinder, but they want access to this kind of rocket fuel for their AI engines,” he said.

  在人工智能方面,雷蒙德也看到了類似的融合。他說:“我們看到了兩個社區的極大興趣。” “使用自然語言處理技術來嘗試挖掘嵌入在該數據集中的信息的NLP社區非常參與,並且已經根據我們發佈的內容發佈了工具,新的評論和信息。我們還看到醫學研究界也對資源產生了極大的興趣。”

  丹尼斯(Dennis)和雷蒙德(Raymond)都認為,將這些生物醫學數據集提供給生命科學研究者和AI研究者,將加速發現治癒方法。

  “我認為這將是一種混合[努力],”丹尼斯談到未來的治療方法。“我認為這將是AI技術與更傳統的科學的結合,它將為COVID-19解鎖下一種療法。它在那裡。我100%相信我們會找到它。”

  雷蒙德同意了。“我們成立時是一家為了公益的AI研究所。遭受像COVID-19這樣的威脅[影響我們所有人。]這是展示AI如何支持更好的科學方法的絕好機會。我們希望不僅能夠幫助找到COVID-19的治療方法並最終治癒它,而且我們能夠更廣泛地促進科學進步。”


分享到:


相關文章: