人工智能如何幫助科學家找到可靠的冠狀病毒研究

文 | AI國際站 唐恩

編 | 艾娃

本文由AI國際站 原創出品,未經許可,任何渠道、平臺請勿轉載,違者必究。

隨著世界團結起來與COVID-19的鬥爭,世界各地的科學家和研究人員正在研究新型冠狀病毒,並將其發現發表在經過同行評審的期刊和預發本服務器上。

人工智能如何幫助科學家找到可靠的冠狀病毒研究

這些研究論文可能散佈著一些謎題,這些謎題將解開用於COVID-19的治療方法或疫苗,或治療患者並防止病毒傳播的新方法。不幸的是,沒有一個人可以瀏覽成千上萬的文檔,而且每週還要增加成千上萬的文檔。

這是人工智能界派上現場的地方。在幫助應對冠狀病毒大流行的其他努力中,人工智能研究人員正在忙於開發工具,這些工具將幫助醫學家們瀏覽圍繞冠狀病毒的快速增長的文獻庫。政府機構,科技巨頭,大學和研究實驗室的共同努力,共同處理了COVID-19論文,將衡量我們先進的AI算法已變得多麼有用。

CORD-19數據集

3月,美國政府與科技巨頭微軟和谷歌合作,收集有關COVID-19的研究論文。該語料庫由艾倫AI研究所(AI2)與Chan Zuckerberg Initiative,喬治敦大學安全與新興技術中心,Microsoft Research以及其他機構合作,編譯為名為COVID-19開放研究數據集(CORD-19)的數據集。國立衛生研究院國家醫學圖書館,與白宮科學技術政策辦公室合作。

CORD-19於3月中旬發佈,可供AI研究人員使用,以使用它來創建可以幫助科學家找到所需信息的機器學習模型。最初的數據集包括來自同行評審出版物的24000多個研究論文,以及bioRxiv和medRxiv等預打印服務器。自那以來,它已發展到超過47000個文檔。

可在AI2的語義學者網站上找到CORD-19,該網站是進行同行評審研究的搜索引擎。機器學習研究人員可以從語義學者那裡下載數據庫。語料庫也已集成到搜索引擎中,可以通過語義學者查詢。

AI2還啟動了CORD-19 Explorer,這是專門針對COVID-19研究語料庫的全文本搜索引擎。該資源管理器還具有其他相關工具的鏈接。其中一些是基於CORD-19構建的,例如使用Microsoft Azure的認知搜索的搜索引擎。其他工具基於其他數據源,例如Elsevier冠狀病毒研究資料庫。您還將找到一個指向COVID-19 Cognitive City的鏈接,該社交網絡專注於阻止冠狀病毒的傳播。

人工智能如何幫助科學家找到可靠的冠狀病毒研究

Kaggle挑戰

語義學者和Google學者,也合併了相關的研究論文,已經成為搜索COVID-19上生成的知識語料庫的強大工具。語義學者使用的是自然語言處理(NLP)領域的最新技術。Google在其搜索引擎的最新更新中還添加了BERT的實現,它是變壓器的實現。

但是,社區有興趣知道他們是否可以突破當前AI算法的極限,並利用它們進一步幫助科學家對抗COVID-19。在發佈CORD-19之後,Google擁有的數據科學和機器學習競賽中心Kaggle發起了COVID-19開放研究數據集挑戰賽。挑戰說明中寫道:“我們正在向世界的人工智能專家發出號召,以開發文本和數據挖掘工具,這些工具可以幫助醫學界為高度優先的科學問題找到答案。”

為了衡量進度和成功,挑戰已分解為10個任務的列表,這些任務可以幫助更好地瞭解有關COVID-19,患者護理和治療發展的新信息。

例如,一項任務涉及非藥物干預。解決此任務的AI應當能夠細讀數據集,並找到討論NPI及其有效性的論文,例如旅行禁令和學校停課如何幫助拉平COVID-19曲線。另一個任務是收集有關COVID-19危險因素的最新發現。結果應包括補充信息,例如研究中發現的證據強度,這些信息可以幫助決策過程。

Kaggle的首席執行官Anthony Goldbloom在關於CORD-19挑戰的諮詢報告中寫道:“研究結果應該集中,簡明扼要,從論文中引用和引用數字,並提供與潛在來源的鏈接。”截至撰寫本文時,CORD-19挑戰賽的貢獻者已超過730名。

人工智能如何幫助科學家找到可靠的冠狀病毒研究

人工智能技術在今天的地位

CORD-19挑戰中包含的任務是非常實際的任務,其結果將直接影響我們對冠狀病毒大流行的反應。但是要注意的一件事是,我們不能指望當代人工智能技術帶來奇蹟。

語言處理可能是AI最具挑戰性的一個子領域,也是人腦最複雜的功能,這是使我們脫離其他生物的一件事。許多專家認為,在我們創建人工智能通用人工智能之前,語言處理問題將一直沒有得到解決。人工智能是一種具有人類抽象,推理和解決問題能力的人工智能。從許多方面來看,我們與通用AI 至少相距數十年。

目前,我們最先進的NLP模型依賴於深度學習和人工神經網絡。神經網絡是非常有效的統計模型,可以在大型數據序列中找到重複出現的模式。如今,大多數高級語言模型中都使用了像轉換器之類的深度學習模型,它可以在超大型文本集上運行,並以超出先前人工智能算法能力範圍的方式回答查詢。

但是,在提取通常以書面和口頭語言省略的隱含含義時,即使是最複雜的AI算法也難以解決。我們仍然沒有能夠像七歲的孩子那樣高效地理解和處理人類語言的人工智能。但一線希望是,這一特殊挑戰涉及非常狹窄的研究領域。與一般自然語言理解相反,CORD-19挑戰有一個非常特定的要求:搜索有關一種病毒和一種疾病的信息。

儘管當前的AI系統缺乏一般的問題解決方案,但它們非常擅長處理狹窄的領域,其性能通常甚至比人類更好。實際上,根據Goldbloom所說,“到目前為止,一些最具影響力的工作都涉及到諸如字符串匹配和正則表達式之類的簡單方法。”如今,甚至不考慮將字符串匹配和正則表達式視為AI。

帶來希望的另一個因素是信息的質量。機器學習的挑戰之一是收集和清理用於訓練模型的數據。在這種情況下,整個社區將齊心協力,並且要進行大量的手動和自動操作,以確保我們擁有可靠的研究文檔合併體。

因此,我們可能無法期望像人類科學家那樣能夠讀取和理解每個文檔的AI系統的出現。過去創建此類AI系統的努力失敗了,並且沒有任何根本性的突破可以顯示出對此方面的改變的希望。

人工智能如何幫助科學家找到可靠的冠狀病毒研究

但是我們可以期待的是,非常專業的AI驅動的搜索工具的開發將幫助我們的科學家在COVID-19上日益增長的信息海中找到相關的信息。只要您知道要問的問題,而且使用這些系統的人肯定會問您,您就能獲得非常優質的信息。

正如A12首席執行官Oren Etzioni上週在《連線》雜誌中寫道:“儘管在接下來的幾週中,陪審團仍未就AI的貢獻進行評判,但很明顯,AI社區已在爭取參加Covid-19。人工智能現在正處於幫助科學家應對Covid-19和未來大流行的第一線,我們使用AI對抗Covid-19的經歷提醒我們,AI是是一種工具,而不是存在,這取決於我們為共同利益而使用該工具。”


分享到:


相關文章: