新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染


新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

智東西(公眾號:zhidxcom)編 | 董溫淑

智東西4月29日消息,近日,麻省理工學院Auto-ID Labs研究小組研發了一個基於語音的新冠肺炎AI檢測工具——Sigma。Sigma可以“聽”出健康人和新冠肺炎患者咳嗽聲的差別,從而區分出用戶是否感染了COVID-19。

與之前的AI抗疫方案不同的是,研究小組希望用“眾包”的方式獲取模型訓練數據,並根據實時訓練數據同步更新模型。

4月9日,研究小組在學術網站arXiv上發表文章介紹Sigma計劃,文章名稱為《“嗨Sigma,我感染了冠狀病毒嗎?”呼籲用新的AI方法來支持應對新冠病毒大流行的專業醫療保健人員(“Hi Sigma,do I have the Coronavirus?”:Call for a New Artificial Intelligence Approach to Support Health Care Professionals Dealing With The COVID-19 Pandemi)》。

論文鏈接:https://arxiv.org/pdf/2004.06510.pdf

新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

目前這項研究還在持續推進,研究進展在https://opensigma.mit.edu網站更新。

一、語音識別算法能“認出”肺炎患者咳嗽聲

截至4月22日,全球新冠肺炎累計確診人數已經超過250萬,死亡人數超17萬。巨大的感染者基數使醫療系統不堪重負,疑似病例檢測同樣需要佔用醫療資源。在這種情況下,已經有許多研究機構推出AI解決方案,協助醫療人員進行COVID-19檢測或提供預檢。

但是,麻省理工學院Auto-ID Labs研究小組指出,現有的研究要麼使用靜態數據集、要麼在大企業牽頭下進行,都具有一定侷限性。靜態數據集難以反映出疫情的發展變化,大公司牽頭的方案也因隱私風險而飽受質疑。

Auto-ID Labs研究小組試圖解決這些問題。最終,他們從之前的一項研究中得到了靈感。該研究證明,AI模型可以通過咳嗽聲錄音,區分出肺炎患者與正常人,哪怕是來自廉價手機的錄音也不會影響判斷結果。

對新冠病毒感染者咳嗽聲的研究也得出了相同結論。

新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

▲AI模型可識別出健康人咳嗽聲和感染者咳嗽聲的不同

在針對神經類疾病患者的另一項研究中,語音識別算法也比人類專家更早判斷出病人發病情況(樣本量小於50的精神病患者和樣本量小於1000的認知障礙患者)。

因此,研究小組提議,可以設計一款AI語音識別工具,並用大規模收集的實時數據對其進行訓練。

經過幾次嘗試,研究小組打造出了AI語音識別模型Sigma。

二、模型搭建:基於CNN,學會區分健康人和肺炎患者

Sigma模型基於一個卷積神經網絡(CNN,convolutional neural network)進行訓練。

首先,研究人員利用一個日常談話數據庫對CNN模型進行預訓練;

然後,研究人員用大量相似但不同的數據訓練模型。這一過程被稱為遷移學習,可以提高模型的預測能力。

在遷移學習的第一階段中,模型需要學習分辨咳嗽和不咳嗽的聲紋。研究人員認為這一階段最為重要,因此,他們比較了支持向量機(SVM)、K-近鄰算法(k-Nearest Neighbors algorithm)、隨機森林(Random Fores)、邏輯迴歸(Logistic Regression)這4種淺層機器學習算法的準確性,試圖找出最佳方案。

結果顯示,邏輯迴歸算法的準確性最高。

新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

▲4種算法準確性比較

接下來,研究人員利用不到200個樣本數據,藉助主成分分析方法(Principal Component Analysis)製作出一個圖表,對健康人咳嗽和新冠肺炎咳嗽分別進行了聚類分析(Cluster analysis),提取兩種咳嗽的特徵。

新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

▲病人不同病程階段咳嗽聲的特徵

新冠病毒還能用語音識別?AI模型“聽”咳嗽聲判斷是否感染

▲COVID-19感染者咳嗽聲的特徵

文章中並未給出準確率數值,但寫到經過遷移學習後,Sigma模型能夠主動區分出這兩類人群。

三、模型發展:用大規模實時數據進行遷移學習

為了進一步提升Sigma模型的準確性,研究人員計劃在未來收集大量真實數據,讓模型進行深入遷移學習。他們強調:“如果我們有更多的臨床數據和志願者,我們就可以做更多”。

他們將從4個主要渠道獲取信息:招募150名新冠肺炎患者和3000名接觸者,同時固定收集墨西哥、西班牙和美國這三個國家的感染者咳嗽聲音頻。

此外,研究人員呼籲更多新冠肺炎患者通過社交媒體渠道提交錄音。文章中寫明瞭對錄音的要求:

1、錄製內容可以是咳嗽聲、數字從0到9或語氣詞“Ommmmmmmmm”;

2、錄音時長為12秒。

研究人員稱,如果能夠建立一個足夠大的實時數據來源,Sigma模型還能被開發出更多功能:

對於已經確診新冠肺炎、但在居家隔離的患者來說,Sigma可以進行一項縱向音頻測試,為用戶提供是否需要醫院就診的建議;Sigma還可以篩選出病情最嚴重的新冠肺炎患者,優先為他們分配重症監護病房。

結語:Sigma模型更為精確,期待早日落地

麻省理工學院Auto-ID Labs研究小組推出的Sigma模型利用大量實時數據進行訓練,相比於傳統的AI訓練方法更為精確,或能輔助醫生做出臨床決策。

目前這個計劃還在進行中,期待它能夠儘快臻於成熟,在抗疫進程中發揮作用。


分享到:


相關文章: