把你的腦電波變成語音或文字,現實版“讀腦術”來了

頭圖來源:IC photo,原標題:《華裔教授AI解碼腦電波,上演現實版“讀腦術”,大腦所想直接合成文本或語音》

許多患有神經疾病的患者因喪失語言能力,需要依賴特定的通訊設備進行溝通,這類設備大多利用腦機接口或者頭部、眼睛的動作來控制光標,以選擇屏幕上的字母,從而拼出他們想說的句子。但是,這個蹦單詞的過程,實在無法與人類的正常說話過程相比。3 月 30 日,《自然-神經科學》發表了美國加州大學舊金山分校華裔教授 Edward Chang 及同事開發的一款腦電波 AI 解碼器,能夠將大腦活動信號直接轉化為句子文本。

具體而言,研究人員首先通過電極記錄受試者說話時的神經活動信號,並用特定語句和神經信號特徵之間的關聯數據訓練 AI 算法,試驗證明,訓練後的機器翻譯算法能夠準確地解碼受試者的神經活動,並將其接近實時地翻譯為句子文本,錯誤率低至 3%。

從大腦“讀取”人的意圖

說話似乎是一件毫不費力的事,但實際上說話卻是人類執行的最複雜的活動之一。十多年前,科學家首次從大腦信號中解碼語言,但是一直以來,語言解碼的準確性和速度遠遠低於自然語言交流。目前一些用於大腦控制打字的腦機接口技術,其實依賴的是頭部或眼睛的殘餘非語言運動,或者依賴於光標控制以逐個選擇字母並拼出單詞,這種方式目前可以幫助癱瘓的人通過設備每分鐘輸出多達 8 個單詞。但與流程自然語言交流時每分鐘 150 個單詞的平均速度比起來,現有技術的輸出速度還是太慢了。

使用特製語音合成器與外界交流的史蒂芬·霍金

理論上來說,腦機接口技術可以通過直接從大腦“讀取”人的意圖,並使用該信息來控制外部設備或移動癱瘓的肢體,來幫助癱瘓的人完成說話或運動。為了獲得腦機接口直接解碼語言更高的精度,研究人員利用了機器翻譯任務與從神經活動解碼語音到的相似性。也就是說,和機器翻譯類似,解碼語言也是從一種語言到另一種語言的算法翻譯,兩種任務實際上映射到同一種輸出,即與一個句子對應的單詞序列。只不過,機器翻譯的輸入內容是文本,而解碼語言的輸入內容是神經信號。於是,研究人員盤點了機器翻譯領域的最新進展,並利用這些方法訓練循環神經網絡,然後嘗試將神經信號直接映射為句子。

語言相關的神經活動解碼過程

具體而言,研究人員通過電極記錄四名受試者他們大聲讀出句子時的神經活動。之後,研究人員將這些數據添加到一個循環神經網絡中,從而將規律性出現的神經特徵表示出來,這些神經特徵可能與言語的重複性特徵(比如元音、輔音或發音器官接收的指令)相關。

接著,研究人員通過另一個循環神經網絡逐字解碼這種算法表示,形成句子。研究人員發現,明顯參與言語解碼的腦區,同樣參與言語生成和言語感知。通過這種機器翻譯算法,研究人員在一名受試者身上進行試驗,結果證明通過神經活動解碼為口頭句子的錯誤率低至 3%。

此外,如果利用某人的神經活動和言語對循環網絡進行預訓練後再在另一名受試者身上進行訓練,最終的解碼結果有所改善,這意味著這種方法在不同人員之間或許是可轉移的。但是,還需要開展進一步的研究來更加完整地調查這個系統的功能,將解碼範圍擴展到研究所限語言之外。

腦機接口+AI 合成語音

直接通過解碼大腦活動信號來合成文本或語音,不只是一項科幻般的“讀心術”,更是一種頗有前景的治療方案。

控制光標進行單詞拼寫,只是離散字母的連續串聯,而解碼語言則是一種高效的通信形式。與基於拼寫的方法相比,直接語音或文本合成具有諸多優點,除了以自然語速傳遞無約束詞彙的能力之外,直接語音合成還能捕獲語音的韻律元素,例如音調、語調等。

此外,對於由肌萎縮性側索硬化或腦幹中風引起的癱瘓患者,通過直接記錄來自大腦皮層的神經控制信號來合成語音,是實現自然語言高通信速率的唯一手段,也是最直觀的方法。

去年 4 月,Edward Chang 等人還在 Nature 雜誌發表了開發出一種可以將腦活動轉化為語音的解碼器。這套人類語音合成系統,通過解碼與人類下頜、喉頭、嘴唇和舌頭動作相關的腦信號,併合成出受試者想要表達的語音。

Edward Chang 教授

為了重建語音,研究人員設計了一種循環神經網絡(RNN),首先將記錄的皮質神經信號轉化為聲道咬合關節運動,然後將這些解碼的運動轉化為口語句子。

整個過程分為兩個步驟,第一步,將神經信號轉換成聲道咬合部位的運動(紅色),這其中涉及語音產生的解剖結構(嘴唇、舌頭、喉和下頜)。而為了實現神經信號到聲道咬合部位運動的轉化,就需要大量聲道運動與其神經活動相關聯的數據。但研究人員又難以直接測量每個人的聲道運動,因此他們建立了一個循環神經網絡,根據以前收集的大量聲道運動和語音記錄數據庫來建立關聯。第二步,將聲道咬合部位的運動轉換成合成語音。

研究人員的這種兩步解碼方法,產生的語音失真率明顯小於使用直接解碼方法所獲得的語音。在包含 101 個句子的試驗中,聽者可以輕鬆地識別並記錄下合成的語音。

在科幻世界裡,通過意念信號控制外界設備十分酷炫,實際上,在現實世界中,其背後的腦機接口技術已有近百年的歷史。

隨著腦機接口領域科學研究與應用技術的不斷突破,尤其是 AI 算法的加持,為許多當前仍無法解答的難題提供更好了的探索工具,不僅能夠幫助人類進一步瞭解自己的大腦,更重要的是為診斷、治療腦部及其它嚴重疾病提供瞭解決方案,甚至廣泛應用於睡眠管理、智能生活和殘疾人康復等領域。

https://nature.com/articles/s41593-020-0608-8

https://www.nature.com/articles/s41586-019-1119-1

https://mp.weixin.qq.com/s/ZjAW1CDUli1VXpWcNnF-sQ


分享到:


相關文章: