AI「讀脣術」再獲突破 準確度超人類專家

AI“讀唇術”再獲突破 準確度超人類專家

全球數以千萬計的聽障人士,催生了龐大的助聽器市場。接下來,AI的發展可能會全面摧毀這個產業,同時給聽障人士帶來無比的便利性和更加正常的生活。不過,對於正常人來說,這意味著又多了一個信息洩露的手段。

對於聽障人士來說,讀唇無疑是優於手語和助聽器的交流方式,既不會阻隔和正常人的交流(手語就不行),也不會給生活帶來太大不便(助聽器就不行)。唯一的缺點就是,讀唇術太難學,而且誤差也很大。幸運的是,AI就是專門用來解決這種問題的。

現在,研究人員正在報告一個新的人工智能程序,它比專業的唇讀本和最優秀的人工智能程序要好得多,它的錯誤率只有以前最佳算法的一半。如果完善並集成到智能設備中,這種方法可以讓每個人都能讀懂唇語。

根據《Science》網站上的一篇文章,國外科研人員開發出了一個新的AI讀唇程序,比現有的無論是專業人員還是AI程序,效率和精確性都高得多,它的錯誤率較現有最佳算法下降了50%。試想,若將這種程序和未來的智能設備,比如AI眼鏡相結合,聽障人士的日常交流即可暢通無阻。倫敦瑪麗皇后大學計算機科學家貝兒(Helen Bear)驚歎:“這是一項了不起的傑作!”

毫無疑問,讓人類自己學會唇語,然後編寫成計算機代碼,巨大的工作量並非人力所能完成的。在這種情況下,機器學習再次發揮了作用。科學家們只需在系統內存入數千小時的視頻和錄音,計算機就能自己解決問題。

因此,研究人員從YouTube下載了14萬小時的視頻,囊括了人們在各種各樣情境下的交談內容。隨後,他們編寫程序,用以細緻標註不同的口腔運動、讀音。隨後,這個程序自動過濾掉了非英語的語音、未說話人員、低質量的視頻內容和非直接拍攝的內容。然後,他們將剩餘長達近4000小時、包括超過12.7萬個英語單詞的片段保留了下來。

哥倫比亞大學計算機科學家阿克巴里(Hassan Akbari)評論稱,這個過程,以及由此產生的數據集——比當前最大的同類數據集大7倍——對於任何開發類似讀唇系統來的人來說,都是“重要而價值連城”的。

在接下來的開發過程中,近年來逐漸成熟的神經網絡系統扮演了重要角色。對於一些簡單的計算元素,這種模仿人類神經系統建立的計算系統,可以高效地“思考”和“學習”。而經過剪輯和歸類的視頻片段,就是這種簡單的計算元素。

如前文所說,當研究小組給程序輸入未標註的視頻時,程序會自動篩選出一些口腔運動片段。而神經網絡提取了這些片段後,可以計算每個視頻幀可能的音素和它們的概率,最後利用可能的音素序列生成英語單詞序列。這個就是AI的“學習”過程。

研究人員曾對新AI程序進行過37分鐘的測試。據他們提交給arXiv網站的一篇文章,在一段陌生的對話視頻中,AI正確識別了41%的唇語內容。這看起來不多,但卻是目前的最佳成績。在同一項研究中,專業唇讀者出錯率為93%(在現實生活中,有語境和肢體語言的情況下,準確率會大大提高)。

目前,對已經學習的內容,AI程序已經掌控到非常精細的程度,例如,它可以通過發出“t”時的不同唇形,判斷整個詞是“boot”還是“beet”,這對於提高準確性大有幫助。

貝兒表示,除了為聽障人士解決交流難題,解讀歷史上,甚至可以解開世界最大的謎題之一:在2006年的世界盃決賽中,齊達內在聽到馬特拉齊說的話後,憤怒地用一記頭槌撞向馬特拉齊胸口,導致自己被罰下場。而馬特拉齊到底說了什麼?現在仍是個謎。

這種技術還能用在分析安全視頻,甚至可能成為特工裝備。可以肯定的是,對於那些看重隱私的人來說,這種技術就是噩夢般的存在。那種走在街上,隨便說什麼都會被攝像頭捕捉到的感覺,也許會讓他們很不好受。

聲明:凡註明為其它來源的信息均轉自其它平臺,目的在於傳遞更多信息,並不代表本站觀點及立場和對其真實性負責。若有侵權或異議請聯繫我們。

責任編輯:茂陵 報錯請聯繫:[email protected]

————————————————

上海市安全防範技術協會主要職責:

• 開展國內外學術、技術、貿易交流合作;

• 做好會員及相關單位技術人員的業務培訓

• 開展行業調查研究;

• 制定行業發展規劃;

• 做好行業資訊服務;

• 推進行業標準化工作和行業市場建設;

• 推動名牌產品戰略;

• 加強行業信息化、智慧化、人工智能、大數據、智慧雲建設;

http://www.ssata.org/


分享到:


相關文章: