AI「讀脣術」再獲突破準確度超人類專家科技頭條網

全球數以千萬計的聽障人士，催生了龐大的助聽器市場。接下來，AI的發展可能會全面摧毀這個產業，同時給聽障人士帶來無比的便利性和更加正常的生活。不過，對於正常人來說，這意味著又多了一個信息洩露的手段。

對於聽障人士來說，讀唇無疑是優於手語和助聽器的交流方式，既不會阻隔和正常人的交流(手語就不行)，也不會給生活帶來太大不便(助聽器就不行)。唯一的缺點就是，讀唇術太難學，而且誤差也很大。幸運的是，AI就是專門用來解決這種問題的。

現在，研究人員正在報告一個新的人工智能程序，它比專業的唇讀本和最優秀的人工智能程序要好得多，它的錯誤率只有以前最佳算法的一半。如果完善並集成到智能設備中，這種方法可以讓每個人都能讀懂唇語。

根據《Science》網站上的一篇文章，國外科研人員開發出了一個新的AI讀唇程序，比現有的無論是專業人員還是AI程序，效率和精確性都高得多，它的錯誤率較現有最佳算法下降了50%。試想，若將這種程序和未來的智能設備，比如AI眼鏡相結合，聽障人士的日常交流即可暢通無阻。倫敦瑪麗皇后大學計算機科學家貝兒(Helen Bear)驚歎：“這是一項了不起的傑作!”

毫無疑問，讓人類自己學會唇語，然後編寫成計算機代碼，巨大的工作量並非人力所能完成的。在這種情況下，機器學習再次發揮了作用。科學家們只需在系統內存入數千小時的視頻和錄音，計算機就能自己解決問題。

因此，研究人員從YouTube下載了14萬小時的視頻，囊括了人們在各種各樣情境下的交談內容。隨後，他們編寫程序，用以細緻標註不同的口腔運動、讀音。隨後，這個程序自動過濾掉了非英語的語音、未說話人員、低質量的視頻內容和非直接拍攝的內容。然後，他們將剩餘長達近4000小時、包括超過12.7萬個英語單詞的片段保留了下來。

哥倫比亞大學計算機科學家阿克巴里(Hassan Akbari)評論稱，這個過程，以及由此產生的數據集——比當前最大的同類數據集大7倍——對於任何開發類似讀唇系統來的人來說，都是“重要而價值連城”的。

在接下來的開發過程中，近年來逐漸成熟的神經網絡系統扮演了重要角色。對於一些簡單的計算元素，這種模仿人類神經系統建立的計算系統，可以高效地“思考”和“學習”。而經過剪輯和歸類的視頻片段，就是這種簡單的計算元素。

如前文所說，當研究小組給程序輸入未標註的視頻時，程序會自動篩選出一些口腔運動片段。而神經網絡提取了這些片段後，可以計算每個視頻幀可能的音素和它們的概率，最後利用可能的音素序列生成英語單詞序列。這個就是AI的“學習”過程。

研究人員曾對新AI程序進行過37分鐘的測試。據他們提交給arXiv網站的一篇文章，在一段陌生的對話視頻中，AI正確識別了41%的唇語內容。這看起來不多，但卻是目前的最佳成績。在同一項研究中，專業唇讀者出錯率為93%(在現實生活中，有語境和肢體語言的情況下，準確率會大大提高)。

目前，對已經學習的內容，AI程序已經掌控到非常精細的程度，例如，它可以通過發出“t”時的不同唇形，判斷整個詞是“boot”還是“beet”，這對於提高準確性大有幫助。

貝兒表示，除了為聽障人士解決交流難題，解讀歷史上，甚至可以解開世界最大的謎題之一：在2006年的世界盃決賽中，齊達內在聽到馬特拉齊說的話後，憤怒地用一記頭槌撞向馬特拉齊胸口，導致自己被罰下場。而馬特拉齊到底說了什麼?現在仍是個謎。

這種技術還能用在分析安全視頻，甚至可能成為特工裝備。可以肯定的是，對於那些看重隱私的人來說，這種技術就是噩夢般的存在。那種走在街上，隨便說什麼都會被攝像頭捕捉到的感覺，也許會讓他們很不好受。

聲明：凡註明為其它來源的信息均轉自其它平臺，目的在於傳遞更多信息，並不代表本站觀點及立場和對其真實性負責。若有侵權或異議請聯繫我們。

責任編輯：茂陵報錯請聯繫：[email protected]

————————————————

上海市安全防範技術協會主要職責：

• 開展國內外學術、技術、貿易交流合作；