智能語音100年

3月28日,2018年圖靈獎出爐,該獎項被授予為深度學習領域的三名研究科學家,他們分別是:蒙特利大學的教授Yoshua Bengio,;Google工程師和哥倫多大學Geoffrey Hintion;Facebook的首席人工智能科學家和紐約大學教授Yann LeCun。

智能語音100年


圖靈獎是計算機科學領域的最高獎,被譽為“計算機界的諾貝爾獎”,由國際計算機協會(ACM)設立於1966年,該獎項頒發給那些“對計算機領域具有持久和重大技術重要性”的個人。

圖靈獎的命名來自於英國科學家阿蘭.圖靈,他生於1912年,在多個領域獲得過巨大成就,正是他提出了通用計算機與人工智能的概念。

他提出了著名的圖靈測試。即測試者與被測試者(一個人和一臺機器)隔開的情況下,向被測試者隨意提問。進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智能。

2014年6月8日,一個聊天機器人成功讓人類相信它是一個13歲的男孩,成為有史以來首臺通過圖靈測試的計算機。

2019年,智能音箱普及,我們已經可以家中愉快的通過自然語言與智能音箱對話,甚至把智能音箱當作家庭成員。

智能語音100年


而在這我們的享受現代科技背後,是人類100年的追求與努力,有阿蘭圖靈的夢想,有一代代科學家的努力,也有這次獲獎大牛的貢獻。

一、 阿蘭.圖靈的夢想

阿蘭.圖靈,1912年生於英國倫敦。少年時就表現出在數學方面超凡的能力,念中學時獲得過國王愛德華六世數學金盾獎章。

智能語音100年


1936年5月,圖靈向倫敦權威的數學雜誌投了一篇論文,題為《論數字計算在決斷難題中的應用》。論文的附錄裡他描述了一種可以輔助數學研究的機器,後來被人稱為“圖靈機”,成為現代計算機的理論基礎。

二戰期間,圖靈參加了德國恩尼格瑪密碼機的破解工作,在波蘭數學家研究的基礎之上,設計了破解機械加密的機械解密機”炸彈“(波蘭人也設計了一種原理不同,功能弱很多的解密機“炸彈”,阿蘭圖靈用這個名字致敬波蘭數學家的貢獻。),在二戰的貢獻,讓他於1945年獲政府的最高獎——大英帝國榮譽勳章(O.B.E.勳章)。

智能語音100年


從一些文件來看,世界上第一臺電子計算機可能不是ENIAC,而是與圖靈有關的另一臺被嚴格保密的機器,即圖靈在戰時服務的機構於1943年研製成功的CO-LOSSUS(巨人)機,這臺機器的設計採用了圖靈提出的某些概念。它用了1500個電子管,採用了光電管閱讀器;利用穿孔紙帶輸入,出色地完成了密碼破譯工作。

1950年10月,圖靈發表論文《機器能思考嗎》這一劃時代的作品,使圖靈贏得了“人工智能之父”的桂冠。同年,他提出了“圖靈測試”

測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智能。

圖靈夢想在2000年的時候,人類就可以用自然語言與計算機自由對話,而很難辯認出與之對話的是人類還是計算機。

不幸的是,人類的進度稍微晚了一點。

二、 語音識別的努力

阿蘭圖靈的夢想看上去只是一個科幻小說的故事,但是要實現它卻非常不容易。

要實現計算機與人類的對話,首先要讓計算機正確識別人類說了什麼,而僅僅這一步人類就走過了幾十年。

事實上,人類對語音識別的探索早於計算機,1920年代生產的“Radio Rex”玩具狗可以在呼喚到名字的時候從底座上彈出來。語音轉化為電子控制信號早在電子計算機發明之前就有基礎了。

而最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。

1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。

科學家對語音識別最初的理解是“機器的聽覺系統”,把語音信號轉變為相應的文本或命令,然後在轉化成計算能夠識別的信號。然後隨後20年,人類停滯不前,因為科學家想用人類學習語言的方式套用到當年的電腦上,這是一條死路。

智能語音100年


70年代,來自捷克的猶太裔移民賈里尼克到IBM的華生實驗室(IBM T.G.Watson Labs)做學術休假。他畢業於MIT,在那裡,他遇到了信息論的鼻祖香農博士(愛迪生的遠房親戚,第一次將熵的概念引入到信息論),和語言學大師賈格布森(俄裔,提出通信六功能),而他老婆在哈佛上學,在陪讀的時候,又聽了喬姆斯基(他寫的《句法結構》被認為是20世紀理論語言學研究上最偉大的貢獻,將語言學科學化。)

在寬鬆的研究環境下,賈里尼克開始把統計學,信息論的一些方法引入到語音識別研究中,把60年代剛剛在統計學領域提出的隱馬爾可夫模型引入到語音識別之中。

差不多在同時,線性預測編碼Linear PredicTIve Coding(LPC),及動態時間規整Dynamic TIme Warp技術出現,這讓語音識別去取噪音抽取語音和去除語速影響成為可能。

其實,賈里尼克並不是想在語音識別跨界研究的第一人,但是他很幸運的等到了計算機技術的進化,在70年代,計算機性能已經可以做一些探索,而IBM的華生實驗室既有計算資源,又有寬鬆的環境。

於是,人類在語音識別上進了一大步。奠定了之後語音識別的理論基礎。

同樣在70年代,美國國防高級研究計劃局DARPA(真真正的黑科技機構,互聯網就是這個機構發明的),投入資金進行了五年的語音識別研究,目的是做成一臺至少能理解1000個單詞的機器。該計劃使卡內基梅隆大學創造了一臺能夠理解1,011個單詞的機器。後來,李開復搞的Sphinx也是卡內基梅隆大學的項目,而DARPA贊助的時間很長。

一直到蘋果的Siri,也是DARPA在語音識別上的投資,一個說法是,這個項目是給戰場戰士,用於語音操縱武器的。還有說法是這個技術的用於互聯網信息和電話監聽的。

到了90年代,通過不斷的計劃,語音識別技術已經可以用比較高的正確率識別人類語言了。

當時的典型產品,就是IBM的 viavoice,90年代末期的家用電腦一度非常流行語音識別,語音操控。同時期還有DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform,Microsoft的Whisper以及Sun的VoiceTone等。

到2001年前後,語音識別輸入技術已經能夠達到比價高的準確率,具有了一定商用價值。

三、 人工智能強勢介入

人工智能的發展並不比語言識別晚,在圖靈提出人工智能設想之後,到了1957年,Rosenblatt就提出了“感知機”的概念,就是有一個輸入層,一個隱含層,一個輸出層。通過算法迭代完成一個解。

而多層的感知機就是我們今天非常熟悉的一個詞——神經網絡,這也是我們今天各種人工智能深度學習的基礎。

在2006年之前,由於深度的神經網絡存在局部最優解問題,長期停滯不前。2006年Geoffrey Hinton(就是這次獲得圖靈獎的大牛)基於深度置信網絡(DBN)提出非監督貪心逐層訓練算法,為解決深層結構相關的優化難題帶來希望,隨後有大量研究終於讓深度神經網絡實用化。DNN(深度神經網絡)開始流行,帶有卷積核的CNN(卷積神經網絡)出現。

而當深度神經網絡發展出帶有時間戳的循環時間網絡(RNN)之後,人工智能技術開始讓語音識別有了質的飛躍。

此時,人們已經有了非常強大的GPU通用計算能力,有了互聯網帶來的海量數據供計算機做深度學習,大數據,人工智能與傳統的語音識別技術結合起來,一個新的時代來臨了。

此後,美國的谷歌、微軟、蘋果,中國的百度、科大訊飛、阿里、搜狗等企業都開始投入智能語音識別。

這一輪語音識別技術突破最廣為人知的是蘋果Siri,早期Siri的體驗並不好,而蘋果在2014年6月進行了一次重大升級,其核心就是從傳統的語音識別技術轉移到了機器學習技術的人工智能平臺。此外,亞馬遜的ECHO智能音箱也取得了商業上的成功。

在人工智能語音識別的潮流中,中國的互聯網企業百度也做出了巨大的貢獻。

早在2014年(亞馬遜推出Echo之前),百度的研發團隊,就利用深度學習技術,研發出Deep Speech系統。

到了2016年,百度的Deep Speech系統已經進化到第三代。

如前文所述,傳統上對語音識別的人工智能技術是RNN(循環神經網絡)。因為RNN是在DNN(深度神經網絡)的基礎上發展出時間戳,發展出長短時記憶單元,可以有解決時間序列的應用。語音識別是有時間序列的,所以業界對RNN用於語音識別的研究比較多。

而百度將深層卷積神經網絡技術(Deep CNN)應用於語音識別聲學建模中,將其與基於長短時記憶單元(LSTM)和連接時序分類(CTC)的端對端語音識別技術相結合,大幅度提升語音識別產品性能。這項技術借鑑了圖像識別在近些年的成果,以及語音與圖像在利用 CNN 模型訓練的共通性,在語音識別技術上取得了革命性的進展。

《麻省理工科技評論》(MIT Technology Review)雜誌在2016年度十大突破技術的榜單中把百度語音識別技術列為十大突破技術。

從“Radio Rex”玩具狗算起,大約100年後,人類終於攻克了語音識別的難關。

四、 從語音到語義

就語音識別而言,在人工智能技術深度介入到,已經達到了人類的水平,2017年,谷歌宣佈對人類語言(英語)語音識別的正確率已經達到95%。而此前一年,百度對中文語音識別的正確率已經達到97%,這個水平已經超過人類的平均水平,識別已經不是瓶頸。

但是,聽清語音和聽明白說的是什麼意思不是一回事。音識別可以把語音轉化為正確的文本,而要理解文本的意思則需要自然語言理解

自然語言理解是一門與語音識別完全不同的科學。最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案。20世紀60年代,國外對機器翻譯曾有大規模的研究工作,耗費了鉅額費用,然而效果並不能令人滿意。

和語音識別一樣,隨著人工智能深度學習的突破,自然語言理解有了革命性的突破。

在大數據的支持下,自然語言的詞語切分,詞性標記,實體命名識別,目的提取,可以用深度神經網絡(DNN)技術解決。機器翻譯可以用U循環神經網絡(RNN)解決,句子解析,情感分析,關係分類,可以用遞歸神經網絡解決,句子文本分類,語義關係提取可以用卷積神經網絡(CNN)技術,自然語言生成可以用生成式對抗網絡(GAN)技術。

深度學習在自然語言處理中幾乎無所不能。語義理解獲得突破性進展,我們今天能夠享受諸如”ECHO”、“小度在家”這種優秀的產品體驗,背後是人類百年來不斷努力,不斷追求的結果。

五、 不可限量的前景

對人類來說,自然語言是最快捷的交流方式。當語音識別與語義識別被突破之後,一個新世界的大門驟然開啟。

像“小度在家”這種智能音箱產品只是九牛一毛。醫療、教育、金融、工業、農業甚至安防、軍事領域……,智能家居、車載語音、可穿戴設備、VR設備、甚至是智能機器人。

智能語音技術未來幾乎可以無所不在。

醫療方面,帶有智能語音技術的電子病例系統可以為醫療專業人士提供實時語音聽寫、電子病歷錄入,可以通過對症狀的描述,關鍵詞查詢,進行病症的初步判斷,分類科室、輔助診斷……。

金融領域,基於智能語言技術可以實現人工智能櫃員,人工智能客服,通過自然語音處理判斷客戶信用,進行風控,生產各種報表、報告……

教育方面,智能語音技術可以基於自然語言處理技術對口語能力進行的測評實現智能教育系統。

法律方面,可以對數字化法律文本、裁判文書等法律資料的檢索。起草大部分的交易文件和法律文件甚至起訴書、備忘錄和判決書

商業領域,可以實現虛擬客服,虛擬櫃員在與客戶的對話中,獲取客戶需求,並提供相應的答案來解決客戶的問題。提供精確營銷。

而在這些無窮無盡應用的背後,是智能語音的核心技術,提供核心技術的企業,將變成AI時代的入口掌握著,變成為智能語音時代基礎方案的技術提供者和最頂級的入口。

回首百年,從阿蘭圖靈的夢想,在一代代人,一個個偉大公司的努力與探索之下變成現實。未來,智能語音將慢慢滲入我們的生活,改變我們的世界

前人百年的努力讓今天的我們生活在更美好的世界之中。今天,勤勉的工程師和偉大的公司將繼續探索前進,為我們的子孫開創更美好的未來。


分享到:


相關文章: