蘋果智能語音助手Siri初探

關鍵字:

摘要:近幾年,語音識別技術開始從實驗室走向市場。我們預計,未來10年,語音識別技術將全面進入工業、家電、通信、汽車電子、醫療、家庭服務等多個領域, 成為當今最具顛覆性的技術之一。本文將為您揭開蘋果智能語音識別系統Siri的神秘面紗。

蘋果智能語音助手Siri初探

Siri的由來

要真正認識Siri,我們還須先知道它是怎麼來的。當我們追溯Siri的由來時,我們發現,Siri實際上源於美國國防部的一個人工智能項目,當年五角大樓的一個叫做CALO的項目,其英文全稱是Cognitive Assistant that Learns and Organizes,如果按照其內涵譯成中文就是:"善於學習並且能夠組織的認知助理"。該項目由美國國防部投資,旨在為軍方提供智能化服務。美國國防部為這個項目安排了高達1.5億美元的預算,匯聚了本專業一大批頂尖的人工智能專家,期待他們能夠開發出在野外通過學習,最終具備智能認知的機器。要做到這一點,機器使用的算法需要被設定大量的數據,然後軟件會根據這些數據來解決問題。CALO項目團隊經過反覆研究論證最後決定,必須讓虛擬助手具備自主收集信息的能力,並根據每一次的處理結果進行自我訓練和自我修正,以接近人類的思維判斷。

2009年,美國電信運營公司VerizonSiri相中了Siri這個技術,認為該技術具備無限的市場潛力,Verizon便與Siri公司簽訂了協議,計劃將Siri作為2010年該公司即將發佈的所有Android手機的默認應用。當蘋果知道Siri的未來前景後,當機立斷,迫不及待地希望把Siri納入iPhone的門下,不給Android系終端任何機會。最終,蘋果如願以償,搶先完成了對Siri的收購。此時Siri公司的創業團隊只有區區24人。

當Siri最初被納入蘋果的麾下後,其原有的一些傳統功能被廢,如Siri數字大腦賴以生存的外部網絡、餐館預訂功能。蘋果之所以這麼幹,目的在於保證Siri能被更多消費者認可,而不僅僅只滿足專業人員的需求。然而,讓計算機軟件理解人類語言是一個無比巨大的挑戰,須知人類經過幾十萬年甚至更長的時間才進化出這個能力。此時的語音識別軟件並不完美,Siri識別人話時常常鬧出低級笑話,特別是解碼低質量音頻時出錯率更高。不過隨著數據庫的更新和更精密模型的突破,這個問題遲早可以解決。

Siri技術實現原理探析

為了解析蘋果智能語音助手Siri的技術原理,我們調閱了蘋果手機Siri系統的相關技術專利資料,追蹤到了如下主要技術構成。蘋果智能語音助手Siri大致由四大系統構成,分別是:智能語音Siri的輸入系統、動態本體系統、語音處理執行系統和輸出系統。

1、智能語音Siri的輸入系統。Siri的輸入系統允許多模態輸入,包括語音輸入、文本輸入、GUI界面和事件觸發等。除此之外,Siri的輸入的一個特別之處在於其設置了輸入導引模式,以盡力規避機器對人語理解的規範性,減少誤解,這是語音識別發展初級階段不得已的設計安排。

蘋果智能語音助手Siri初探

2、動態本體系統。siri最關鍵的組成部分叫動態本體(英文 Active Ontologies)。什麼是動態本體呢?所謂動態本體是由多元素合成的生態體系組合。特定詞彙、數據庫、頁面服務、互動規則,機器可識別描述等,即所有這些要素的有機結合。語言模式識別是對輸入的總體類型、語法、詞彙、慣用語等進行模式匹配的模塊,匹配模式的代碼在Siri內部採用正則表達式或者狀態機等方式。

Siri的學習功能主要體現在記憶上,這個記憶可區分為長期記憶和短期記憶。如果當你心煩了,機器說出你該從事什麼娛樂,這有可能是你之前把你的興趣愛好告訴了它,它對你的愛好分類記憶,後續在知識庫裡找到了相關信息並保存下來。Siri有兩個記憶系統:長期記憶系統和短期記憶系統來實現個性化交流的。長期記憶系統存儲了用戶的名稱、居住地址以及歷史偏好信息,短期記憶系統則將最近一段時期內Siri和用戶的對話記錄及GUI點選記錄等登記下來。對照這兩個記憶系統,Siri可以在你需要時提醒你,然後調用知識體系幫助你解決疑難問題。

智能語音助理的原理框架圖

蘋果智能語音助手Siri初探

Siri與人工智能的最大區別在於其功能不夠強大,計算機認知與人類認知目前還有天壤之別。 Siri對具體事物的理解力非常狹窄,例如就餐、體育運動、休閒娛樂、旅行天氣等。因為各個領域都有其特定語彙,且數據庫、頁面都需要關聯描述,這些集合構成了我們所說的"動態本體"。

例如,就餐的動態本體包涵參觀數據庫,目前美國餐飲評論站點諸如Yelp 和 Zagat,其調用方式通過API實現,這就牽涉相關語彙和行為模型。當我們決定下一餐時,我們會說我們訂什麼樣的席位、如何預訂、如何點菜,這些需要事先錄入用戶此前的訂餐日曆,調用此前的餐飲會話、點餐說詞及預訂流程等,這些事情都在動態本體內有積累和儲存。當我們要再次點餐,Siri會識別用戶意願,追蹤"業務編排單元"(SOC ),這個"單元"會識別外部業務以滿足用戶請求,包括業務理解、命令編譯、信息收集並分類,最終向用戶提供行動導引。

例如,用戶說了:"我要去意大利餐館享用美食","業務編排單元"會在Yelp 和 Zagat網站上進行檢索,然後告訴你兩英里內的意大利飯館名錄、具體地點、價位,供你選擇。當你作出就餐決策後,業務API 接口程序會為你預訂餐位、點餐和叫出租車。所有這些都通過你過往的就餐習慣,由業務API 接口程序執行。

動態本體原理框架圖(以就餐為例)

蘋果智能語音助手Siri初探

SIRI系統中的"業務編排單元"擁有一個工具,此工具可定位各類外部業務 APIs來完成相應行為。動態本體自身也有一套系統,這套系統記錄了多個領域裡人類的活動,以備調用。這兩套系統允許接入外部相關模塊、業務和數據庫,這樣一來, 人們往往會感覺Siri無所不能。

3、語音處理執行系統。Siri的核心執行組件包涵:語言闡釋器、會話流控制器、任務控制器和服務系統等。所謂語言闡釋器,簡言之,就是把人語輸入,轉化為機器可理解的規範意思,因為人語輸入與機器語言存在一個巨大的天然鴻溝,要讓機器知道人語的微妙內涵,需要有一套系統不厭其煩的向機器闡釋,否則機器不會做出理智的回應。會話流控制器是將語言闡釋並解析之後的結果傳遞至控制系統,根據相關參數判定涉及領域,或向用戶索取具體參數。而會話流控制器之後還會對任務控制器進行調用,以確定回應內容。會話流控制扮演著一個協調溝通者的角色。任務流控制器是確定所要執行任務的邊界參數和完成任務各個步驟的邏輯關係。任務流控制器常常會構建出一些任務模型,將抽象概念定義具體化。 服務系統,Siri展現給用戶的是其所能提供的具體服務。Siri中有三個子服務模塊:服務模塊,服務能力模型和多服務集成模塊。服務模塊包含了可供Siri使用的各種信息,服務能力模塊儲備了具體服務內容可調用服務類型的映射關係。服務集成模塊的功能在於可調用另外兩個模塊提供給用戶的具體服務內容。有時,一項服務會涉及多個子服務,分別調用時無論在先後順序還是內容上都存在邏輯依存關係,這類似於智能調度。

4、輸出系統。與計算機系統相類似,SIRI系統所將接納的語音或其它輸入進行處理,最終將以為用戶習慣的方式輸送給用戶。SIRI系統的輸出包括語音、文本、甚至電郵等多模態展現輸出,以完成最後一站工作。

蘋果在其產品iPhone4S首先展現出的智能語音控制功能,使其產品變身為一個智能機器人。之後,蘋果陸續發佈了siri新功能。智能語音是否會成為未來智能手機發展的主流方向還有待繼續跟蹤觀察。

蘋果智能語音助手Siri初探

更多精彩文章,敬請關注 超天才網

旗下擁有天財評論、天才創業、天才AI等垂直板塊,主要以超天才思想和視角,為企業家、創業者、職業經理人等解讀全球財經事件,培育企業萌芽與發現併購商機,並以顧雛軍團隊的商業智慧,培養具有遠見卓識、能屹立於世界之林的企業家和職業經理人隊伍。


分享到:


相關文章: