06.12 AI之路任重道遠——人工智能瓶頸所在

很多人可能使用過手機上帶的語音助手,比如Siri,常用的人大概可以感受到它確實越來越精準,但也還是不能盡如人意,現在我們來大致拆解下這樣的一種系統。

這種語音助手基本由以下三個部分構成:

第一部分是語音識別,這相當於要求語音助手能精準地聽出來用戶在說什麼,這部分的難點是要能適應各種嘈雜的環境,適應各種口音和方言等。如果安裝了攝像頭,那麼這種助手獲取信息的渠道就不只是聽到了什麼,還包含看到了什麼,這就會牽涉到計算機視覺。

第二部分是語義識別,只是聽清還不夠,還要理解用戶到底想幹什麼,說的是什麼意思。這部分在正常情況下也要負責關聯上下文進行會話,不能前言不搭後語。

第三部分則是信息獲取,這和傳統搜索比較相似,但要求有更高的精度,因為精度不高就會導致這種語音助手顯得很傻,要說很多句話才能完成一個買東西這種本身並不太複雜的行為,一旦如此大家是不願意用的。

那麼相關的各種技術到底發展到了怎樣的一種程度呢?截至2016年3月,人工智能在語音和圖像上已經取得了階段性成果,但語義上暫時還看不到能徹底解決的跡象。

AI之路任重道遠——人工智能瓶頸所在

語音識別

這是一個最近幾年基本已經被深度學習攻克的領域,只要花足夠的錢,識別精確度甚至可以達到99%。在語音識別這種領域,最後幾個點精度的提升很可能比前面達成90%的精度還要費勁,但最後這幾個點的精度往往正是跨越能用和不能用的關鍵。

深度學習應用於語音識別後,只要有足夠的數據進行訓練,大多數公司自己都可以訓練出足夠精確的語音識別模型。這項技術基本上要貨品化了,越來越可以認為這是一種不要特別多的投入就可以搞定的技術。

圖像識別

這也可以認為是一個基本已經被攻克的領域,但實現起來比語音要費勁一些。圖像識別比語音識別要麻煩,因為語音識別的對象總是各種有限的語言。但圖像里人臉和貓的識別在具體實現上還不能用一個通用的方法來處理。當前的狀態是如果選定一個點比如人臉識別,砸入幾十個PhD、幾百塊GPU,還能找到落地點不斷獲得數據,那麼花個一兩年就可以做到非常高的精度(99%以上),但這種精度眼下還沒辦法一下子就覆蓋到其他領域,比如人臉就不能很容易地遷移到貓臉上,只能一個點一個點來搞定。像人臉這種領域因為有切實的落地場景(銀行等),所以一下子就發展起來了,其他的領域要想都達到同樣的水平,還需要一點時間。

語義理解

和語音識別與圖像識別不一樣,語義理解處在一種基本沒搞定的狀態。我們看演示的時候時常能看到一個機器人或智能型產品與人進行流暢的交流。達到這種狀態有兩種可能:一種是作弊,後面放了個人,屬於人工的人工智能;另一種是對話被限定在特定的場景下,比如在汽車裡打電話,讓地圖導航等。語義理解的難度與所要處理的概念數有關,當要處理的概念數在幾千個以下的時候,針對特定場景按照基於規則的方式還是可能搞定的,會做得比較流暢。但是一旦這個範圍擴大到整個社會生活,那麼最多也就是Google Now和Siri那個樣子。與這點密切相關的應用,一個是各種智能語音助手在對話時的智能程度,另一個則是翻譯。

數據挖掘

由於這個點往往是面向企業的業務,所以大眾會比較陌生,但其實在美國這是落地最多的方向。這個方向的狀態和圖像有點像,在每一個垂直的方向都可以優化出很有用的系統,但沒辦法做出通用的系統。比如有的公司會根據醫療診斷數據以及你的財務狀況直接提供性價比最高的治療方案,但這樣的系統就不能擴展用來做金融欺詐檢測。這個方向其實比上面所有的方向都更能吸引投資,因為它的收益往往更加直接。換個視角,這種後端數據整合工作也可以看成是在為前端的智能助手等儲備能量,一旦它成熟到一定程度,並接入某個終端比如亞馬遜的Echo,那麼Echo的力量就會瞬間增強。

這也就意味著當前非語義識別的領域已經接近成熟,但語義識別上離成熟還比較有距離,非常多的對話程序依賴於規則匹配,也就是說查關鍵詞來確定你到底要的是什麼,這種方式解決開燈、關燈這類需求是可以的,解決幫我訂杯咖啡就有點難,解決我想看趙本山2011年的小品就基本搞不定了。

所以說一般的認識是人類暫時還做不出來通用型的語義理解、對話系統,只能在特定場景下進行優化,比如車裡面放音樂、打電話。如果場景變大,比如一個視頻網站的所有內容,那就需要針對這個場景建立知識圖譜,用這種方式就有可能建立特定場景的精確對話系統。


分享到:


相關文章: