我們通過與天貓精靈x1和叮咚TOP交流,判斷兩者在人工智能的實現方式和相應的底層技術。
功能1-自然語言理解
不給予明確指令信息,系統如何做出回應。
問: 好冷啊
天貓精靈:請注意保暖,不然感冒了就麻煩了。
叮咚TOP:北風像刀一樣刮,讓我們一起取暖吧。
問: 你會飛嗎
天貓精靈:如果坐飛機算會飛的話,那我想我是會飛了。
叮咚TOP:我目前還不具備飛行的能力,但我想若干年後我就能飛了。
問: 你喜歡我嗎?
天貓精靈:是的,我是一個很喜歡和人類交朋友的機器小助手。
叮咚TOP:你猜
問: 我要把你賣了。
天貓精靈:抱歉,如果我做錯了什麼讓你不開心了,我很抱歉,但請不要把我賣了。
叮咚TOP:沒有找到你想要的。
問:你為什麼不和我說說話
天貓精靈:對不起,我沒有聽清。
叮咚TOP:沒有找到你想要的。
目前閒聊對話的實現方式,還是通過專門的編輯人員寫好對話大致內容後傳輸給語音助手或是從論壇,微博等網站抽取對話語句,放入內容庫,當人給出語句後,人工智能從數據庫中調用相似內容,並給出答覆。
簡單交流從二者的反應來看,給出的答覆都是不錯的。但是內容較為複雜時,數據庫沒有相似內容,還是無法回答。
叮咚TOP是支持地圖功能的,但是說:我要去xxx,叮咚無法理解。只有說xxx怎麼走,才會給出推薦路線。可見實際上是無法理解自然語言,只是將相對應的語音指令和相應的執行動作相連接。
功能2-購物
兩臺智能設備這方面都沒有做好。說出想買的物品後,隨機推薦一個商品,這並不能稱之為購物。
語音交互設計存在不直觀,效率低等問題。
需要人工智能實現我們佈置的任務時,它做的不是單純的信息搜索,根據當前信息,詢問限制條件,並提供結果。由於任務複雜,需要多次交流來明確目標,使需求達到滿足這就是 多輪對話。
多輪對話通過將自然語言編碼,提取,存儲,等待第二段自然語言,再次編碼提取後,把信息又一次放入的存儲層中。多次循環後就可以獲得足夠的數據。
下列例子中可以看出。兩臺機器都能支持多輪對話。
例如當使用者對天貓精靈說:我要充話費。天貓精靈的多輪對話流程為:詢問手機號碼-詢問充值金額-確認手機號碼和金額-詢問是否下單。在這一次充值任務中,不需再說出喚醒詞。
叮咚TOP則直接能夠在客戶端設置AIUI(多輪對話功能)模式,最長5分鐘內可以不說喚醒詞直接對話。
但是在購物模式中,使用者說:我要買鞋子。天貓精靈和叮咚並不問品牌,尺碼,顏色,而是隨機推薦一雙熱賣的鞋子,例如:耐克,黑色,42碼,問你是否下單或加入購物車。如果使用者說,我不要黑色,要白色的。天貓精靈和叮咚不僅沒有為你修改顏色分類,甚至還會推薦白色的T恤,問你是否下單。兩款機型聽得懂白色這一商品信息,卻不理解商品種類沒有變化。
既然技術上能夠實現多輪對話,為什麼不能用在購物上?
例如:我要買黑色41碼 耐克鞋。人工智能識別並按照數據庫分類編碼成語句:
information
Information
Information
隨後再從商城中匹配並推薦同樣信息的商品。如果使用者沒有說全商品信息,人工智能應該先比對商城中“鞋子”相關的所有商品信息分類後,詢問和確定的模糊未知信息,再給予商品推薦。像這樣問題就可以解決了。不知道為什麼阿里和京東雙方都沒有采用這樣的方案,可能有其他比較困難的難題無法解決吧。
描繪用戶偏好畫像
說到商品推薦,多輪對話確定信息的方法,除了比對商城中商品信息分類,還可以從日常使用者的消費習慣,喜好等數據推薦,這樣不僅優化了購物程序,還更加突出智能。而且用戶畫像還可以用來推薦歌曲,音頻內容。用戶的偏好畫像刻畫是一大難點,國內只有BAT三大互聯網公司握有大量的用戶數據。他們旗下生活,購物,娛樂,辦公等生態佈置的不錯。例如阿里巴巴旗下或合作的平臺,購物有天貓淘寶,支付有支付寶,旅遊有阿里旅行,娛樂有淘票票,地圖有高德,音樂有蝦米,雲計算、網盤、操作系統YunOS等一應俱全。這將為阿里人工智能發展提供長遠的資源。
功能3-問答
在大量測試問題中,歸納一些有代表性的。
問:什麼是咖啡?
天貓精靈:咖啡是採用經過烘焙的咖啡豆製作的飲料,通常為熱飲,但也有作為冷飲的冰咖啡。咖啡是人類社會流行範圍最為廣泛的飲料之一。
叮咚TOP:咖啡是採用經過烘焙的咖啡豆製作的飲料,通常為熱飲,但也有作為冷飲的冰咖啡。咖啡是人類社會流行範圍最為廣泛的飲料之一。
問:什麼是人工智能?
天貓精靈:人工智能(Artificial Intelligence),英文縮寫為AI。……
叮咚TOP:人工智能(Artificial Intelligence),英文縮寫為AI。……
上列兩個答案都來自互動百科,可見採用的搜索引擎都是互動百科。
天貓精靈:張亞勤
問:體積最大的動物是?
天貓精靈:史前的還是現代的動物?史前是馬文西龍。
問:番茄是水果嗎?
天貓精靈:番茄屬於蔬果,按國內的飲食習慣分為蔬菜。
問:達芬奇活著嗎?
天貓精靈:達芬奇去世時間是1519年5月2日
問:如何評價吳亦凡
天貓精靈:吳亦凡被粉絲親切地稱為凡凡……
問:蘋果和華為手機有什麼區別?
天貓精靈:兩個品牌手機各有不同,我更傾向於華為,性價比很高……
問:世界上最高的建築是?
天貓精靈:迪拜塔,高828米,162層……
叮咚TOP:無可爭議最高的人是美國人羅伯特……
上述問題包括無法從百科中直接獲取的,包括對事實信息,東西的定義,主觀評價,事物對比。
看到當客觀事實的問題不能從百科詞條中直接獲取,天貓精靈的回答內容比較豐富,對代詞和定語理解準確。可見編輯庫內容的積累和對網絡內容的抽取做的不錯。
而叮咚TOP上述問題除了最後一個問題答非所問以外,都無法回答。
總結:
從兩款產品的測試看來,底層技術中的自然語言處理,機器學習等核心難點偏偏全部繞道而行。沒有機器學習就人工錄入對話,沒有辦法理解語言中的指代關係和詞義詞性就提取關鍵詞含糊處理,最後只能得到“我也不知道這個問題的答案”。
這兩款智能設備目前還需要進步時間和技術積累。雖然被媒體標榜為人工智能,實際上不過只是兩個語音助手。
天貓精靈x1和叮咚TOP分別是阿里巴巴和京東推出的智能音箱, 價格相當,功能上也相差不遠。
天貓精靈使用阿里人工智能實驗室的語音交互系統,語音識別技術
與思必馳公司合作。IC使用聯發科MT8516智能語音處理器,處理器內建藍牙4.0模塊和WiFi 802.11 b/g/n。音頻方面使用德州儀器的ADC3101音頻捕捉芯片和TAS5751M音頻功率放大器。
叮咚TOP使用京東和科大訊飛合作的語音交互系統,語音識別使用訊飛自家的技術。IC採用全志R16智能語音處理器,藍牙和WiFi連接使用了正基科技AP6212藍牙WiFi二合一芯片,支持藍牙4.0和WiFi 802.11 b/g/n。音頻使用了科勝訊的CX20810音頻捕捉芯片,功放則使用了德州儀器的DAC3100芯片。
天貓精靈 | 叮咚TOP | |
語音交互系統 | 阿里人工智能實驗室 | 和科大訊飛合作 |
語音識別技術 | 與思必馳公司合作 | 訊飛 |
語音處理器 | 聯發科MT8516 | 全志R16 |
藍牙、WiFi | 聯發科MT8516 | 正基科技AP6212 |
音頻捕捉IC | 德州儀器 ADC3101 | 科勝訊 CX20810 |
音頻功放 | 德州儀器 TAS5751M | 德州儀器 DAC3100 |
硬件IC信息:
機身外觀:
輸入與反饋:
天貓精靈燈光效果如下圖所示:
叮咚TOP燈光效果如下圖所示:
音量調節叮咚通過手指在環形觸控鍵上滑動,更加具有科技感,但是沒天貓精靈來的實在、方便。
按鍵樣式對比如下圖所示:
下列為分別再歌曲《三年二班》和純音樂干擾情況下,測試兩臺智能設備識別的準確率。
正確回答問題即打勾。反之為錯誤回答內容。
問題4和5相同,測試相同問題的多次識別準確率。
勾號意為準確識別並回答,反之則是錯誤回答內容。
測試後發現,中文曲目對智能設備語音識別干擾較大,叮咚TOP準確率稍高。
純音樂曲目干擾較小,叮咚全部準確識別。
購物:
兩者購物均通過語音交互方式,同樣存在效率低的缺陷。
天貓精靈聲紋識別實測不一定十分安全的。
錄入聲紋後,當故意升高或降低嗓音時,無法識別是同一個人。
讓人模仿自己的聲音,天貓精靈沒有誤判。推測如果兩個人的聲音真的很像,完全可能矇混過關。
一次實驗中,開啟手機錄音機的同時,詢問:天貓精靈,我是誰。天貓精靈沒有識別出。隨後將錄音文件播放給天貓精靈,天貓精靈識別出了對象。
叮咚TOP購物時,所有人都可以語音下單,只需要說出之前設置的6位數語音數字密碼。
客戶端及內容:
天貓精靈APP界面:
叮咚叮咚APP界面:
叮咚TOP的叮咚開放平臺現支持包括今日頭條、得到、周公解夢等眾多第三方業務。相比之下天貓精靈內容較少。
地圖功能是叮咚的優勢,而外賣和話費充值功能則是天貓精靈的優勢。
音頻輸出:
兩者都能作為藍牙音箱使用。
叮咚TOP只有一個小型喇叭,而天貓精靈自帶一個全頻揚聲器,功放效果更好。
但叮咚TOP支持Line-out功能,能夠將音頻內容通過AUX接口在專業音頻設備上播放。
傢俱控制:
叮咚支持京東微聯、美的家居、米家旗下智米等設備。
天貓精靈支持阿里智能與 BroadLink 兩個智能平臺的設備接入。
兩者支持的傢俱數量差不多。
閱讀更多 eWiseTech 的文章