在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

概要:ideepwise深思考人工智能使用基於深度學習算法的意圖分類、詞向量相似度、上下文指代消解、特定場景下糾錯、信息抽取、sequence2sequence等技術,結合特定垂直領域的業務特點,創新的完成了人機多輪上下文交互。

由中國中文信息學會社會媒體處理專委會主辦,中國科學院計算技術研究所承辦的“第六屆全國社會媒體處理大會(SMP 2017)”於2017年9月14—17日在北京召開。

在SMP 2017會議上,專委會專門舉辦了中文人機對話技術評測(ECDT)。近年來,人機對話交互技術作為人工智能的熱點領域,受到了學術界和產業界的廣泛關注。在學術上,人機對話是人機交互最自然的方式之一,其對語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展有著發展影響及推動作用;在產業上,眾多業界公司相繼推出了人機對話技術相關產品,如個人事務助理、手機助理、虛擬情感陪護機器人、娛樂型聊天機器人、智能音箱等等,並將人機對話交互技術作為其公司的重點研發方向。

本屆中文人機對話技術評測由中國中文信息學會社會媒體處理專委會主辦,哈爾濱工業大學、科大訊飛股份有限公司承辦,訊飛公司提供數據,華為公司提供獎金。旨在通過評測來驗證學術界和產業界在人機對話交互上最新的進展和成果。

本次SMP2017-ECDT(人機對話技術評測),值得重點關注的是——特定域任務型人機多輪對話,主要評測特定領域的人機多輪上下文交互能力。具體特定域任務是指:面向三個人們日常生活常見的特定領域:酒店、火車票、機票。人們在這三個領域的主要需求意圖是相關信息的查詢和訂購。而為了完成此意圖,往往是在一問一答單輪的交互中無法完成的,就需要進行多輪的交互。而在多輪交互的時候,又可能出現領域的調轉,一句話中包含多領域的轉接或需求。

最終ideepwise深思考人工智能公司以遠高於其他隊伍的任務完成率獲得了第一名。

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

圖-1 大賽頒獎典禮(右二:楊志明博士)

評測結果如下:

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

圖-2 獲獎證書

主要參賽成員介紹:

楊志明,中科院NLP與機器學習方向博士,NLP產業化產品化領域耕耘十年以上。

王泳,中科院自動化所機器學習方向博士、中科院博士後。

毛金濤,北京理工大學NLP方向博士。

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

圖-3 深思考人工智能分享技術報告

楊志明博士在評測技術報告中分享,人機多輪交互的難點在於每輪對話用戶的意圖像樹一樣隨時分叉,存在多種可能性,一句話中又可能包含多個意圖,AI對用戶說話上下文的理解和應答非常困難。

ideepwise深思考人工智能使用基於深度學習算法的意圖分類、詞向量相似度、上下文指代消解、特定場景下糾錯、信息抽取、sequence2sequence等技術,結合特定垂直領域的業務特點,創新的完成了人機多輪上下文交互,使得在多輪人機交互中任務完成率為0.3175,高於第二名的0.1905,遠高於第四名的0.1111。

目前業界在多輪會話方面解決的不盡如人意,例如據業內評測siri、亞馬遜Alexa、三星Bixby在(1)“尼泊爾的首都是哪裡?”(2)“現在那裡幾點了?”(3)“那裡有多少人口?” 在這三輪問題面前均敗陣下來。

深思考二代ideepwise機器人可以近似於人一樣流暢的交流:

如圖-4用戶問到:“上海明天的天氣怎麼樣?”機器人給出天氣回覆,用戶再提出請求:“給我訂一個那邊的酒店”,機器人會引導用戶詢問用戶對價格的要求,用戶只需要回答價格的區間,機器人就會流暢的給出綜合答案。

如圖-5:交互流程中間被打斷,機器人還能像人一樣記得上一個流程,例如:可以在訂票過程中,如果用戶詢問天氣預報,則自動將用戶意圖分類為天氣,然後繼續訂票流程。

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

圖-4

在人機多輪對話上,完勝Siri,Alexa,Bixby的AI系統是什麼水平?

圖-5

人機多輪上下文理解與交互技術的突破的意義在於更進一步的提高智能客服、AI醫療問診,車載人機交互等人機交互的場景下的交互有效性和體驗,人機交互可以更像兩個人之間的對話,人與人之間是習慣於有上下文的,往往“基於上文,下文是說不全的”,比如傳統的智能客服是:

user:“我家機器壞了!”

robot:抱歉由於無法知道機器的型號,暫時無法回覆您,請轉人工客服。

能夠理解上下文的技術突破後,則對話更流暢了,機器人可以真的像人一樣完成某一個特定任務,下面是另一番場景:

user:“我家機器壞了!”

robot:請問您家的機器具體是什麼機器啊?

user:我家電飯鍋壞了

robot:請問您家電飯鍋是什麼型號的啊?

user:P10

robot:P10型號的電飯鍋建議您去距離中關村最近的***售後維修點維修。

最後,楊志明博士表示深思考人工智能會繼續深度垂直醫療健康、出行等業務領域,積累垂直領域數據和語料,打磨產品體驗,不斷精研人機多輪上下文交互算法,繼續在人工智能人機多輪上下交互領域保持領先優勢。

後記:

記者瞭解到ideepwise深思考人工智能在ideepwise宮頸癌閱片篩查機器人‘大腦’這一產品也有了突破性的進展。在Herlev數據集上測試結果:細胞類別分類精度99.3%(比美國國立衛生研究院NIH 高1%,2017.6)、特異性高出1%、敏感性高出1.5%,是國內目前唯一能夠識別腺細胞異常的宮頸癌篩查的AI產品,對此深思考人工智能ideepwise申請了多項發明專利。整個閱片過程僅需100秒比人工閱片快5分08秒,在宮頸癌篩查中大大節省了醫生的人力,提高了效率和準確率,目前已在多家三甲醫院和第三方檢驗機構落地使用。據悉深思考人工智能已完成兩輪千萬級融資,正在開啟下一輪融資中。


分享到:


相關文章: