CIIS 2019 丨何曉冬:多模態智能交互技術賦能機器人流程自動化

10月26日-27日,由陝西省委網信辦、陝西省工業和信息化廳、陝西省科學技術廳指導,中國人工智能學會主辦,西安市委網信辦、西安市科學技術局、西安國家民用航天產業基地管理委員會、京東雲共同承辦的2019第九屆中國智能產業高峰論壇在“硬科技之都”--西安舉辦。在26日的主論壇上,京東集團技術副總裁、AI 研究院常務副院長 IEEE/CAAI Fellow何曉冬為我們帶來了題為“多模態智能交互技術賦能機器人流程自動化”的精彩演講。

CIIS 2019 丨何曉冬:多模態智能交互技術賦能機器人流程自動化

何曉冬 京東集團技術副總裁、AI 研究院常務副院長、 IEEE/CAAI Fellow

以下是何曉冬的演講實錄:

今天主要講多模態智能對話和交互基礎技術,這個是很多產業的智能化升級的基礎,這個產業的突破,會帶來零售、金融、教育、市政、醫療等很多行業的體驗突破。演講分三個部分,包括多模態智能對話和交互基礎技術,在京東客服場景的大規模落地案例,及通過建設通用智能對話與交互技術平臺實現規模化產業化的推廣。

首先回顧多模態智能交互基礎技術的突破,這種突破使得新一代人工智能技術在智能服務產業的突破成為可能。

智能人機對話與交互,是在圖靈測試時期提出的,通過人類和機器之間的對話和交流來判斷機器是否具有智能。而最近一次的人工智能發展,是深度神經網絡技術驅動的。神經網絡技術的發展經過了很多階段,80年代的時候就提出神經網絡,那個時候由於沒有足夠的數據和計算力,效果不好,導致大家很快遺忘了神經網絡,僅剩Geoff Hinton 等小部分人在堅持推進神經科學的網絡。自2006年深度學習方法提出後,深度學習技術逐漸從學術界走向工業界,與應用結合。比如在2008年時,我們在NIPS舉辦了一個包括學術界和工業界人士的研討會,邀請Hinton教授來做報告,讓大家關注這個領域,希望把神經網絡技術跟工業界的核心任務相結合。

後來深度學習技術在多個人工智能核心領域相繼取得突破,最早在語音識別領域,在2010年基於深度學習的模型在大詞彙量語音識別任務上取得突破,並隨後在2017年Switchborad測試集上精度達到人類的水平。在圖像領域,深度學習模型2012年在大規模圖像識別任務上取得突破,2015年在IMAGENET測試上精度達到人類水平。

雖然語音和圖像有很多突破,但智能人機對話與交互是更復雜的事情,很多時候不僅僅需要聽覺和視覺,還需要多種認知能力,才能達到很好的交互能力。

智能人機對話與交互是人工智能面向終端用戶應用的終極挑戰之一。對話是人類最基本的最重要的交流方式,新一代人機對話與交互技術將定義新一代的信息產業。

回顧現狀,一方面很多特定的領域,確實有很多人機交互對話的系統在工業界大規模使用,比如京東的智能客服、比如像微軟小冰這樣的情感陪護機器人,比如聽歌聽新聞聽簡單信息的亞馬遜、百度、阿里等的智能音箱。但在開放領域,特別是高複雜、需要高可靠性的產業界的場景上,還是有很多問題,需要進一步努力。比如谷歌的DUPLEX電話AI一度被認為接近通過圖靈測試,但尷尬的是,如《紐約時報》今年5月22日一篇報道指出,其系統打的電話中25%的是人工打出的,而系統自動打的電話中,有15%的需要人工干預。

這個現狀對我們給出了重要的機遇和挑戰。智能機器人發展到今天這一步,我們不僅僅希望它能回答用戶的問題,完成用戶分配給它的任務,還希望機器人有一定的情感能力,能夠理解用戶的情緒,能更好的和用戶產生交流。相信不久的將來我們會生活在AI無所不在,到處都是人工智能機器人或者人工智能助理的時代。

多模態人機對話和交互技術,需要很多基礎技術和能力,包括語言理解能力、語言生成的能力、多模態信息處理等等。這些技術和能力將驅動革命性的新應用。

深度的多模態人機交互系統是什麼概念呢?我們希望機器和人進行無障礙的非常自然的交流,表現出非常自然的交互式體驗,為了達到這樣一個體驗,還有大量的工作需要做,比如需要多輪的對話管理,還希望在感知智能之上,有更多的情感智能,還要有認知智能,及推理和決策的智能等等。

這裡用一個典型的應用作為一個例子,比如是否可以做一個個性化的有情感的導購機器人?是否能給每一個顧客,每一件商品都打造一個導購助手,一方面精確理解用戶的需求,另外一方面精確表達這個商品本身的特性、賣點,並給出真正打動人的推薦和解釋,使最後的購物行為達到雙贏。

舉個例子,客戶去京東商城或者一個京東平臺的店鋪給他的父母買一臺電視機,顧客提出一個簡單需求甚至只給一張圖片,機器人也能瞭解用戶的意圖是什麼,並推薦一款新的電視機。也許這臺電視機雖然很好,但是有點貴,所以客戶有點牴觸。這個時候AI基於對顧客和商品的理解和推理,可以解釋因為是給父母一輩買電視機,需要屏幕大,聲音洪亮,這樣會更加貼近他們的需求,同時AI感知到顧客對價格的敏感度,會介紹相關的優惠活動,打消顧客疑慮,最後幫助顧客買到合適的電視,達成顧客和商家的雙贏。

從這個簡單的每天都在發生的流程可以看到AI需要完整的跟蹤上下文,要有情感管理能力,要有意圖理解和知識推理能力,還要有全局優化的對話策略,才能達到最佳解決方案。我們也可以看到,對話不僅僅是語言的理解和語言的生成,很多時候AI和用戶之間的交流類似於一個決策的過程,比如讓AI學會做一個好的銷售,從大量數據中學習銷售的語言技巧等。從這點來看,對話像是圍棋,但比圍棋更復雜,對圍棋而言棋盤的觀測空間很大。但是下棋的執行空間很小,而語言的觀測空間和執行空間基本都是無限的。

下面我簡單介紹一下打造智能對話與交互系統所需的一些核心技術。

比如精準用戶意圖理解。能不能精準理解用戶的各種各樣內在的意圖,用戶為什麼這樣想,哪些關鍵的詞語表現了用戶的需求,需要深度的模型對意圖精準理解。還有語義解析。用戶很簡單說了一句話,比如需要訂一張今天的機票,從波士頓到紐約,AI能不能分析出他講的起點城市是波士頓,終點城市是紐約,時間是今天。精準的意圖理解和語義解析是使機器人能夠完成客戶任務的基礎技術。

有時為了讓交流更有趣味,吸引客戶,需要智能生成內容,比如用戶購買自拍杆,可以生成一首小詩,提高用戶的體驗度。比如通過AI寫出推薦短文,自動生成商品的亮點文案,所有這些內容的生成對促進交流的效率,達成銷售的目標,有很大的影響。

情感分析技術也很重要。因為人是情感動物,交流的時候有喜怒哀樂、高興、失望等等。在智能客服應用中,在每一個時刻AI不單要知道用戶的意圖,還要知道用戶的心情,根據不同心情做不同的引導,為客戶提供很貼心的交流,很好的反饋,給予了顧客很好的體驗,某種程度上進一步提升了交流的效率,降低了交流的成本。在京東,我們可以做到7種不同情緒精準的識別,還可以識別情感濃度,基於這樣的情緒識別能力,我們能做更好的對話決策。

不僅僅通過文字交流,有的時候通過語音,或者通過語音配合圖像一起,進入多模態交互,可讓用戶的體驗更好。給大家舉個例子,我們希望在AI+媒體上進行一些突破。通過這樣的多模態的語音交互,與用戶有更深入的交流,極大增強用戶的體驗,進一步增加交流的效率。

之前介紹了單點技術比如說在語音、圖像上進行理解,其實人類不僅僅停留在一個模態,我們本身是多模態處理的智能體,比如當你讀文字的時候對奧巴馬有這樣的理解,但是閱讀圖片還有各種各樣關於他的演講,才對奧巴馬這個實體有了更深入的理解。以前處理語音和處理圖像的機器學習模型是很不一樣的,但現在通過深度學習技術,我們可把圖像或文字蘊含的語義抽離出來,跟人的腦海裡一樣,不管是看圖片還是讀文字還是聽語音,最終在腦海中形成語義概念。現在我們可以模擬多模態的語義空間,把不同模態的信號,在語義空間裡面匯合,進行推理。

在京東有一個很長的零售鏈條,包括售前銷售、諮詢,還有售中、售後、物流,整個鏈條京東都有,這裡有大量的需要機器人參與服務的場景。下面這個例子直觀展現京東在語言識別、語言理解,包括內容生成,包括完成任務,處理工單各個方面的技術。

整個智能客服是非常複雜的過程,客戶服務完成流程包括進線諮詢、分流調度、接待服務、諮詢後跟進、糾紛和售後。我們的目標不是用AI完全取代人類,而是讓AI和人工融合在一起,達到效率的提高,成本降低,和用戶體驗的提升。

基於京東的智能對話與交互技術, 客服效率提高了90%,售前轉化率得到極大的提升,服務的閉環得到明顯的提高,這一切使得用戶整體有一個更好的體驗。

我們不僅僅線上做客服,在線下、IOT、智能音箱等場景也提供賦能。比如在線下零售店裡部署了京靈機器人,通過多模態交互,給用戶提供諮詢。比如這個機器人有很大的屏幕,這個屏幕有攝像頭,可以識別這個顧客是否是VIP,通過語音或者觸摸多模態的交互,精確理解用戶的需求,把精確的信息反饋給用戶,使得線下的零售體驗提升。

以上很多是在京東內部的部署,但AI有很大的能力,要在很大的規模上進行價值的驗證和體驗的驗證。經過內部驗證之後,我們更加有信心,通過打造一個通用智能對話與交互技術平臺賦能更多的產業。

比如智能服務產業發展歷程和市場規模,預測2025年AI化智能服務達到2000億,裡面有大量智能服務的需求,為了支持這種需求,京東進一步把多種對話和交互技術搭建成一個技術平臺。這個平臺不是一個大而全的普通AI平臺,它更加專注於如何提供更好的多模態對話與交互服務,通過各種各樣的模塊、模型、通過組合,迅速生成一系列的智能對話交互產品,賦能到各個行業中去。同時,我們通過前端的智能交互,得到用戶真實的意圖後,可進一步進行流程自動化,比如工單的自動化,物流跟蹤的自動化等。通過智能交互,得到用戶精準的需求,通過任務自動化,使得整個服務形成閉環,這樣達到體驗和效率提升。為此京東通過智能交互RPA平臺,對零售服務、政務服務等,得出高效率的服務方案。下面是智能交互服務端到端的產品全景圖,可以用最低的成本,使得各個場景得到最好的服務。

對外,京東已與聯通進行合作,助力客服服務中心,探索更新的模式,使得聯通服務顧客的能力得到進一步提升。京東與華西第二醫院,打造分診機器人、諮詢機器人,以前需要人工服務的工作,現在可以通過機器人解決。比如說市政服務,我們為商務部、大同市提供諮詢系統和智能市長熱線。京東最終希望通過智能交互技術構建一個AI的產業生態,從基層開始,打造不同的AI能力,打造不同的AI的服務平臺,最後也能為第三方創業企業、創業者賦能,使他們利用這個平臺,為其顧客提供更好的服務。

這裡特別感謝京東雲,助力智能交互技術規模化賦能產業,藉助京東雲這樣一個基礎的雲計算設施,我們將向全社會提供大規模的多模態智能對話與交互技術。

(本報告根據速記整理)

轉發請註明轉自中國人工智能學會


分享到:


相關文章: