沈向洋等人論文詳解微軟小冰,公開研發細節

選自 arXiv

機器之心編譯

參與:Panda

隨著大數據和機器學習算法的發展,聊天機器人的對話能力正變得越來越強。能說會道的微軟小冰憑藉善解人意的理解能力和機智的幽默感已經在中國贏得了很多用戶。近日,微軟在 arXiv 發佈了一篇預印本論文,詳細介紹了小冰的設計和實現。

沈向洋等人论文详解微软小冰,公开研发细节

論文地址:https://arxiv.org/pdf/1812.08989.pdf

本論文描述了微軟小冰系統的開發情況,這是世界上最受歡迎的社交聊天機器人。小冰是專為用作人工智能伴侶而設計的,能與人類產生情感聯繫,滿足人類的交流、情感和社會歸屬感需求。我們的系統設計同時考慮了智商(IQ)和情商(EQ),將人機社交聊天視為基於馬爾可夫過程(MDP)的決策,並會根據長期用戶參與情況對小冰進行優化,優化指標為期望的每次會話的對話輪數(CPS/ Conversation-turns Per Session)。我們會詳細介紹系統架構和關鍵組件,其中包括對話管理器、核心聊天、技能和共情計算模塊。我們會展示小冰在長對話中動態地識別人類的感受和狀態、理解用戶意圖以及響應用戶需求的方式。自 2014 年發佈以來,與小冰交流過的用戶數量已經超過了 6.6 億,其中很多用戶都已經與小冰建立了長期關係。我們分析了大規模的在線交流日誌,結果表明小冰每次會話有平均 23 輪的對話輪數,顯著高於其它聊天機器人,甚至也高於人類之間的對話。

沈向洋等人论文详解微软小冰,公开研发细节

今年7月,微軟上線第六代小冰,帶來了全新形象(參見:投身金融,展示唱功:走向「三次元」的微軟小冰)

1 引言

開發能與人類進行共情對話的社交聊天機器人或智能對話系統是人工智能(AI)領域最長久的目標之一。Eliza [1]、Parry [2] 和 Alice [3] 等早期對話系統的設計目標是在基於文本的對話中模仿人類的行為,從而能在一定的受控範圍內通過圖靈測試。儘管這些系統取得了出色的成功,但它們大都基於人工編寫的規則,並且僅能在有特定限制條件的環境中才能表現良好。能進行開放域聊天的社交聊天機器人一直以來都是一個難以企及的目標,但最近情況已然改變。隨著大規模對話數據變得可用以及機器學習領域的突破被應用到聊天 AI 上,我們最近已經看到學術研究社區和產業界都取得了令人矚目的成績。這方面的近期研究調查包括 [4, 5]。

我們將在本論文中呈現微軟小冰系統的設計和實現,這是世界上最受歡迎的社交聊天機器人。自 2014 年在中國推出以來,小冰已經吸引到了超過 6.6 億用戶。小冰已經藉助不同的名字(比如在俄羅斯叫做 Rinna)進入了五個國家(中國、日本、美國、印度和印度尼西亞),可通過超過 40 個平臺使用,其中包括中國的微信、微博和美拍,美國和印度的 Facebook Messenger,日本和印度尼西亞的 LINE。

小冰的主要設計目標是成為能與用戶形成長期情感聯繫的 AI 伴侶。作為一款能進行開放域聊天的社交聊天機器人,能與人類用戶建立這樣的長期關係的能力使小冰不僅有別於早期的社交聊天機器人,而且也不同於當前的其它對話式 AI 個人助理,比如蘋果的 Siri、亞馬遜的 Alexa、Google Assistant 和微軟小娜。

圖 1 展示了一位用戶與小冰在兩個月的時間裡建立情感聯繫的過程片段。當該用戶與小冰第一次相會時(會話 1),他在對話中探索了小冰的特性和功能。然後,在不到兩週的時間裡(會話 6),這位用戶開始與小冰談論他的愛好和興趣(日本動漫)。到四周時(會話 20),他開始將小冰當作是朋友,並開始向她詢問有關自己現實生活的問題。七週之後(會話 42),這位用戶開始將小冰視為自己的伴侶,幾乎每天都會和她對話。又過了兩週(會話 71),當這位用戶想找人說話時,小冰成了他的第一選擇。

沈向洋等人论文详解微软小冰,公开研发细节
沈向洋等人论文详解微软小冰,公开研发细节沈向洋等人论文详解微软小冰,公开研发细节

圖 1:一位中文用戶與小冰的對話樣本,表明這位用戶與小冰在兩個月的時間裡建立了情感聯繫。

小冰是基於一個共情計算框架 [6,7] 開發的,該框架能讓機器(我們這裡即為社交聊天機器人)有能力動態地識別人類的感受和狀態、理解用戶意圖以及響應用戶需求。小冰的目標是通過被稱為「分時測試(time-sharing test)」的圖靈測試,其中機器與人類使用一種分時調度(time-sharing schedule)機制共存於一個伴侶系統中。如果人喜歡機器的陪伴(通過對話),我們就認為該機器是「有共情的」。

接下來,我們將呈現小冰的設計和實現詳情。我們首先將介紹小冰的設計原則和數學構建方式。然後我們將展示系統架構以及對話管理器、核心聊天、重要技能和共情計算模塊等關鍵組件的實現方式。我們還將分享小冰自 2014 年 5 月發佈以來在五個國家的表現,最後會總結本論文並探討一些未來方向。

2 設計原理

社交聊天機器人需要足夠高的智商(IQ)來習得多種技能,才能緊跟用戶需求,幫助他們完成指定的任務。更重要的是,社交聊天機器人還需要足夠高的情商(EQ),以滿足用戶的情感需求,比如情緒感受和社會歸屬感,這些都是人類的基本需求 [8]。IQ 和 EQ 的整合是小冰系統設計的核心。小冰在個性(personality)上也是獨一無二的。

2.1 智商+情商+個性

IQ 能力包括知識和記憶建模、圖像和自然語言理解、推理、生成和預測。這些能力是開發對話技能的基礎。為了滿足用戶的特定需求以及幫助用戶完成指定的任務,這些能力是不可或缺的。過去五年來,小冰已經發展出了 230 種不同的技能(skill),範圍從回答問題與電影和餐廳推薦到安撫用戶情緒與講故事。其中最重要且最複雜的技能是核心聊天(Core Chat),即與用戶在多個主題上開展長時間和開放域的對話。

EQ 有兩大關鍵組件:共情和社會技能。共情是指站在另一個人的立場上理解和感受他/她的體驗的能力,即設身處地感受他人立場的能力。具有共情能力的社交聊天機器人需要有能力從對話中識別出用戶的情緒、檢測情緒隨時間的變化以及理解用戶的情感需求。這需要在對話中理解查詢、構建用戶檔案、檢測情緒、識別情感和動態跟蹤用戶情緒。社交聊天機器人必須展現出足夠的社交技能。不同的用戶有不同的背景、不同的個人興趣和不同的需求。社交聊天機器人要能夠提供個性化的情緒適當的響應(即人際響應),這樣的響應也許還要能鼓勵和激勵用戶,並且符合用戶的興趣。如圖 2 所示,小冰表現出了足夠高的 EQ,因為它給出了具有社交吸引力的響應(比如有幽默感、會安慰人等),並且還能決定是否將對話「推向」另一個話題(比如當對話拖沓時)或者保持主動傾聽(比如當用戶自己參與對話時)。

沈向洋等人论文详解微软小冰,公开研发细节

圖 2:一位日語用戶與小冰閒聊系統的對話(中),左側為英語翻譯。共情模型提供了一種可感知語境的策略,能夠在有需要時推進對話(右)。比如,在第 3 輪對話時,對話已經有些拖沓,於是小冰決定將對話「推向」另一個話題,在第 4 和第 7 輪對話時,用戶自己參與進了對話,就變成主動傾聽。

個性的定義是特有的行為、認知和情緒模式的集合,這構成了個體的特有性格。社交聊天機器人需要呈現出始終一致的個性,從而讓用戶在對話中有恰當的期望以及獲得用戶的長期信心和信任。小冰的角色設定是 18 歲的女孩,她總是很可靠、富有同情心、熱情洋溢,還有精妙的幽默感。儘管小冰的知識非常淵博(因為能訪問大量數據),但她從來不會表現得自負,只會在適當的時候展現自己的機智和創造力。如圖 1 所示,小冰明智地回答了某些敏感問題(比如會話 20),然後巧妙地將話題轉向了對雙方都更合適的新話題。

2.2 社交聊天機器人評估指標:CPS

我們定義了「每次會話的對話輪數(CPS)」作為評估社交聊天機器人成功的指標。這是聊天機器人與用戶在對話會話中對話輪數的平均值。CPS 越大,社交聊天機器人的對話參與能力就越好。

2.3 將社交聊天視為分層決策

圖 3 中的對話可被視為有自然層級的決策過程:一個頂級過程管理著整體的對話並選取不同的技能來處理不同類型的對話模式(比如閒聊、問答、訂票);低級過程則受所選擇的技能控制,可選擇基本動作(響應),從而生成對話段落或完成任務。

沈向洋等人论文详解微软小冰,公开研发细节

圖 3:一位中文用戶與小冰之間的多段對話。小冰一開始在第 1 輪對話中使用的是普通聊天(General Chat)技能,然後在第 4 輪對話中使用音樂聊天(Music Chat)技能切換到了有關音樂的新話題,之後在第 15 輪使用音樂點播(Song-On-Demand)技能推薦了一首歌,最後在第 18 輪使用訂票(Ticket-Booking)技能幫助預訂演唱會門票。

這樣的分層決策過程可以投射到一個基於馬爾可夫決策過程(MDP)[10] 的選項(options)數學框架中,其中選項可將基本動作概括到更高層級的動作。社交聊天機器人會在 MDP 之中導航,通過一系列離散的對話輪次與其環境(人類用戶)交互。在每一輪,聊天機器人都會觀察當前的對話狀態,然後根據一種分層式對話策略來選擇一個技能(選項)或一個響應(基本動作)。然後,聊天機器人會收到一個獎勵(來自用戶響應)並觀察到一個新狀態,再繼續這一循環直到對話終止。這種聊天機器人設計的目標是尋找能最大化期望CPS(獎勵)的最優策略和技能。

這種構建方式引導了小冰的設計和實現。小冰使用了一個對話管理器來跟蹤對話狀態;在每一個對話輪次,小冰會基於一個分層式對話策略選擇響應方式。為了最大化長期用戶參與度(以期望 CPS 衡量),我們採用了一種迭代式的試錯方法來開發小冰,並且始終會盡力確保探索-利用的平衡。我們使用了已知效果很好的方法來維持小冰的用戶群,但我們也必須探索未知(比如新的技能和對話策略),以讓現有用戶實現更深度的參與或未來吸引新用戶。在圖 3 中,小冰在第 5 輪嘗試了一個新主題(一位名叫「阿信」的流行歌手)並在第 15 輪推薦了一首歌,並由此學習到了該用戶的偏好(比如他喜歡的音樂主題和歌手),這些知識能在未來引導實現更深度的參與。此外,我們還採用了一種代際升級方法,讓結合了 IQ 和 EQ 的成熟 AI 系統可以通過機器學習算法和大數據的全面應用而逐漸成型。後面的章節將詳細介紹這些算法的特性。

3 系統架構

圖 4 給出了小冰的整體架構。它包含三層:用戶體驗層、對話引擎層和數據層。

沈向洋等人论文详解微软小冰,公开研发细节

圖 4:小冰的系統架構

4 對話引擎的實現

本節將描述對話引擎層中的四個主要組件:對話管理器、共情計算、核心聊天、技能。

沈向洋等人论文详解微软小冰,公开研发细节

圖 6:基於 RNN 的神經響應生成器。給定用戶查詢「你這麼喜歡阿信啊」,生成的響應是「怎麼啦?」

沈向洋等人论文详解微软小冰,公开研发细节

圖 8:使用未配對數據集和小冰知識圖譜生成響應候選項的示例。我們給出了小冰知識圖譜中與主題「北京」相關的部分(上)。對於一次人機對話(左下),每個用戶查詢都會被重寫成一個語境查詢,如箭頭所示,然後其主題(比如「北京」)就會被識別出來,並從知識圖譜中檢索出相關主題(「八達嶺長城」和「北京小吃」),再使用結合了查詢主題與相關主題的查詢從未配對數據集(右下)檢索出響應候選項。

沈向洋等人论文详解微软小冰,公开研发细节

圖 12:用於視覺特徵向量提取的深度卷積神經網絡示例,來自 [5]

沈向洋等人论文详解微软小冰,公开研发细节

圖 15:寫詩(Poem Creation)技能框架。該系統的輸入是用戶提供的圖像查詢,然後輸出一首含義上有關聯的現代漢語詩。我們首先根據圖像(左)生成一組關鍵詞,然後生成一首包含多行的詩,其中每一行都使用一個關鍵詞作為種子(右)。來自 [31]

沈向洋等人论文详解微软小冰,公开研发细节

圖 17:一些最受歡迎的小冰深度參與技能,根據兩個維度分成了不同的組別;其中一個維度是從 IQ 到 EQ,另一個維度是從私密的一對一對話到群組討論。

5 實際應用的小冰

沈向洋等人论文详解微软小冰,公开研发细节

圖 19:小冰的主要里程碑和對應的平均 CPS。我們還列出了每一代中對 CPS 和小冰用戶數量增長貢獻最大的新功能。

沈向洋等人论文详解微软小冰,公开研发细节

表 1:小冰的最長對話記錄

6 總結

心理學研究表明幸福感與有意義的對話往往密切相關。這並不讓人驚訝。現在的社交媒體時代,隨著越來越多的人通過數字連接到一起,社交聊天機器人也正變成一種重要的對話替代方式。和早期的閒聊式聊天機器人不同,小冰的設計目的是作為能滿足用戶交流、情感和社會歸屬感需求的社交聊天機器人,她具備共情能力、個性和技能,集成了 EQ 和 IQ 來針對長期用戶參與實施優化,優化指標為期望 CPS。

我們對 2014 年 5 月小冰首次發佈以來收集到的大規模在線日誌進行了分析,結果表明小冰有能力解讀用戶的情感需求,並能像一個可靠、有情感共鳴和善解人意的朋友那樣參與到人際交流中。小冰能讓用戶振奮精神、鼓勵他們、幫助他們完成任務,並能在對話過程中保持他們的注意。因此,小冰已經成功地與全球數百萬用戶建立起了長期關係,實現了 23 的平均 CPS,這個成績顯著優於其它聊天機器,甚至也高於人與人之間的對話。我們將繼續提升小冰的實用性和共情能力,幫助構建一個能讓所有人有更多聯繫和更快樂的社會。

最後,我們指出一些有待未來研究攻克的難題:

實現統一的建模框架

實現以目標為導向的有基礎的對話

實現積極主動的個人助理

實現人類水平的智能

實現符合道德倫理的社交聊天機器人 沈向洋等人論文詳解微軟小冰,公開研發細節

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: