谷歌發佈世界最大任務型對話數據集SGD,讓虛擬助手更智能

谷歌發佈了新的SGD數據集,研究團隊稱,此數據集將會成為有效的測試平臺,可用於意圖預測,槽位填充,狀態跟蹤和語言生成以及大型虛擬助手的其他任務。另外,各研究者也可將其用於對話技術創新。來新智元 AI 朋友圈與AI大咖一起討論吧~

近日,谷歌軟件工程師Abhinav Rastogi和工程主管Pranav Khaitan稱在谷歌虛擬助手中,已經引入了新的方法,更好地支持新服務。

谷歌發佈世界最大任務型對話數據集SGD,讓虛擬助手更智能


谷歌團隊稱,目前虛擬助手可幫助用戶完成各種各樣的任務,包括尋找航班,搜索附近的活動和電影並進行預訂,從網上獲取信息等等。他們通過為網絡上的各種服務提供統一的自然語言界面來提供此功能。

為了適應未來的增長,虛擬助手必須能夠輕鬆支持新服務,並減少維護工作量,而無需收集其他數據或重新訓練模型。

而像Google Assistant這樣的大型虛擬助手,需要與眾多領域中不斷增加的大量服務集成在一起,但每種服務都可能具有重疊的功能。這一適應性問題在最新模型中常常被忽略。這在一定程度上是由於缺乏合適的數據集,這些數據集無法與虛擬助手所面對的規模和複雜性相匹配。

谷歌發佈世界最大任務型對話數據集SGD,讓虛擬助手更智能


在谷歌最近的論文《邁向可擴展的多域對話代理:模式指導的對話數據集》(Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset)中,研究團隊引入了一個新的數據集SGD(Schema-Guided Dialogue dataset)來解決這些問題。該團隊表示,此數據集將會成為有效的測試平臺,可用於意圖預測,槽位填充,狀態跟蹤和語言生成以及大型虛擬助手的其他任務。

目前,谷歌已發佈SGD數據集,谷歌表示,發佈SGD數據集的基本目標是應對許多現有數據集無法充分解決的現實挑戰。谷歌研究團隊稱,SGD數據集是目前公開可用的、最大的任務型對話數據集。

在此之前,9月17日,亞馬遜在GitHub上發佈了超470萬單詞21萬句子的語料庫 , 並聲稱這個數據集支持“高質量”和“可重複”的對話系統研究,將成為研究界公開可用的最大的基於知識的社交對話數據集 。

谷歌發佈世界最大任務型對話數據集SGD,讓虛擬助手更智能


SGD數據集由人類和虛擬助手之間超過18000條的帶註釋的任務型對話組成。這些對話涉及17個領域。對於大多數領域,數據集包含多個不同的API,其中許多API 具有重疊的功能,但接口不同,這反映了典型的真實場景。SGD是第一個涵蓋多個領域併為每個域提供多個API的數據集。此外,為了量化模型對API接口更改或添加新API,評估集還包含了許多訓練集沒有的新服務。

目前,利用SGD數據集就可以訓練虛擬助手來支持互聯網上各種各樣的服務。而為達到這種功能,通用方法是需要一個master schema,來列出所有受支持的功能及其參數。但是,開發出適合所有使用案例的master schema很難。即使開發成功,master schema也會使新的或小型服務的集成複雜化,並會增加維護虛擬助手的工作量。此外,儘管跨服務可以有許多相似的概念可以聯合建模,例如用於查詢或指定電影票、機票或音樂會票數量在邏輯上有相似性,但除非手動定義它們之間的顯式映射,否則master schema方法並不便於對此類概念進行聯合建模。

谷歌發佈世界最大任務型對話數據集SGD,讓虛擬助手更智能


對此,谷歌團隊提出了的新的模式指導方法。此方法不需要為助手設定master schema。相反,每個服務或API都會提供其模式功能及其相關屬性的自然語言描述。然後,這些描述會用於學習模式的分佈式語義表示,語義表示則會作為對話系統的附加輸入。對話系統之後就會被作為不包含域或服務特定參數的單個統一模型。這種統一模型利於在不同服務中相似概念之間的常識表示,而使用模式的分佈式表示可以對訓練數據中不存在的新服務進行操作。

目前,谷歌已經將這一方法用在了開源對話狀態跟蹤模型中,該模型在常規設置中仍具有競爭力,且適用於zero-shot 設置(即沒有針對新服務和API的訓練數據)。

“我們認為該數據集將會成為建立大規模對話模型的良好基準,” Rastogi和Khaitan稱。“我們期待研究界將其用於對話技術的發展創新。”


分享到:


相關文章: