聊天機器人有多難做?94億個參數、15億個訓練語句也撐不起來

在正文開始之前,我們先來看一個國產的“智能”聊天機器人:

​宋師傅給孫子買的機器人

雖然近年來聊天機器人和虛擬助手已經取得了一定的進步,但嚴格來說,它們還不夠智能,大多數都是高度任務導向化、一問一答式的:你提出要求,它們就服從。當它不能回答時,就說“超出了我的理解範圍。”

“xxx,幫我定個早上8點的鬧鐘”,“好的”。“撥打xxx的電話”、“播放xx音樂”、“導航去公司”......

目前來說,除此之外,我們並沒有看到聊天機器人和虛擬助手其他更好的用法。機器人自主地與人類進行長時間的對話或就某一特定主題進行深入地探討,目前市面上還沒有這樣的產品,要成為“人類的靈魂伴侶”,更是遙不可及。

哪怕是Facebook近日公佈的集成了94億個參數和15億個訓練語句的開放域聊天機器人Blender,也做不到。

4月29日,Facebook的AI和機器學習部門Facebook AI Research(FAIR)開源了一款新的聊天機器人Blender。

聊天機器人有多難做?94億個參數、15億個訓練語句也撐不起來

FAIR稱,Blender是GitHub上最大的開放域聊天機器人,它可以用一種有趣的方式談論幾乎任何事情,其性能優於此前號稱世界上最好的聊天機器人——谷歌Meena。

FAIR表示,與以往的機器人相比,Blender是多年來將同理心、知識和個性結合成一個系統的研究成果。為此,基本模型——受益於改進的解碼和技能混合技術——包含多達94億個參數(定義給定問題的技能的配置變量),比谷歌Meena(26億個)的系統多3.6倍。

不僅如此,為了在對話中生成響應打下基礎,Blender還接受了Reddit上的15億個公開的對話預訓練。

為了評估Blender的聊天技能,FAIR的研究員將它與Google最新的Meena chatbot進行比較。志願者需要從100條分別來自Blende和Meena的聊天日誌中回答兩個問題:“你更想和誰進行長時間的交談?”“哪個聊天機器人聽起來更加人性化?”

聊天機器人有多難做?94億個參數、15億個訓練語句也撐不起來

聊天日誌示例

結果顯示,75%的人類評估者認為Blender比Meena更吸引人,67%的人覺得Blender聽起來更像人類。儘管如此,大家都認為Blender的聊天技能還遠遠趕不上人類。

在本次研究中,FAIR團隊只使用了14輪的簡短對話作為評估範圍,因為他們擔心,如果聊天繼續進行下去,目前的模型可能無法勝任。該項目的以為負責人Emily Dinan表示:“無法記住歷史對話仍然是一個問題”。

另外,Blender所謂的“知識”,不過是一種整理,它最終是根據統計相關性而不是知識數據庫自主生成語句的。例如,當他們介紹某一個名人時,他們能將連貫的描述串在一起,但往往帶有完全錯誤的信息。

此外,對於所有開放式聊天機器人來說,防止說出有毒或者偏頗的話是一個重要的底線。2016年,當微軟的聊天機器人Tay發佈不久後,它因為設計上的漏洞,無法審核偏頗性的內容而最終被關閉。

Blender同樣有這樣的問題,由於Reddit公開語料庫中的部分評論具有攻擊和冒犯性,Blender偶爾會說出具有攻擊和冒犯性的話。

但由於Reddit的數據集實在太大,研究人員目前還沒有從數據中心過濾出有害的語言。

FAIR承認,Blender進行開放域對話還存在著眾多的侷限性:

1、詞彙用法(Vocabularyusage):即使是最好的Blender模型也會過於頻繁地生成一些常見的短語,比如“你喜歡嗎”、“很有趣”和“有什麼愛好”。

2、非平凡的重複(Nontrivialrepetition):模型經常重複對他們說的話。例如,如果對話夥伴提及愛犬,Blender會說他們有一隻愛犬,或者同樣喜歡的人。

3、矛盾和健忘(Contradictionand forgetfulness):Blender模型彼此矛盾,儘管在較大模型中程度較輕。他們也沒有建立邏輯上的聯繫,經常會問以前問過的問題。

聊天機器人有多難做?94億個參數、15億個訓練語句也撐不起來

Blender不斷重複和自相矛盾

4、知識和事實正確性(Knowledge and factual correctness):Blender模型容易出錯,尤其是在深入探討某個主題時。

5、對話的長度和記憶力(Conversation length and memory):在長時間(幾天或幾周)的對話過程中,Blender對話可能會變得乏味而重複,尤其是考慮到Blender不能記住較早的對話。

6、更深入的理解(Deeper understanding):Blender模型缺乏通過進一步對話來學習概念的能力,並且它們無法紮根於現實世界中的實體,動作和體驗。

應該說,如果我們要求聊天機器人能像人一樣正常的交流,它不僅要具備基本的知識儲備以外,還需要將這些知識“內化”,而不是當我們問及某個知識點時,它從瀏覽器上搜索一段話作為回覆,這同時還要求聊天機器人具有判斷能力。

另外,對生活的體驗和感悟也是聊天機器人做不到的。例如說,我們給它分享一首音樂,它可能會跟我們解釋這首歌的作詞、作曲人以及歌曲的風格,它卻難以跟我們描述聽完這首歌之後的心情,因為它並沒有真正的體驗。

正如Facebook的研究工程師StephenRoller所說,開放域聊天機器人是一個“AI-complete”的問題,要解決對話,就要解決所有AI問題。

參考鏈接:

https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot

https://www.technologyreview.com/2020/04/29/1000795/facebook-ai-chatbot-blender-beats-google-meena/


分享到:


相關文章: