12.08 為什麼聊天機器人從業者都很委屈?

為什麼聊天機器人從業者都很委屈?

那些Siri裡有趣的回答,許多都是人寫的,和機器智能無關。


作者|施晨

設計|孫佳棟

微信|甲子光年(ID:jazzyear)

“現在的聊天機器人為什麼做得這麼爛?”

自從讀了聊天機器人方向的博士,這是我最常被問到的問題。

這個世界上的科技進步有兩類,一類是委屈的,一類是不委屈的。

委屈和不委屈的區別在於:前者是大眾期望走在科技進步前面;後者是大眾期望走在科技進步後面。

比如,最初的汽車行業就一點都不委屈。亨利福特曾說:“如果我最初問消費者們想要什麼,他們只會告訴我想要一匹更快的馬。”——對於那個時候的福特而言,他只需要發明一輛低級的老爺車就可以創造歷史。

而現在的自動駕駛從業者開始委屈了。人們早已想象好了一個無人汽車甚至飛行汽車應該長什麼樣子,站在終點看起點,怎麼看,現在的狀態都讓人覺得“傻大笨粗”。

而聊天機器人也屬於很委屈的一類。它的委屈在於——世界上所有人都知道一個好的聊天機器人應該是什麼樣的。自1950年被圖靈提出,聊天機器人就成為了人類對於人工智能的“終極想象”。從《星球大戰》裡可愛而話癆的C-3PO,到《鋼鐵俠》裡堪稱全能助手的Javis,再到兩年前的電影《Her》中有著寡姐聲線和近乎完美設定的Samantha——人類對於聊天機器人一開始就直盯著結局,相比之下,現實中無論哪款聊天機器人都越看越像“人工智障”。

當大眾期望走在科技進步後面時,研究者們就像是航海家,每到一處都是新的成就,掌聲與鮮花聞風而來;當大眾期望走在科技進步前面時,研究者們就像是馬拉松跑者,你在漫長的跑道上汗流浹背,而路的盡頭,卻是一個早已預設好的了無新意的終點。

作為一個聊天機器人專業博士,這個現實一開始的確令人有點無fuck說。然而,慢慢地我卻意識到,我們其實並沒什麼抱怨的資格

在過去,回答開篇那個問題,我總會以“大眾心理閾值過高”之類的理由來搪塞。可當我深入瞭解這個領域之後,我意識到,這怪不得別人——目前這個領域的從業者,我們自身做得並不好。

現在讓我回答這個問題,我一般會以下面這句話開始:

“因為聊天機器人領域,目前還不是一個well-defined question。”

聊天機器人不是一個well-defined question

什麼是一個well-defined question?

對於機器學習領域來說,刨去對於問題本身insight的深入理解不談,首先,你至少需要一套被大家廣泛使用的標準數據集,這樣人們每提出一個新的模型,便可以在同一套數據集上進行實驗和比對;

然後,你還需要一套行之有效的Metric,即自動評測方法,這樣便可以對不同實驗結果使用統一標準進行打分。

以“標準數據集+評測方法”為機制,才能夠保證學術層面的公平性與透明性,這大大利於復現他人的實驗,並在此基礎上進行改進與提高——以此迭代下去,優秀的方法才會不斷出現。

然而,聊天機器人領域的現狀是:

既沒有一套統一的數據集,也沒有一個統一的Metric。

學術界發論文時,往往每個組自己搞一套數據集,然後借隔壁領域的各種Metric(如機器翻譯的BLEU,語言模型的ppl)來湊活著用,甚至很多時候直接進行人工評測。這樣,不僅使得實驗結果十分主觀,也使得不同模型方法之間不具備任何可比較性——這就相當於一個人在水泥地上跑步,另一個人在橡膠地上練跳高,他們本身運動的環境就不一樣,而你沒法去比誰跑得快或誰跳得高,只能簡單地看誰更“好”。

為什麼標準的數據集和統一的Metric對於聊天機器人領域這麼難?

拿數據集來說,對話語料在自然場景下本就很難獲取,天然有標註的語料更是無跡可尋。限於高昂的標註費用,現在各組大多隻能通過與企業合作來借取對話語料,但涉及到企業隱私規定,語料往往無法開源,因此很多時候別組想要復現時很難拿到最初的語料數據。這是對話領域的標準數據集至今難產的一大原因。

這個問題,其實和十幾年前的視覺圖像領域(CV)有些類似。曾經CV領域也極度缺乏標準數據集,直到斯坦福大學的李飛飛教授領導小組發佈了ImageNet,之後吸引了越來越多的人來貢獻數據,問題也就迎刃而解了。

而對於評測Metric,到處借用隔壁領域並不十分合適的Metric,其背後深層次的原因,其實是學界對於對話任務本身的理解還並不透徹。

要想構建一個適合該領域的Metric,首先需要學術界對這個領域有一個較為全面深入的理解,在此基礎上才能提出更有針對性也更為科學的Metric。聯想到專為機器翻譯任務核心特點“word-level alignment”設計的BLEU,目前我們似乎還沒有找到對話任務相對別的任務最核心的特點

“手標數據花的錢比給研發人員的錢還多”

一般而言,一個真正有價值的學術成果,從被學界認可,到在工業界的產品中實際落地,總要有幾年的技術沉澱期。

工業界已有產品一般都經過較長的研發週期,無論組織架構還是代碼都已相對成型且具備一定規模,這個時候如果下定決心上一套新方法,將面臨著巨大的維護與調整開銷,有些部分甚至需要推倒重來,涉及很多人力物力與可兼容性的問題。因此,工業界對於新技術的態度一向審慎,就算被證明work,也傾向於再等一段時間。更何況,從決定使用新成果,到完全調試成功真正上線,又要很長一段時間。

換句話說,學術界畫餅畫得再美好,工業屆真的能吃到餅也得等到幾年以後了。更別說聊天機器人這個領域,學術界的餅究竟要怎麼畫,現在還是沒譜的事。

事實上,現在市面上絕大多數智能助理或者類似的聊天機器人系統,其內核都相當地“不智能”

和任何領域一樣,一旦技術從學術界走向工業界,系統的技術性與智能性往往就會降低一檔。就像搜索引擎與機器翻譯等再成熟的產品,最好效果的高頻內容永遠“靠手標”——以人工來輔助智能

一位從事聊天機器人開發的工程師就曾向我調侃:

“現在研發聊天機器人的成本,花在請人標數據的錢,比花在研發人員上的錢都多。”

當有時社會輿論出現熱點問題,或是聊天機器人要新上一個skill時,一般從純技術層面上是來不及保證效果與coverage的。這時,工程上採取的方法一般是手工開一個白名單,人工地“調大”某些回答被觸發的概率——

比如那些Siri裡有趣的回答,很多都是人寫的,和機器智能無關

目前市場上一些主流聊天機器人的內核,很多時候都是用大量相對“暴力”的code“堆”起來的。

從另一個角度來看,一個公司開發的聊天機器人效果好不好,很大程度依賴於你有沒有自己的數據。

有的數據來自搜索引擎。有些大公司的聊天機器人項目最初就是host在公司旗下的搜索項目上的。所以理論上講,如果一家公司沒有自己的搜索引擎,只能去借別家的湊活著用,搜索部分的許多質量會打折扣,聊天機器人就很難玩得轉。

從這個角度來看,Google無愧是當前聊天機器人在技術層面上的翹楚,其它各家,Cortana的背後有Bing,度秘的背後有Baidu,連Alexa背後的Amazon其實也有自家的搜索引擎系統。

不過,有趣的是,唯一一家沒有自己搜索引擎的巨頭,因為擁有手機入口“強推”,反而佔據了聊天機器人領域最大的市場。更有趣的是,這一點和十年前互聯網時代的瀏覽器的格局簡直一模一樣,彼時微軟靠windows操作系統強行捆綁,和現在情況如出一轍,可看看十年後的今天瀏覽器的結局,也許會對當前各家巨頭聊天機器人的未來產生一些有趣的預測。

另一些數據來自手工建立的知識庫。閒聊場景之外,工業應用落地,幾乎靠的都是規則方法。

很贊同文因互聯創始人鮑捷之前在文章《八一八聊天機器人》的觀點:

“能做好的最後必然是擁有數據的公司。製造設備的公司會有幻覺,以為自己有用戶數據,其實此數據非彼數據。自然語言理解雖然是語義搜索的重要輔助工具,但是當前階段還不應是Value Proposition或者Key Technology。淺而高質量的數據關係才是。”

深度學習到底work還是不work?

這兩年,人工智能重新走向歷史前臺,和深度學習的崛起密不可分,一片“奇點將至”的論斷下,與人工智能相關的一切似乎都搭上了一條通向未來的快車道。

作為人工智能肇始的聊天機器人領域,有藉著這波東風一舉取得突破性進展麼?

似乎並沒有。

嚴格來說,深度學習在對話領域至今幾乎“寸功未立”。

從學界角度看,聊天機器人按照功能可以分為兩類:一類以閒聊為目的,比如微軟小冰;另一類則以完成任務、解決實際問題為導向,比如各類智能助手。

對於閒聊來說,對話的通順連貫與“有趣”是關鍵,專業性似乎不重要;而對智能助手來說,解決問題是第一要務,因此係統需要能很好地利用相關數據庫與外部知識。相比之下,前者對於深度學習技術的運用相對更好。但在大多數場景裡,人們還是希望聊天機器人能解決一些實際問題,要為用戶完成任務,這通常需要在結構化數據上做答案生成,很大程度依賴知識庫應用和規則方法——在這個過程中,深度學習,乃至機器學習起的作用都不大。

事實上,在過去,對話領域的學界基本不用深度學習。這兩年由於深度學習火了,很多人嘗試把深度學習用在任務型助手上,但尚未有大突破。

未來,深度學習這條路究竟work還是不work,學術界也有爭議,甚至不乏看衰之聲。從一個本專業博士的角度,我也對此持謹慎態度,不過我同時覺得,

現在就看衰深度學習似乎也還為時尚早

想當初,在sequence-to-sequence模型誕生之前,也沒人會想到深度學習在機器翻譯領域能work,以那時機器翻譯領域的一貫做法,似乎也看不到太多深度學習可以插手的空間。革命性技術的意義就在於,它可能會完全顛覆行業現有的做法,就像sequence-to-sequence模型之於機器翻譯一樣——而當這種革命性技術被提出之前,沒有人知道它會是什麼樣的,經驗總會讓你覺得它並不存在。

學界尚無定論,當我們把目光投向工業界,從業者們更是“戴著鐐銬起舞”了。

由於死磕技術鏈太難,很多從業者開始繞道前行:把軟件做成各式各樣的機器人、音箱,靠外觀征服用戶,靠設計征服用戶——好看固然有利於user acquisition,但user retention還是要靠真本事。

考慮到對話領域當前還不是一個well-defined question,我認為,當前聊天機器人的戰場更多還是在學界和巨頭公司的戰略佈局,離獨立商用還有一段距離。Timing很重要,標準的數據集與評測方法就緒了,一些方法論上的驚喜出現了,工業界的春天才會真正到來。

“勝利美人”何時勝利?

2011年10月4日,蘋果在加州的庫比提諾總部發布了它們的新一代智能手機。這是蒂姆·庫克首次作為蘋果CEO亮相,一天之後,喬布斯與世長辭。

這本該是一場極其特別的發佈會,但新推出的iPhone4s卻有點配不上這個時刻:它和被視為經典產品的前作iPhone4太像了,以至於剛出來那會兒,如何區分4和4s,幾乎成了果粉論壇裡的找茬遊戲。

但蘋果敢把4s和4做得那麼像,不是毫無理由,他們對4s一個內在突破寄予厚望——全新的語音助手Siri。庫克後來解釋,4s裡的“s”正是指Siri

在這部喬布斯生前留下的最後一部作品中,Siri被他視為最主要的創新點。在All Things Digital大會上被問及Siri是什麼時,他曾斬釘截鐵的說Siri“不是搜索公司,是人工智能公司”,在那個人工智能從業者多在孤獨中前行的年代,這樣的遠見著實令人佩服。

Siri在挪威語中的含義是“引導你走向勝利的美人”。六年過去,我們果真如幫主預言跨入了人工智能時代,但恐怕,Siri還沒有完成他生前設想的使命——人們還沒有真的開始使用siri,只是偶爾調戲它

如今,自阿蘭圖靈第一次提出“圖靈測試”已過去六十餘載,距第一個聊天機器人Eliza的誕生也已有整五十年。半個世紀幾經起落,時有高潮,但人類似乎始終沒有停止對於完美人工智能的幻想與渴望。

從哲學層面來講,人類對於聊天機器人的痴迷其實是有內在邏輯的。

在茹毛飲血的蠻荒時代,手無寸鐵的原始人要想獲取信息,靠的只有“眼觀六路耳聽八方”;後來人類有了語言與文字,信息獲取終有了正軌渠道;隨著書籍逐漸增多,人類獲取信息需要在汗牛充棟的圖書館中漫長耐心地檢索與查找;互聯網的到來解放了這一切,搜索引擎的輕輕一點帶來了前所未有的便捷,但互聯網同時也帶來了信息量指數級的增長;再後來,當人們終於對從龐雜的網頁結果中搜尋信息也感到厭倦時,直接給出回答的聊天機器人作為下一代解決方案,自然成為了大家的期待。

“心理閾值”,看起來是個和技術毫不相關的話題,但在科技史上卻多次影響了技術從業者的命運。

李開復在回顧自己的研究經歷時,曾感嘆“生不逢時”。他對人工智能領域的主要貢獻在語音識別技術上,摒棄了依靠語言學家的專家系統,開始使用統計模型方法,大大提高了語音識別的效率。

但當時,這個學術成果,尚無法達到大眾可用的“心理閾值”。識別準確率從50%到80%也許從技術上看是很大提升,但人們能夠接受的心理閾值卻要求準確率至少達95%——在達到這個臨界點之前,人們總會覺得人工智能是“人工智障”,無法滿意,於是技術從業者總要坐在冷板凳上前行,並不能構成新的產業機會。

李開復遺憾自己當時沒有遇上“深度學習”,他曾說:如我生在今天,我所開發的技術和產品一定會被億萬人使用,並深刻改變人們的生活方式。

作為一個研究對話系統的人,我有時也忍不住想:我們這一波,是不是還是生早了?依然沒趕上聊天機器人和對話系統技術突破人們“心理閾值”的臨界時刻。

按照大家心中所想,一個真正走向勝利的聊天機器人,所承載的,應該是越過信息的海嘯、代替上一代搜索引擎“把網頁擺到用戶面前讓用戶自己找”的方式,給用戶以直接的回應,可想而知,如果對話系統真的勝利了,其前景,理應是一個與互聯網量級相當的東西。

這一天何時到來?

Siri的CEO Dag Kittlaus有一篇文章Siri Is Only The Beginning,也聊起過這種真正的勝利,文章裡說,“when our kids are our age”。

等我們的孩子都長大,20-30年吧。

爬科技樹,絕非一朝一夕。聊天機器人真的沒有捷徑。

END.


分享到:


相關文章: