人工智障 2:你看到的AI與智能無關(中)

Part 3

人類對話的本質:思維


“ 對話的最終目的是為了同步思維 ”

你是一位30出頭的職場人士,每天上午9點半,都要過辦公樓的旋轉門,進大堂的,然後刷工牌進電梯,去到28樓,你的辦公室。今天是1月6日,平淡無奇的一天。你剛進電梯,電梯裡只有你一個人,正要關門的時候,有一個人匆忙擠進來。進來的快遞小哥,他進電梯時看到只有你們兩人,就說了一聲“你好”,然後又低頭找樓層按鈕了。你很自然的回覆:“你好”,然後目光轉向一邊。

兩邊都沒什麼話好講——實際上,是對話雙方認為彼此沒有什麼情況需要同步的。

人們用語言來對話,其最終的目的是為了讓雙方對當前場景模型(Situation model)保持同步。(大家先了解到這個概念就夠了。更感興趣的,詳情請見 Toward a neural basis of interactive alignment in conversation)。

人工智障 2:你看到的AI與智能無關(中)

The interactive-alignment model (based on Pickering and Garrod, 2004)

上圖中,A和B兩人之間發展出來所有對話,都是為了讓紅框中的兩個“Situation model” 保持同步。Situation model 在這裡可以簡單理解為對事件的各方面的理解,包括Context。

不少做對話系統的朋友會認為Context是僅指“對話中的上下文”,我想要指出的是,除此以外,Context還應該包含了對話發生時人們所處的場景。這個場景模型涵蓋了對話那一刻,除了明文以外的所有已被感知的信息。 比如對話發生時的天氣情況,只要被人感知到了,也會被放入Context中,並影響對話內容的發展。

A: “你對這個事情怎麼看?” B: “這天看著要下雨了,咱們進去說吧”——儘管本來對話內容並沒有涉及到天氣。

對同一件事情,不同的人在腦海裡構建的場景模型是不一樣的。 (想要了解更多,可以看 Situation models in language comprehension and memory. Zwaan, R. A., & Radvansky, G. A. (1998). )

所以,如果匆忙進電梯來的是你的項目老闆,而且假設他和你(多半都是他啦)都很關注最近的新項目進展,那麼你們要開展的對話就很多了。

在電梯裡,你跟他打招呼:“張總,早!”, 他會回你 “早啊,對了昨天那個…”

不待他問完,優秀如你就能猜到“張總” 大概後面要聊的內容是關於新項目的,這是因為你認為張總對這個“新項目”的理解和你不同,有同步的必要。甚至,你可以通過昨天他不在辦公室,大概漏掉了這個項目的哪些部分,來推理你這個時候應該回復他關於這個項目的具體什麼方面的問題。

“昨天你不在,別擔心,客戶那邊都處理好了。打款的事情也溝通好了,30天之內搞定。” ——你看,不待張總問完,你都能很棒的回答上。這多虧了你對他的模型的判斷是正確的。

一旦你對對方的情景模型判斷失誤,那麼可能完全“沒打中點上”。

“我知道,昨天晚上我回了趟公司,小李跟我說過了。我是要說昨天晚上我回來辦公室的時候,你怎麼沒有在加班呀?小王,你這樣下去可不行啊…”

所以,人們在進行對話的過程中,並不是僅靠對方上一句話說了什麼(對話中明文所包含的信息)就來決定回覆什麼。而這和當前的對話系統的回覆機制非常不同。


“ 對話是思想從高維度向低維的投影 ”


我們假設,在另一個平行宇宙裡,還是你到了辦公樓。

今天還是1月6日,但2年前的今天,你與交往了5年的女友分手了,之後一直對她念念不忘,也沒有交往新人。你和往日一樣,進電梯的,剛要關門的時候,匆忙進來的一個人,要關的門又打開了。就是你2年前分手的那位前女友。她進門時看到只有你們兩,她抬頭看了一下你,然後又低頭找樓層電梯了,這時她說:“你好”。

請問你這時腦袋裡是不是有很多信息洶湧而過?這時該回答什麼?是不是類似“一時不知道該如何開口”的感覺?

這個感覺來自(你認為)你和她之間的情景模型有太多的不同(分手2年了),甚至你都無法判斷缺少哪些信息。有太多的信息想要同步了,卻被貧瘠的語言困住了。

在信息豐富的程度上,語言是貧瘠的,而思想則要豐富很多 “Language is sketchy, thought is rich” (New perspectives on language and thought,Lila Gleitman, The Oxford Handbook of Thinking and Reasoning;更多相關討論請看, Fisher & Gleitman, 2002; Papafragou, 2007)

有人做了一個比喻:語言和思維的豐富程度相比,是冰山的一角。我認為遠遠不止如此:

對話是思想在低維的投影

如果是冰山,你還可以從水面上露出來的部分反推水下大概還有多大。屬於維度相同,但是量不同。但是語言的問題在,只用聽到文字信息,來反推講話的人的思想,失真的情況會非常嚴重。

人工智障 2:你看到的AI與智能無關(中)

為了方便理解這個維度差異,在這兒用3D和2D來舉例:思維是高維度(立體3D的形狀),對話是低維度(2D的平面上的陰影)。如果咱們要從平面上的陰影的形狀,來反推,上面懸著的是什麼物體,就很困難了。兩個陰影的形狀一模一樣,但是上面的3D物體,可能完全不同。

對於語言而言,陰影就像是兩個 “你好”在字面上是一模一樣的,但是思想裡的內容卻完全不同。在見面的那一瞬間,這個差異是非常大的:


你在想(圓柱):一年多不見了,她還好麼?前女友在想(球):這個人好眼熟,好像認識…


“ 挑戰:用低維表達高維 ”


要用語言來描述思維有多困難?這就好比,當你試圖給另一位不在現場的朋友,解釋一件剛剛發生過的事情的時候,你可以做到哪種程度的還原呢?

試試用語言來描述你今天的早晨是怎麼過的。

當你用文字完整描述後,我一定能找到一個事物或者某個具體的細節,它在你文字描述以外,但是卻確實存在在你今天早晨那個時空裡。

人工智障 2:你看到的AI與智能無關(中)

Source:The Challenger

比如,你可能會跟朋友提到,早飯吃了一碗麵;但你一定不會具體去描述面裡一共有哪些調料。傳遞信息時,缺少了這些細節(信息),會讓聽眾聽到那碗麵時,在腦海裡呈現的一定不是你早上吃的“那碗麵”的樣子。

這就好比讓你用平面上(2D)陰影的樣子,來反推3D的形狀。你能做的,只是儘可能的增加描述的視角,儘可能給聽眾提供不同的2D的素材,來儘量還原3D的效果。為了解釋腦中“語言”和“思想”之間的關係(與讀者的情景模型進行同步),我畫了上面那張對比圖,來幫助傳遞信息。如果要直接用文字來精確描述,還要儘量保全信息不丟失,那麼我不得不用多得多的文字來描述細節。(比如上面的描述中,尚未提及陰影的面積的具體大小、顏色等等細節)。

這還只是對客觀事物的描述。當人在試圖描述更情緒化的主觀感受時,則更難用具體的文字來表達。

人工智障 2:你看到的AI與智能無關(中)

比如,當你看到Angelina Jordan這樣的小女生,卻能唱出I put a spell on you這樣的歌的時候,請嘗試用語言精確描述你的主觀感受。是不是很難?能講出來話,都是類似“鵝妹子嚶”這類的?這些文字能代表你腦中的感受的多少部分?1%?

希望此時,你能更理解所謂 “語言是貧瘠的,而思維則要豐富很多”。

那麼,既然語言在傳遞信息時丟失了那麼多信息,人們為什麼理解起來,好像沒有遇到太大的問題?


為什麼人們的對話是輕鬆的?


假設有一種方式,可以把此刻你腦中的感受,以完全不失真的效果傳遞給另一個人。這種信息的傳遞和上面用文字進行描述相比,豐富程度會有多大差異?

可惜,我們沒有這種工具。我們最主要的交流工具,就是語言,靠著對話,來試圖讓對方瞭解自己的處境。

那麼,既然語言這麼不精準,又充滿邏輯上的漏洞,信息量又不夠,那麼人怎麼能理解,還以此為基礎,建立起來了整個文明?

比如,在一個餐廳裡,當服務員說 “火腿三明治要買單了”,我們都能知道這和“20號桌要買單了”指代的是同樣的事情 (Nuberg,1978)。是什麼讓字面上那麼大差異的表達,也能有效傳遞信息?

人能通過對話,有效理解語言,靠的是解讀能力——更具體的點,靠的是對話雙方的共識和基於共識的推理能力。

當人接收到低維的語言之後,會結合引用常識、自身的世界模型(後詳),來重新構建一個思維中的模型,對應這個語言所代表的含義。這並不是什麼新觀點,大家熟悉的開復老師,在1991年在蘋果搞語音識別的時候,就在採訪里科普,“人類利用常識來幫助理解語音”。

當對話的雙方認為對一件事情的理解是一樣的,或者非常接近的時候,他們就不用再講。需要溝通的,是那些(彼此認為)不一樣的部分。

當你聽到“蘋果”兩個字的時候,你過去建立過的蘋果這個模型的各個維度,就被引用出來,包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽到對方說“藍色的蘋果”時,這和你過去建立的關於蘋果的模型不同(顏色)。思維就會產生一個提醒,促使你想要去同步或者更新這個模型,“蘋果為什麼是藍色的?”

還記得,在Part 2 裡我們提到的那個測試指代關係的Winograd Schema Challenge麼?這個測試的名字是根據Terry Winograd的一個例子而來的。

“議員們拒絕給抗議者頒發許可證,因為他們 [害怕/提倡] 暴力。”

當 [害怕] 出現在句子當中的時候,“他們”指的應該是議員們;當[提倡]出現在句子當中的時候,“他們”則指的是“抗議者”。

1. 人們能夠根據具體情況,作出判斷,是因為根據常識做出了推理,“議員害怕暴力;抗議者提倡暴力。”

2. 說這句話的人,認為這個常識對於聽眾應該是共識,就直接把它省略掉了。

同理,之前(Part 2)我們舉例時提到的那個常識 (“四川火鍋是辣的;日料不是辣的”),也在表達中被省略掉了。常識(往往也是大多數人的共識)的總量是不計其數,而且總體上還會隨著人類社會發展的演進而不斷新增。

例子1,如果你的世界模型裡已經包含了“華農兄弟” (你看過並瞭解他們的故事),你會發現我在Part 2最開始的例子,藏了一個梗(做成叫花雞)。但因為“華農兄弟”並不是大多數人都知道的常識,而是我與特定人群的共識,所以你看到這句話時,獲得的信息就比其人多。而不瞭解這個梗的人,看到那裡時就不會接收到這個額外的信息,反而會覺得這個表達好像有點點奇怪。

例子2,創投圈的朋友應該都有聽說過 Elevator pitch,就是30秒,把你要做什麼事情講清楚。通常的案例諸如:“我們是餐飲界的Uber”,或者說“我們是辦公室版的Airbnb”。這個典型結構是“XX版的YY”,要讓這句話起到效果,前提條件是XX和YY兩個概念在發生對話之前,已經納入到聽眾的模型裡面去了。如果我給別人說,我是“對話智能行業的麥肯錫”,要能讓對方理解,對方就得既瞭解對話智能是什麼,又瞭解麥肯錫是什麼。


“ 基於世界模型的推理 ”


場景模型是基於某一次對話的,對話不同,場景模型也不同;而世界模型則是基於一個人的,相對而言長期不變。

對世界的感知,包括聲音、視覺、嗅覺、觸覺等感官反饋,有助於人們對世界建立起一個物理上的認識。對常識的理解,包括各種現象和規律的感知,在幫助人們生成一個更完整的模型:世界模型

無論精準、或者對錯,每一個人的世界模型都不完全一樣,有可能是觀察到的信息不同,也有可能是推理能力不一樣。世界模型影響的是人的思維本身,繼而影響思維在低維的投影:對話。

讓我們從一個例子開始:假設現在咱們一起來做一個不那麼智障的助理。我們希望這個助理能夠推薦餐廳酒吧什麼的,來應付下面這樣的需求:

人工智障 2:你看到的AI與智能無關(中)

當用戶說:“我想喝點東西”的時候,系統該怎麼回答這句話?經過Part 2,我相信大家都瞭解,我們可以把它訓練成為一個意圖“找喝東西的店”,然後把周圍的店檢索出來,然後回覆這句話給他:“在你附近找到這些選擇”。

恭喜,咱們已經達到Siri的水平啦!

但是,剛剛我們開頭就說了,要做不那麼智障的助理。這個“喝東西的店”是奶茶點還是咖啡店?還是全部都給他?

嗯,這就涉及到了推理。我們來手動模擬一個。假設我們有用戶的Profile數據,把這個用上:如果他的偏好中最愛的飲品是咖啡,就給他推薦咖啡店。

人工智障 2:你看到的AI與智能無關(中)

這樣一來,我們就可以更“個性化”的給他回覆了:“在你附近找到這些咖啡店”。

這個時候,咱們的AI已經達到了不少“智能系統”最喜歡鼓吹的個性化概念——“千人千面”啦!

然後我們來看這個概念有多蠢。

一個人喜歡喝咖啡,那麼他一輩子的任意時候就都要喝咖啡麼?人是怎麼處理這個問題的呢?如果用戶是在下午1點這麼問,這麼回他還好;如果是在晚上11點呢?我們還要給他推薦咖啡店麼?還是應該給他推薦一個酒吧?

或者,除此之外,如果今天是他的生日,那麼我們是不是該給他點不同的東西?或者,今天是聖誕節,該不該給他推薦熱巧克力?

你看,時間是一個維度,在這個維度上的不同值都在影響給用戶回覆什麼不同的話。

人工智障 2:你看到的AI與智能無關(中)

時間和用戶的Profile不同的是:

1. 時間這個維度上的值有無限多;

2. 每個刻度還都不一樣。比如雖然生日是同一個日期,但是過生日的次數卻不重複;

人工智障 2:你看到的AI與智能無關(中)

除了時間這個維度以外,還有空間。

於是我們把空間這個維度疊加(到時間)上去。你會發現,如果用戶在週末的家裡問這個問題(可能想叫奶茶外賣到家?),和他在上班時間的辦公室裡問這個問題(可能想出去走走換換思路),咱們給他的回覆也應該不同。

光是時空這兩個維度,就有無窮多的組合,用"if then"的邏輯也沒法全部手動寫完。我們造機器人的工具,到這個需求,就開始捉襟見肘了。

何況時間和空間,只是世界模型當中最顯而易見的兩個維度。還有更多的,更抽象的維度存在,並且直接影響與用戶的對話。比如,人物之間的關係;人物的經歷;天氣的變化;人和地理位置的關係(是經常來出差、是當地土著、是第一次來旅遊)等等等等。咱們聊到這裡,感覺還在聊對話系統麼?是不是感覺有點像在聊推薦系統

要想效果更好,這些維度的因素都要疊加在一起進行因果推理,然後把結果給用戶。

至此,影響人們對話的,光是信息(還不含推理)至少就有這三部分:明文(含上下文)+ 場景模型(Context)+ 世界模型。

普通人都能毫不費力地完成這個工作。但是深度學習只能處理基於明文的信息。對於場景模型和世界模型的感知、生成、基於模型的推理,深度學習統統無能為力

這就是為什麼現在炙手可熱的深度學習無法實現真正的智能(AGI)的本質原因:不能進行因果推理。

根據世界模型進行推理的效果,不僅僅體現上在對話上,還能應用在所有現在成為AI的項目上,比如自動駕駛。

經過大量訓練的自動駕駛汽車,在遇到偶發狀況時,就沒有足夠的訓練素材了。比如,突然出現在路上的嬰兒車和突然滾到路上的垃圾桶,都會被視為障礙物,但是剎不住車的情況下,一定要撞一個的時候,撞哪一個?

又比如,對侯世達(Douglas Hofstardler )而言,“駕駛”意味著當要趕著去一個地方的時候,要選擇超速還是不超速;要從堵車的高速下來,還是在高速上慢慢跟著車流走...這些決策都是駕駛的一部分。他說:“世界上各方面的事情都在影響著“駕駛”這件事的本質 ”。


“ 人腦有兩套系統:系統1 和系統2 ”


關於 “系統1和系統2”的詳情,請閱讀 Thinking, Fast and Slow, by Daniel Kahneman,一本非常好的書,對人的認知工作是如何展開的進行了深入的分析。在這兒,我給還不瞭解的朋友介紹一下,以輔助本文前後的觀點。

心理學家認為,人思考和認知工作分成了兩個系統來處理:

  • 系統1是快思考:無意識、快速、不怎麼費腦力、無需推理
  • 系統2是慢思考:需要調動注意力、過程更慢、費腦力、需要推理
  • 系統1先上,遇到搞不定的事情,系統2會出面解決。

系統1做的事情包括: 判斷兩個物體的遠近、追溯聲音的來源、完形填空 ( "我愛北京天安 " )等等。

順帶一提,下象棋的時候,一眼看出這是一步好棋,這個行為也是系統1實現的——前提是你是一位優秀的玩家。

對於中國學生而言,你突然問他:“7乘以7”,他會不假思索的說:“49!”這是系統1在工作,因為我們在小學都會背99乘法表。這個49並非來自計算結果,而是背下來的(反覆重複)。

相應的,如果你問:“3287 x 2234等於多少?”,這個時候人就需要調用世界模型中的乘法規則,加以應用(計算)。這就是系統2的工作。

另外,在系統1所設定的世界裡,貓不會像狗一樣汪汪叫。若事物違反了系統1所設定的世界模型,系統2也會被激活。

人工智障 2:你看到的AI與智能無關(中)

在語言方面,Yoshua Bengio 認為系統1不做與語言有關的工作;系統2才負責語言工作。對於深度學習而言,它更適合去完成系統1的工作,

實際上它根本沒有系統2的功能

關於這兩個系統,值得一提的是,人是可以通過訓練,把部分系統2才能做的事情,變成系統1來完成的。比如中國學生得經過“痛苦的記憶過程”才能熟練掌握99乘法表,而不是隨著出生到長大的自然經驗,慢慢學會的。

但是這裡有2個有意思的特徵:

1. 變成系統1來處理問題的時候,可以節約能量。人們偏向相信自己的經驗,是因為腦力對能量的消耗很大,這是一個節能的做法。2. 變成系統1的時候,會犧牲辯證能力,因為系統1對於邏輯相關的問題一無所知。“我做這個事情已經幾十年了”這種經驗主義思維就是典型案例。

想想自己長期積累的案例是如何在影響自己做判斷的?

“ 單靠深度學習搞不定語言,現在不行,將來也不行 ”


在人工智能行業裡,你經常會聽到有人這麼說 “儘管當前技術還實現不了理想中的人工智能,但是技術是會不斷演進的,隨著數據積累的越來越多,終將會實現讓人滿意的人工智能。”

如果這個說法,是指寄希望於僅靠深度學習,不斷積累數據量,就能翻盤——那就大錯特錯了。

無論你怎麼優化“馬車”的核心技術(比如更壯、更多的馬),都無法以此造出汽車(下圖右)。

人工智障 2:你看到的AI與智能無關(中)

對於大眾而言,技術的可演進性,是以宏觀的視角看人類和技術的關係。但是發動機的演化和馬車的關鍵技術沒有半點關係。

深度學習領域的3大牛,都認為單靠深度學習這條路(不能最終通向AGI)。感興趣的朋友可以沿著這個方向去研究:

  • Geoffrey Hinton的懷疑:“我的觀點是都扔掉重來吧”
  • Yoshua Bengio的觀點:“如果你對於這個每天都在接觸的世界,有一個好的因果模型,你甚至可以對不熟悉的情況進行抽象。這很關鍵......機器不能,因為機器沒有這些因果模型。我們可以手工製作這些模型,但是這遠不足夠。我們需要能發現因果模型的機器。”
  • Yann LeCun的觀點:“A learning predictive world model is what we’re missing today, and in my opinion is the biggest obstacle to significant progress in AI.”

至於深度學習在將來真正的智能上扮演的角色,在這兒我引用Gary Marcus的說法:“I don’t think that deep learning won’t play a role in natural understanding, only that deep learning can’t succeed on its own.”


解釋人工智障產品


現在,我們瞭解了人們對話的本質是思維的交換,而遠不只是明文上的識別和基於識別的回覆。而當前的人工智能產品則完全無法實現這個效果。那麼當用戶帶著人類的世界模型和推理能力來跟機器,用自然語言交互時,就很容易看到破綻。

  • Sophia是一個技術上的騙局(凡是鼓吹Sophia是真AI的,要麼是不懂,要麼是忽悠);
  • 現在的AI,都不會有真正的智能(推理能力什麼的不存在的,包括Alpha go在內);
  • 只要是深度學習還是主流,就不用擔心AI統治人類;
  • 對話產品感覺用起來智障,都是因為想跳過思維,直接模擬對話(而現在也只能這樣);
  • “用的越多,數據越多,智能會越強,產品就會越好,使用就會越多”——對於任務類對話產品,這是一個看上去很酷,實際上不靠譜的觀點;
  • 一個AI agent,能對話多少輪,毫無意義;
  • to C的助理產品做不好,是因為解決不了“如何獲得用戶的世界模型數據,並加以利用”這個問題;
  • to B的對話智能公司為何很難規模化?(因為場景模型是手動生成的)
  • 先有智能,後有語言:要做到真正意義上的自然語言對話,至少要實現基於常識和世界模型的推理能力。而這一點如果能實現,那麼我們作為人類,就可能真的需要開始擔心前文提到的智能了。
  • 不要用NLP評價一個對話智能產品:年底了,有些媒體開始出各種AI公司榜單,其中有不少把做對話的公司分在NLP下面。這就好比,不要用觸摸屏來衡量一款智能手機。在這兒我不是說觸摸屏或者NLP不重要(Essential),反而因為太重要了,這個環節成為了每一家的標配,以至於在這方面基本已經做到頭了,差異不過1%。
  • 對於一個對話類產品而言,NLU儘管重要,但只應佔個整體配件的5-10%左右。更進一步來說,甚至意圖識別和實體提取的部分用大廠的,產品間差異也遠小於對話管理部分的差距。真正決定產品的是剩下的90%的系統。


到此,是不是有一種絕望的感覺?這些學界和行業的大牛都沒有解決方案,或者說連有把握的思路都沒有。是不是做對話智能這類的產品就沒戲了?上限就是這樣了麼?

不是。對於一項技術而言,可能確實觸底了;但是對於應用和產品設計而言,並不是由一個技術決定的,而是很多技術的結合,這裡還有很大的空間。

作為產品經理,讓我來換一個角度。我們來研究一下,既然手中的工具是這些,我們能用他們來做點什麼?


Part 4

AI產品的潛力在於設計


“ AI的歸AI,產品的歸產品 ”

人工智障 2:你看到的AI與智能無關(中)

《The Prestige》2006,劇照

有一部我很喜歡的電影,The Prestige,裡面講了一個關於“瞬間移動”的魔術。對於觀眾而言,就是從一個地方消失,然後瞬間又從另一個地方出現。第一個魔術師,成功的在舞臺上實現了這個效果。他打開舞臺上的右邊的門,剛一進去的一瞬間,就從舞臺左邊的門出來了。對觀眾而言,這完全符合他們的期望。第二個魔術師在觀眾席裡,看到效果後驚呆了,他感覺這根本毫無破綻。但是他是魔術師——作為一個產品經理——他就想研究這個產品是怎麼實現的。但是魔術行業裡,最不受人待見的,就是魔術揭秘。影片最後,他得到了答案(劇透預警):所有的工程機關、升降機、等等,都如他所料的藏在了舞臺下面。但真正的核心是,第一個魔術師一直隱藏著自己的另一個雙胞胎兄弟。當他打開一個門,從洞口跳下舞臺的那一刻,雙胞胎的另一位就馬上從另一邊升上舞臺。看到這裡,大家可能就恍然大悟:“ 原來是這樣,雙胞胎啊!”

這感覺是不是有點似曾相識?在本文Part 2,我們聊到把對話系統的黑箱打開,裡面就是填一張表的時候,是不是有類似的感覺?對話式人工智能的產品(對話系統)就像魔術,是一個黑箱,用戶是以感知來判斷價值的。

“ 我還以為有什麼黑科技呢,我是雙胞胎我也可以啊。”

其實這並不容易。我們先不說魔術的舞臺裡面的工程設計,這個魔術最難的地方是如何能在魔術師的生活中,讓另一個雙胞胎在大眾視野裡完全消失掉。如果觀眾們都知道魔術師是雙胞胎,就很可能猜到舞臺上的魔術是兩個人一起表演的。所以這個雙胞胎,一定不能出現在大眾的“世界模型”裡。

為了讓雙胞胎的另一個消失在大眾視野裡,這兩兄弟付出了很多代價,身心磨,絕非一般人能接受的,比如共享同一個老婆。

這也是我的建議:技術不夠的時候,設計來補。做AI產品的同學,不要期待給你智能。要是真的有智能了,還需要你幹什麼?人工智能產品經理需要設計一套龐大的系統,其中包括了填表、也當然包括深度學習帶來的意圖識別和實體提取等等標準做法、也包括了各種可能的對話管理、上下文的處理、邏輯指代等等。

這些部分,都是產品設計和工程力量發揮的空間。


“ 設計思路的基礎 ”


我需要強調一下,在這裡,咱們講的是AI產品思路,不是AI的實現思路。

對於對話類產品的設計,以現在深度學習的基礎,語義理解應該只佔整個產品的5%-10%;而其他的,都是想盡一切辦法來模擬“傳送”這個效果——畢竟我們都知道,這是個魔術。如果只是識別就佔了你家產品的大量心血,其他的不去拉開差異,基本出來就是智障無疑。

在產品研發方面上,如果研發團隊能提供多種技術混用的工具,肯定會增加開發團隊和設計的發揮空間。這個做法也就是DL(Deep Learning) + GOFAI (Good Old Fashioned AI) 的結合。GOFAI是John Haugeland首先提出的,也就是深度學習火起來之前的symbolic AI,也就是專家系統,也就是大多數在AI領域的人都看不起的 “if then…”

DL+GOFAI 這個前提,是當前一切後續產品設計思路的基礎


“ Design Principle:存在即為被感知 ”

存在即為被感知” 是18世紀的哲學家George Berkeley的名言。加州大學伯克利分校的命名來源也是為了紀念這位唯心主義大師。這個意思呢,就是如果你不能被感知到,你就是不存在的!

我認為“存在即為被感知” 是對話類AI產品的Design principle。對話產品背後的智能,是被用戶感知到而存在的。直到有一天AI可以代替產品經理,在那之前,所有的設計都應該圍繞著,如何可以讓用戶感覺和自己對話的AI是有價值的,然後才是聰明的。

人工智障 2:你看到的AI與智能無關(中)

要非常明確自己的目的,設計的是AI的產品,而不是AGI本身。就像魔術的設計者,給你有限的基礎技術條件,你能組裝出一個產品,體驗是人們難以想到。

同時,也要深刻的認識到產品的侷限性。魔術就是魔術,並不是現實。

這意味著,在舞臺上的魔術,如果改變一些重要的條件,它就不成立了。比如,如果讓觀眾跑到舞臺的頂上,從上往下看這個魔術,就會發現舞臺上有洞。或者“瞬間移動”的不是這對雙胞胎中的一個,而是一個觀眾跑上去說,“讓我來瞬間移動試試”,就穿幫了。

Narrow AI的產品,也是一樣的。如果你設計好了一個Domain,無論其中體驗如何,只要用戶跑到Domain的邊界以外了,就崩潰了。先設定好產品邊界,設計好“越界時給用戶的反饋”,然後在領域裡面,儘可能的模擬這個魔術的效果。

假設Domain的邊界已經設定清晰了,哪些方面可以通過設計和工程的力量,來大幅增加效果呢?

其實,在“Part 3 對話的本質” 裡談到的與思維相關的部分,在限定Domain的前提下,都可以作為設計的出發點:你可以用GOFAI來模擬世界模型、也可以模擬場景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain裡。


“ 選擇合適的Domain ”


成本(工程和設計的量)和給用戶的價值並不是永遠成正比,也根據不同的Domain的不同。

比如,我認為現在所有的閒聊機器人都沒有什麼價值。開放Domain,沒有目標、沒有限定和邊界,對用戶而言,會認為什麼都可以聊。但是其自身“場景模型”一片空白,對用戶所知的常識也一無所知。導致用戶稍微試一下,就碰壁了。我把這種用戶體驗稱為 “每次嘗試都容易遇到挫折”。

可能,有些Domain對回覆的內容並不那麼看重。也就並不需要那麼強壯的場景模型和推理機制來生成回覆內容。

我們假設做一個“樹洞機器人”,可以把產品定義是為,扮演一個好的聽眾,讓用戶把心中的壓力煩惱傾訴出來。


人工智障 2:你看到的AI與智能無關(中)

Human Counseling. Source: Bradley University Online

這個產品的邊界,需要非常明確的,在用戶剛剛接觸到的時候,強化到用戶的場景模型中。主要是系統通過一些語言的反饋,鼓勵用戶繼續說。而不要鼓勵用戶來期望對話系統能輸出很多正確且有價值的話。當用戶做出一些陳述之後,可以跟上一些對“場景模型”依賴較小,泛泛的話。

“我從來沒有這麼考慮過這個問題,你為什麼會這麼想呢?”“關於這個人,你還有哪些瞭解?”“你覺得他為什麼會這樣?”……

這樣一來,產品在需求上,就大幅減輕了對“自然語言生成”的依賴。因為這個產品的價值,不在回覆的具體內容是否精準,是否有價值上。這就同時降低了對話背後的“場景模型”、“世界模型”、以及“常識推理”這些高維度模塊的需求。訓練的素材嘛,也就是某個特定分支領域(比如職場、家庭等)的心理諮詢師的對話案例。產品定義上,這得是一個Companion型的產品,不能真正起到理療的作用。

當然,以上並不是真正的產品設計,僅僅是用一個例子來說明,不同的Domain對背後的語言交互的能力要求不同,進而對更後面的“思維能力”要求不同。選擇產品的Domain時,儘量遠離那些嚴重依賴世界模型和常識推理,才能進行對話的場景。

有人可能說,你這不就是Sophia的做法麼?不是。這裡需要強調的是Sophia的核心問題是欺騙。產品開發者是想忽悠大眾,他們真的做出了智能。

在這裡,我提倡的是明確告訴用戶,這就是對話系統,而不是真的造出了智能。這也是為什麼,在我自己的產品設計中,如果遇到真人和AI同時為用戶服務的時候(產品上稱為Hybrid Model),我們總是會偏向明確讓用戶知道,什麼時候是真人在服務,什麼時候是機器人在服務。這麼做的好處是,控制用戶的預期,以避免用戶跑到設計的Domain以外去了;不好的地方是,你可能“聽上去”沒有那麼酷。

所以,當我說“存在即為被感知”的時候,強調的是對價值的感知;而不是對“像人一樣”的感知。


“ 對話智能的核心價值:在內容,不在交互 ”


多年前,還在英國讀書的時候,我曾經在一個非常有名歷史悠久的秘密結社裡工作。我對當時的那位照顧會員需求的大管家印象深刻。你可以想象她好像是“美國運通黑卡服務”的超級禮賓,她有兩個超能力:

1. Resourceful,會員的奇葩需求都能想盡辦法的實現:一個身在法蘭克福的會員半夜裡遇到急事,臨時想盡快回倫敦,半夜沒有航班了,打電話找到大管家求助。最後大管家找到另一個會員的朋友借了私人飛機,送他一程,凌晨回到了倫敦。

2. Mind-reading,會員想要什麼,無需多言:

“Oliver,我想喝點東西…”

“當然沒問題,我待會給你送過來。” 她也不需要問喝什麼,或者送到哪裡。

人人都想要一個這樣的管家。蝙蝠俠需要Alfred;鋼鐵俠需要Javis;西奧多需要Her(儘管這哥們後來走偏了);iPhone 需要Siri;這又回到了我們在Part1裡提到的,AI的to C 終極產品是智能助理。

但是,人們需要這個助理的根本原因,是因為人們需要它的對話能力麼?這個世界上已經有70億個自然語言對話系統了(就是人),為什麼我們還需要製造更多的對話系統?

我們需要的是對話系統後面的思考能力,解決問題的能力。而對話,只是這個思考能力的交互方式(Conversational User Interface)。如果真能足夠聰明的把問題提前解決了,用戶甚至連話都不想說。

我們來看個例子。

人工智障 2:你看到的AI與智能無關(中)

我知道很多產品經理已經把這個iPhone初代發佈的東西講爛了。但是,在這兒確實是一個非常好的例子:我們來探討一下iPhone用虛擬鍵盤代替實體鍵盤的原因。

普通用戶,從最直觀的視角,能得出結論:這樣屏幕更大!需要鍵盤的時候就出現,不需要的時候就消失。而且還把看上去挺複雜的產品設計給簡化了,更好看了。甚至很多產品經理也是這麼想的。實際上,這根本不是硬件設計的問題。原因見下圖。

人工智障 2:你看到的AI與智能無關(中)

其實喬布斯在當時也講的很清楚:物理鍵盤的核心問題是,(作為交互UI)你不能改變它。物理交互方式(鍵盤)不會根據不同的軟件發生改變。

如果要在手機上加載各種各樣的內容,如果要創造各種各樣的軟件生態,這些不同的軟件都會有自己不同的UI,但是交互方式都得依賴同一種(物理鍵盤無法改變),這就行不通了。

所以,實際代替這些物理鍵盤的,不是虛擬鍵盤,而是整個觸摸屏。因為iPhone(當時的)將來會搭載豐富的生態軟件內容,就必須要有能與這些還沒出現的想法兼容的交互方式。

在我看來,上述一切都是為了豐富的內容服務。再一次的,交互本身不是核心,它背後搭載的內容才是。

但是在當初看這個發佈會的時候,我是真的沒有get到這個點。那個時候真的難以想象,整個移動互聯時代會誕生的那麼多APP,都有各自不同的UI,來搭載各式各樣的服務。

你想想,如果以上面這些實體鍵盤,讓你來操作大眾點評、打開地圖、Instagram或者其他你熟悉的APP,是一種怎樣的體驗?更有可能的是,只要是這樣的交互方式,根本設計不出剛才提到的那些APP。

與之同時,這也引申出一個問題:如果設備上,並沒有多樣的軟件和內容生態,那還應該把實體鍵設計成觸摸和虛擬的方式麼?比如,一個挖掘機的交互方式,應該使用觸屏麼?甚至對話界面?


“ 對話智能解決重複思考 ”


同樣的,對話智能的產品的核心價值,應該在解決問題的能力上,而不是停留在交互這個表面。這個“內容” 或者 “解決問題的能力” 是怎麼體現的呢?

人工智障 2:你看到的AI與智能無關(中)

工業革命給人類帶來的巨大價值在於解決“重複體力勞動”這件事。

經濟學家Tyler Cowen 認為,“ 什麼行業的就業人越多,顛覆這個工種就會創造更大的商業價值。” 他在Average Is Over這本書裡描述到:

“ 20世紀初,美國就業人口最多的是農民;二戰後的工業化、第三產業的發展,再加上婦女解放運動,就業人工最多的工種變成輔助商業的文字工作者比如秘書助理呼叫中心(文員,信息輸入)。1980/90年代的個人計算機,以及Office 的普及,大量秘書,助理類工作消失。”

這裡提及的工作,都是需要大量重複的工作。而且不停的演變,從重複的體力,逐步到重複的腦力。

從這個角度出發,對一個場景背後的“思考能力”沒有把控的AI產品,會很快被代替掉。首當其衝的,就是典型意義上的智能客服。

在市場上,有很多這樣的智能客服的團隊,他們能夠做對話系統(詳見Part 2),但是對這各領域的專業思考,卻不甚瞭解。

我把“智能客服” 稱為“前臺小姐姐”——無意冒犯,但是前臺小姐姐的主要工作和專業技能並沒有關係。他們最重要的技能就是對話,準確點說是用對話來“路由”——瞭解用戶什麼需求,把不合適的需求過濾掉,再把需求轉給專家去解決。

但是對於一個企業而言,客服是隻嘴和耳,而專家才是腦,才是內容,才是價值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。

與這類客服機器人產品對應的,就是專家機器人。一個專家,必定有識別用戶需求的能力,反之不亦然。你可以想象一個企業支付給一個客服多少薪資,又支付給一個專家多少薪資?一個專家需要多少時間培訓和準備才能上崗,客服小姐姐呢?於此同時,

專業能力是這個機構的核心,而客服不是

正因為如此,很多人認為,人工的呼叫中心,以後會被AI呼叫中心代替掉;而我認為,用AI做呼叫中心的工作,是一個非常短暫的過渡型方案。很快代替人工呼叫中心的,甚至代替AI呼叫中心,是具備交互能力的專家AI中心。在這兒,“專家”的意義大於“呼叫”。

在經歷過工具化帶來的產能爬坡和規模效應之後,他們成本差不多,但是卻專業很多。比如他直接鏈接後端的供給系統的同時,還具備專業領域的推理能力,也能與用戶直接交互。

NLP在對話系統裡解決的是交互的問題。

在人工智能產品領域裡,給與一定時間,掌握專業技能的團隊一定能對話系統;而掌握對話系統的團隊則很難掌握專業技能。試想一下在幾年前,移動互聯剛剛出現的時候,會做app的開發者,去幫銀行做app;而幾年之後銀行都會自己開發app,而開發者幹不了銀行的事。

在這個例子裡,做AI產品定義的朋友,你的產品最好是要代替(或者輔助)某個領域專家;而不要瞄準那些過渡性崗位,比如客服。

從這個角度出發,對話智能類的產品最核心的價值,是進一步的代替用戶的重複思考。Work on the mind not the mouth. 哪怕已經是在解決腦袋的問題,也儘量去代替用戶系統2的工作,而不只是系統1的工作。

在你的產品中,加入專業級的推理;幫助用戶進行抽象概念與具象細節之間的轉化;幫助用戶去判斷那些出現在他的模型中,但是他口頭還沒有提及的問題;考慮他當前的環境模型、發起對話時所處的物理時空、過去的經歷;推測他的心態,他的世界模型。

先解決思考的問題,再儘可能的轉化成語言。

作者 | Mingke

轉自|S先生(ID:TheMisterS )


分享到:


相關文章: