Amazon Echo只是音響,還是會成為下一代平臺級產品?

今天的文章是純乾貨分享,主講人是谷歌總部 Making & Science 設計負責人姜公略。

公略畢業於哈佛大學,曾主持設計Google廣告部門第一款應用Material Design的app。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

作為業界頂尖設計師,公略曾被Engadget, Mashable,TheVerge, FastCompany等頂級媒體報道。他曾獲德國iF概念設計獎,華爾街日報亞洲創新獎,真格紅杉基金創業大賽金獎,GoogleGDN創新鉑金獎等。

文章閱讀時間:約6分鐘


人機語音交互(VUI)其實已經發展了很多年,直到近幾年語音語義識別技術(NLP)和人工智能(AI)迅猛發展以後,才得以在應用層面上開發出很多想象空間。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

記得我小時候在Windows 95的時候就用了一款IBM的系統語音控制系統,當時覺得酷爆了。可以直接用語音調出菜單,執行程序。But,記得大概玩了不到半小時吧,就沒有然後了。過了20年,第二次接觸語音交互是在iPhone上用Siri。這回它可以用自然語言對話,而不再是簡單的命令,可以問很多好玩的問題。But,至今累計使用時間應該也不會超過半小時。

去年,第三次接觸VUI,是和Google Home。

不同於以往的兩次經歷,至今我還在頻繁使用它。但使用的場景基本都是聽音樂,很少用它來獲取信息。現在Amazon Echo出貨量已達千萬級別,有上萬個“技能”(等同於小程序,能夠通過語音控制完成一個task)。現在很多人都在討論家庭智能音箱未來能否成為下一代平臺級產品。我個人覺得是可以的,但中間要過很多坎,肯定不會是現在這樣簡單的形式就能夠坐等成為平臺級產品。

為什麼語音產品可以成為平臺級?

從交互模式上來說,新興的語音交互(VUI)和現在的主導圖形界面(GUI),不會是一個取代關係,而是共生關係。

就像人類與大自然的交互,是要基於視覺,聽覺,味覺,嗅覺,觸覺全部五種感知,體驗才夠完整。

人與電腦之間,用於獲取深度信息的主要集中在視覺,聽覺和觸覺。目前人機的交互模式,基本基於這三種感知(看圖片,聽音樂,打文字)。在某些方面這三者存在可替代關係(比如可以看書,也可以聽書)。但大多數情景下,只有一種交互模式最高效(比如獲取圖片信息只能看,獲取音樂信息只能聽)。同時,也沒有一種交互模式能夠適用日常的全部場景。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

所以VUI會有它獨具的應用場景,是GUI無法替代的。但不可否認的是,GUI具有更強大的信息承載能力。這中間插個題外話,去年有一部電影我非常喜歡,叫做Arrival,細節就不多說了,很推薦去看看,改編自一部著名科幻小說The Story of Your Life。裡面講到外星人看世界的方式和我們是不一樣的,時間對於我們來說是線性的,而對於他們來說是展開的。即她們能夠看到未來和過去,所以她們在時間信息的獲取上遠比我們強大。

這讓我聯想到VUI和GUI的對比,聲音永遠都是線性的,而視覺可以在一瞬間獲取大量信息再進行定點檢索。這就造成了聲音信息的低效。讀書快的人應該都知道,速讀的一個要點就是不要在心中默唸,會降低速度。所以VUI從根本上來講,速度的極限已經擺在那了。GUI卻可以不斷的優化,把視覺信息檢索做得越來越高效。

轉回正題,人機交互分為人的輸入(input)和機器的輸出(output),前面提到VUI的信息是一維輸出,GUI是二維輸出,二者存在維度上的差別。而在信息輸入上,大致分為contextual input和selectional input。在contextual input方面,VUI會更有優勢。比如GUI基本靠鍵盤,打字的速度是信息輸入的瓶頸。同時有些人不會或不習慣打字,比如老人,小孩,這時候語音輸入就更高效,甚至成為唯一途徑。但在選擇操作(selectional input)上,GUI無論是鼠標還是touch screen又相對語音具有絕對優勢。現在流行的人機界面主要都由selectional input構成,因為它極為高效(一通點點點)。

看似GUI快要完勝VUI,但有一種常見場景不要忘了,在GUI的感官(視線)或輸入(手)受限制的場景下,VUI也會取代GUI成為主要的交互界面。比如做菜,開車,搬東西時,雙手就無法騰出來去做GUI的input,這些場景裡VUI就成了最佳選擇。所以GUI和VUI會是一種以GUI為主導的共生關係,而VUI發展的步伐,現在來看相對滯後(第三個section會講為什麼),所以存在大量的發展機會。

語音產品為什麼還沒什麼人用?

iPhone即使曾經大力主推過Siri,Echo即使具備上萬個技能,真實場景中語音的強交互還是少之又少。歸根結底,不是語音這種交互方式不行,而是背後所能提供的功能太弱了。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

試想,如果我們能夠擁有一個像電影《Her》裡面那樣真假難辨的虛擬助手,你會拒絕嗎?她可以幫你安排日程,幫你買一些生活必須品,幫你查資料,幫你點個可口的午餐,甚至可以和你聊感情。。等等。用上一段時間,你可能真的離不開她。但讓現在的智能家庭機器人幹這些事,是很難放心的。比如點個外賣,我說我想吃拉麵,機器人先搜索附近的拉麵館,逐個念出來,然後問你選哪家?我聽到個熟悉的名字,說就那個吧,然後問我點什麼面?於是把店裡的菜單再念一遍。。好了好了,我不如上網自己點好了。我不用這個語音點菜功能,不是因為這是個偽需求,而是功能還做的不夠好,至少沒有好過GUI。

所以,在VUI和GUI可以互相替代的應用場景下,VUI可以把GUI作為一個benchmark,如果能夠把體驗,效率,做得超過GUI,那麼這個場景下的語音強交互就不遠了。現在VUI的強交互基本都存在於VUI不可替代的場景下(比如車載語音導航,兒童玩具機器人)。我期待不久的將來能夠有VUI體驗做到極致,benchmark能夠超過,從而替代GUI的場景出現。

VUI必須要強大的AI

上面提到過,VUI的硬傷是信息線性化,做選擇操作非常低效,而選擇操作又是人機交互最高效的input之一。所以VUI想要強大起來,必須減少選擇的操作,而直接為用戶做出選擇,這就需要強大的AI來支撐。比如回到點拉麵的例子,我說我中午想吃拉麵,來個最好拉麵館的經典款,不要太辣的,1點前要能送到的。

如果後端強大的AI能夠fullfill這樣的request,那麼GUI在這種場景下還有什麼優勢呢?(GUI場景:拿出手機,打開送餐app,先搜索拉麵,再刷星級排序,然後再找menu。。)就算是GUI也具備了AI,依然還是說這段話要比輸入文字簡單和自然的多。

所以AI對於GUI來說是booster,而對於VUI來說是catalyst,在同等情況下AI會讓VUI的潛在優勢巨量的釋放出來。反過來看,VUI也會成就AI,作為連接生活中的普適場景的媒介。

交互的終極形式

人機交互方式,從最早的打孔器,到鍵盤,鼠標,到如今的touch screen,不斷的演化。新的交互方式也依然在層出不窮,偏主流的有語音交互,手勢交互(以Leap Motion為代表),眼動,腦電,等等。這裡面需要去偽存真,哪些才是可以真正取代以往的交互方式,或者是以獨立的強交互方式存在呢?這裡談一個我一直以來信奉的觀念,

就是用戶體驗的基礎準則,基本奠定於5000年前。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

用戶體驗好,無非就是滿足人們的感官,而人與外界溝通的方式是幾千年演化而來的。用眼去看,用耳去聽,用鼻去嗅,用嘴去嘗,用手腳去操作。如果讓人們去改變最基本的交互方式,是極其困難的。所以這裡排除兩個偽交互方式,眼動和腦電。

人類的眼睛是為觀察世界進化而來的,從沒有掌控和操作的能力,如果把眼動作為一種input,人肯定會不適應。

腦電也是如此,很多人會覺得交互的終極是直接用意念去控制。但人類沒有這方面進化的經驗(除了三體人),可能意念本身就是不準確的,所以就算腦電技術做到極致,最終的result的準確性也無法令人滿意。當然不排除眼動和腦電用於專業領域,或者作為輔助交互出現。但作為未來的主流交互方式,可能不具備這個資格。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

同理,語音交互的重要性就不言自喻了,動物都用吼來通信,放在人身上是再自然不過了

。從這個觀點看,手勢交互處在兩者之間。手的操作對於人來說幾乎是最重要的交互方式。從鍵盤到鼠標,從鼠標到touch screen,都是在把手和機器的交互變得更接近自然世界。在自然世界裡,人們就是通過觸摸去感知這個世界。但手勢就比較tricky,它沒有觸覺反饋,會讓人覺得很不自然。只有特定條件下,比如聾啞人,交警,在其他信息交流受阻的情況下才不得不開發出這樣的技能,而且具有有很長的learning curve。

所以我認為手勢交互也只能作為很簡單的輔助操作出現,比如開始,關閉,暫停,不超過3個的簡單命令。更多的精細化操作用手勢去完成就有悖於人的體驗。So, 交互的終極形式是存在的,而不是能夠一直不斷翻新進化的(這個過程可能需要依賴人的生物進化),自然語音+touch screen,that's it。我們現在已知的交互方式已經非常接近終極了。

這裡插一個題外話,技術發展的瓶頸最終往往來自於人本身。互聯網人口紅利消失了,是人類每天可支配的時間有個極限值。人的繁衍和生長速度也有極限值,沒法快速的提供新的人口紅利。人機交互方式也受限於人類的生物感官,存在一個極限。不過目前VUI的完成度照這個極限還很遠,還有很多好玩有意義的事情可以做。

Amazon Echo只是音響,還是會成為下一代平臺級產品?

在AI的引擎推動下,GUI就像是汽車,VUI就像是飛機。後者的出現,到發展,只是為了填補前者做的不夠好的領域,直到二者達到一個均衡的平衡點。在這個過程中人的生活會變的愈加便利。就像是飛機的發展,隨著穩定性越來越高,VUI也會逐漸成熟和普及。

如果時間回到100多年前,人們會認為那個帶著個螺旋槳隨時會掉下來把人摔死的“風箏”成為下一代平臺級的出行工具嗎?

所以讓我們放眼10年以後,nothing is impossible。



分享到:


相關文章: