Amazon Echo只是音响,还是会成为下一代平台级产品?

今天的文章是纯干货分享,主讲人是谷歌总部 Making & Science 设计负责人姜公略。

公略毕业于哈佛大学,曾主持设计Google广告部门第一款应用Material Design的app。

Amazon Echo只是音响,还是会成为下一代平台级产品?

作为业界顶尖设计师,公略曾被Engadget, Mashable,TheVerge, FastCompany等顶级媒体报道。他曾获德国iF概念设计奖,华尔街日报亚洲创新奖,真格红杉基金创业大赛金奖,GoogleGDN创新铂金奖等。

文章阅读时间:约6分钟


人机语音交互(VUI)其实已经发展了很多年,直到近几年语音语义识别技术(NLP)和人工智能(AI)迅猛发展以后,才得以在应用层面上开发出很多想象空间。

Amazon Echo只是音响,还是会成为下一代平台级产品?

记得我小时候在Windows 95的时候就用了一款IBM的系统语音控制系统,当时觉得酷爆了。可以直接用语音调出菜单,执行程序。But,记得大概玩了不到半小时吧,就没有然后了。过了20年,第二次接触语音交互是在iPhone上用Siri。这回它可以用自然语言对话,而不再是简单的命令,可以问很多好玩的问题。But,至今累计使用时间应该也不会超过半小时。

去年,第三次接触VUI,是和Google Home。

不同于以往的两次经历,至今我还在频繁使用它。但使用的场景基本都是听音乐,很少用它来获取信息。现在Amazon Echo出货量已达千万级别,有上万个“技能”(等同于小程序,能够通过语音控制完成一个task)。现在很多人都在讨论家庭智能音箱未来能否成为下一代平台级产品。我个人觉得是可以的,但中间要过很多坎,肯定不会是现在这样简单的形式就能够坐等成为平台级产品。

为什么语音产品可以成为平台级?

从交互模式上来说,新兴的语音交互(VUI)和现在的主导图形界面(GUI),不会是一个取代关系,而是共生关系。

就像人类与大自然的交互,是要基于视觉,听觉,味觉,嗅觉,触觉全部五种感知,体验才够完整。

人与电脑之间,用于获取深度信息的主要集中在视觉,听觉和触觉。目前人机的交互模式,基本基于这三种感知(看图片,听音乐,打文字)。在某些方面这三者存在可替代关系(比如可以看书,也可以听书)。但大多数情景下,只有一种交互模式最高效(比如获取图片信息只能看,获取音乐信息只能听)。同时,也没有一种交互模式能够适用日常的全部场景。

Amazon Echo只是音响,还是会成为下一代平台级产品?

所以VUI会有它独具的应用场景,是GUI无法替代的。但不可否认的是,GUI具有更强大的信息承载能力。这中间插个题外话,去年有一部电影我非常喜欢,叫做Arrival,细节就不多说了,很推荐去看看,改编自一部著名科幻小说The Story of Your Life。里面讲到外星人看世界的方式和我们是不一样的,时间对于我们来说是线性的,而对于他们来说是展开的。即她们能够看到未来和过去,所以她们在时间信息的获取上远比我们强大。

这让我联想到VUI和GUI的对比,声音永远都是线性的,而视觉可以在一瞬间获取大量信息再进行定点检索。这就造成了声音信息的低效。读书快的人应该都知道,速读的一个要点就是不要在心中默念,会降低速度。所以VUI从根本上来讲,速度的极限已经摆在那了。GUI却可以不断的优化,把视觉信息检索做得越来越高效。

转回正题,人机交互分为人的输入(input)和机器的输出(output),前面提到VUI的信息是一维输出,GUI是二维输出,二者存在维度上的差别。而在信息输入上,大致分为contextual input和selectional input。在contextual input方面,VUI会更有优势。比如GUI基本靠键盘,打字的速度是信息输入的瓶颈。同时有些人不会或不习惯打字,比如老人,小孩,这时候语音输入就更高效,甚至成为唯一途径。但在选择操作(selectional input)上,GUI无论是鼠标还是touch screen又相对语音具有绝对优势。现在流行的人机界面主要都由selectional input构成,因为它极为高效(一通点点点)。

看似GUI快要完胜VUI,但有一种常见场景不要忘了,在GUI的感官(视线)或输入(手)受限制的场景下,VUI也会取代GUI成为主要的交互界面。比如做菜,开车,搬东西时,双手就无法腾出来去做GUI的input,这些场景里VUI就成了最佳选择。所以GUI和VUI会是一种以GUI为主导的共生关系,而VUI发展的步伐,现在来看相对滞后(第三个section会讲为什么),所以存在大量的发展机会。

语音产品为什么还没什么人用?

iPhone即使曾经大力主推过Siri,Echo即使具备上万个技能,真实场景中语音的强交互还是少之又少。归根结底,不是语音这种交互方式不行,而是背后所能提供的功能太弱了。

Amazon Echo只是音响,还是会成为下一代平台级产品?

试想,如果我们能够拥有一个像电影《Her》里面那样真假难辨的虚拟助手,你会拒绝吗?她可以帮你安排日程,帮你买一些生活必须品,帮你查资料,帮你点个可口的午餐,甚至可以和你聊感情。。等等。用上一段时间,你可能真的离不开她。但让现在的智能家庭机器人干这些事,是很难放心的。比如点个外卖,我说我想吃拉面,机器人先搜索附近的拉面馆,逐个念出来,然后问你选哪家?我听到个熟悉的名字,说就那个吧,然后问我点什么面?于是把店里的菜单再念一遍。。好了好了,我不如上网自己点好了。我不用这个语音点菜功能,不是因为这是个伪需求,而是功能还做的不够好,至少没有好过GUI。

所以,在VUI和GUI可以互相替代的应用场景下,VUI可以把GUI作为一个benchmark,如果能够把体验,效率,做得超过GUI,那么这个场景下的语音强交互就不远了。现在VUI的强交互基本都存在于VUI不可替代的场景下(比如车载语音导航,儿童玩具机器人)。我期待不久的将来能够有VUI体验做到极致,benchmark能够超过,从而替代GUI的场景出现。

VUI必须要强大的AI

上面提到过,VUI的硬伤是信息线性化,做选择操作非常低效,而选择操作又是人机交互最高效的input之一。所以VUI想要强大起来,必须减少选择的操作,而直接为用户做出选择,这就需要强大的AI来支撑。比如回到点拉面的例子,我说我中午想吃拉面,来个最好拉面馆的经典款,不要太辣的,1点前要能送到的。

如果后端强大的AI能够fullfill这样的request,那么GUI在这种场景下还有什么优势呢?(GUI场景:拿出手机,打开送餐app,先搜索拉面,再刷星级排序,然后再找menu。。)就算是GUI也具备了AI,依然还是说这段话要比输入文字简单和自然的多。

所以AI对于GUI来说是booster,而对于VUI来说是catalyst,在同等情况下AI会让VUI的潜在优势巨量的释放出来。反过来看,VUI也会成就AI,作为连接生活中的普适场景的媒介。

交互的终极形式

人机交互方式,从最早的打孔器,到键盘,鼠标,到如今的touch screen,不断的演化。新的交互方式也依然在层出不穷,偏主流的有语音交互,手势交互(以Leap Motion为代表),眼动,脑电,等等。这里面需要去伪存真,哪些才是可以真正取代以往的交互方式,或者是以独立的强交互方式存在呢?这里谈一个我一直以来信奉的观念,

就是用户体验的基础准则,基本奠定于5000年前。

Amazon Echo只是音响,还是会成为下一代平台级产品?

用户体验好,无非就是满足人们的感官,而人与外界沟通的方式是几千年演化而来的。用眼去看,用耳去听,用鼻去嗅,用嘴去尝,用手脚去操作。如果让人们去改变最基本的交互方式,是极其困难的。所以这里排除两个伪交互方式,眼动和脑电。

人类的眼睛是为观察世界进化而来的,从没有掌控和操作的能力,如果把眼动作为一种input,人肯定会不适应。

脑电也是如此,很多人会觉得交互的终极是直接用意念去控制。但人类没有这方面进化的经验(除了三体人),可能意念本身就是不准确的,所以就算脑电技术做到极致,最终的result的准确性也无法令人满意。当然不排除眼动和脑电用于专业领域,或者作为辅助交互出现。但作为未来的主流交互方式,可能不具备这个资格。

Amazon Echo只是音响,还是会成为下一代平台级产品?

同理,语音交互的重要性就不言自喻了,动物都用吼来通信,放在人身上是再自然不过了

。从这个观点看,手势交互处在两者之间。手的操作对于人来说几乎是最重要的交互方式。从键盘到鼠标,从鼠标到touch screen,都是在把手和机器的交互变得更接近自然世界。在自然世界里,人们就是通过触摸去感知这个世界。但手势就比较tricky,它没有触觉反馈,会让人觉得很不自然。只有特定条件下,比如聋哑人,交警,在其他信息交流受阻的情况下才不得不开发出这样的技能,而且具有有很长的learning curve。

所以我认为手势交互也只能作为很简单的辅助操作出现,比如开始,关闭,暂停,不超过3个的简单命令。更多的精细化操作用手势去完成就有悖于人的体验。So, 交互的终极形式是存在的,而不是能够一直不断翻新进化的(这个过程可能需要依赖人的生物进化),自然语音+touch screen,that's it。我们现在已知的交互方式已经非常接近终极了。

这里插一个题外话,技术发展的瓶颈最终往往来自于人本身。互联网人口红利消失了,是人类每天可支配的时间有个极限值。人的繁衍和生长速度也有极限值,没法快速的提供新的人口红利。人机交互方式也受限于人类的生物感官,存在一个极限。不过目前VUI的完成度照这个极限还很远,还有很多好玩有意义的事情可以做。

Amazon Echo只是音响,还是会成为下一代平台级产品?

在AI的引擎推动下,GUI就像是汽车,VUI就像是飞机。后者的出现,到发展,只是为了填补前者做的不够好的领域,直到二者达到一个均衡的平衡点。在这个过程中人的生活会变的愈加便利。就像是飞机的发展,随着稳定性越来越高,VUI也会逐渐成熟和普及。

如果时间回到100多年前,人们会认为那个带着个螺旋桨随时会掉下来把人摔死的“风筝”成为下一代平台级的出行工具吗?

所以让我们放眼10年以后,nothing is impossible。



分享到:


相關文章: