DuerOS2.0發布,世界級的人機互動平台野心初現

歷年百度世界大會都是百度最新的產品、技術展示,今年也不例外。在剛剛結束的 2017 百度世界大會,百度展示了從雲到端、從(百度)大腦到用戶體驗的全鏈條的人工智能佈局。這其中,主打下一代人機交互的 DuerOS 迎來一次重大升級,在這個 2.0 的版本里,諸多原有功能升級以及新增功能引發眾多關注。

根據百度官方提供的資料,DuerOS 2.0 主要帶來了兩個變化:其一是小度智能設備開放平臺的升級;其二則是小度技能開放平臺的全新發布。至此,基於語音交互,DuerOS 形成了兩個開放式的平臺,可以對接設備開發商、生態合作伙伴、線上線下服務提供商,而負責 DuerOS 的百度度秘事業部總經理景鯤也喊出了一個目標:「DuerOS 要成為世界級的人機交互平臺。」

DuerOS2.0發佈,世界級的人機交互平臺野心初現

實現這個目標當然不可能一蹴而就,對於 DuerOS 而言,其第一步就已經押對了方向:語音。

1.語音交互是趨勢

在那個略顯「遙遠」的 2016 年 6 月,被譽為「互聯網女皇」的 Mary Meeker 發表了一年一度的《互聯網報告》,其中就將語音交互放在下一代人機交互的預測中。

Meeker 做出這番預測自然有它的道理,一方面,基於機器學習、深度學習帶來的巨大技術提升效應,機器語音的識別能力已經接近超過人類,下圖是投資人 David Kelnar 繪製的語音識別進化速度圖。這意味著,當前語音識別的準確性已經達到某個臨界點,一場新的交互變革正在醞釀中。

DuerOS2.0發佈,世界級的人機交互平臺野心初現

其次,就像 Meeker 預測中舉的例子一樣,自 2014 年 12 月以來,亞馬遜推出搭載語音交互系統 Alexa 的 Echo,由此也打破了自 2007 年之後 iPhone 所引領的觸控屏幕交互的「詛咒」。長期觀察全球消費電子進展的資深媒體人 Mossberg(中國媒體喜歡稱之為「莫博士」)曾毫不客氣地指出:2010 年之後,唯一可以稱之為創新的設備就是 Echo。

與其說莫博士在稱讚 Echo,倒不如說他是在思考新一代基於語音交互所帶來的可能性。也正是這樣的想象空間,讓 Echo 背後的 Alexa 可以成為 2017 年 CES 上無處不在的身影,也因為這樣的想象空間,DuerOS 在 CES 期間與小魚在家的合作引發行業熱議。

而在 2017 過去的 11 個多月裡,幾乎中美兩國所有的巨頭公司,無一不在押注基於語音交互的產品/解決方案中。在智能手機掀起的移動互聯網革命十週年的時間節點,語音交互的變革大幕漸漸拉開,但與 iPhone 的觸摸交互顛覆過往所謂「智能手機」交互一樣,新一代語音交互的發展與壯大,絕不是僅僅依靠一款硬件(如音箱)或一個萬能解決方案(如某些廠商針對某個特定領域的解決方案)就能實現。

原因也不難理解,同 iOS、App Store 重新定義了觸摸交互的智能手機體驗一樣,推動語音交互真正發展的驅動力一定是新一代語音操作系統以及緊隨其後的生態體系。在美國,亞馬遜的 Alexa 已然成為一種語音交互的標準,而在中國,DuerOS 2.0 的諸多升級也讓其具有成為第一梯隊可能性。

那麼,既然語音交互是趨勢,真正能夠定義未來的語音交互平臺,或者智能語音交互系統,到底應該擁有什麼樣的競爭力?

2.語音交互平臺的競爭核心是什麼

正如上文所言,任何一次人機交互的革新都是一次生態級別的個創新。這其中包含三個層面:

  • 技術鏈條

  • 生態架構

  • 用戶體驗

先說技術。儘管機器的語音識別已經超過了絕大多數人類,但擺在語音交互產品開發面前的困境還有很多。比如作為個人開發者,當他們想開發或改進語音交互模塊時,往往因為缺乏足夠多的語音數據而無法訓練機器模型,而對一些傳統企業來說,切入語音交互的難點是人才和基礎技術的稀缺......

這恰恰也是此次 DuerOS 正在努力解決的行業難題。以此次 2.0 版本的升級來看,DuerOS 提供了一整套圍繞設備技術、解決方案和平臺體系的開發體系,針對不同需求,企業或者開發者可以調取諸如語音喚醒、語音識別、語音合成或者遠場語音交互等不同的技術/解決方案。

與此次 DuerOS 2.0 同時發佈的,還有一個名叫「普羅米修斯」計劃。這個項目的核心是要向普通開發者開放語音數據集,這些數據集涵蓋了語音對話機器人從(遠場)語音喚醒、(遠場)識別到交互對話的多個環節,每一個環節的數據量都非常大。比如在遠場喚醒數據集裡,就包含了數十萬條「小度小度」(百度 DuerOS 的喚醒詞)以及其他主流中文喚醒詞的錄音數據,還包括數百小時的錯誤喚醒數據,而遠場識別數據集裡,也包含數千個小時中文遠場語音識別數據等等,這些數據集的開放,對於激發開發者的開發熱情,從而加速語音交互技術普及與產品開發,意義重大。

其次,則是語音交互平臺背後的生態架構。 如果沒有授權給 PC 廠商使用,Windows 操作系統不可能僅僅十幾年就成為這個星球上最流行的操作系統,同樣,如果不是喬布斯在 2008 年「扭扭捏捏」地推出 App Store,也成就不了 iPhone 以及蘋果公司後來的輝煌。

在語音交互層面,亞馬遜 Alexa 的殺手鐧是全美範圍內的語音交互生態,而 DuerOS 的競爭力同樣是其背後的強大生態體系。根據景鯤的介紹,自今年 7 月百度技術開發者大會發布以來,DuerOS 已經吸引到 130 多家合作伙伴,形成了 20 多個行業或設備形態的解決方案,每月至少 5 款搭載 DuerOS 的不同形態設備投放市場。

而此次 DuerOS 2.0 中,百度還將語音交互與自動駕駛整合起來,DuerOS For Aplolo 的發佈,意味著 DuerOS 將接入到自動駕駛的生態體系中,共享自動駕駛高速發展的生態紅利,同時也彰顯了 DuerOS 在跨設備、跨場景上的靈活性和可能性。

第三個層面,則是語音交互帶來的用戶體驗。 儘管語音天然是人類交流的工具,但這裡往往忽略一個大前提,那就是過往的語音交互對象人與人,而現在的語音交互對象則是人與機器。這反而成了語音交互發展的「負擔」,就像Siri一樣,從輝煌到平庸,不過短短几年時間,用戶需求在此期間並沒有得到滿足。

過去幾年,隨著語音技術的發展,技術限制越來越少,而用戶體驗的打磨也越發重要。對於語音交互而言,用戶體驗不僅體現在與不同形態設備的交互體驗中,也表現在對於某些語音交互產品的功能感知裡

。此次 DuerOS 2.0 新發布的小度技能開放平臺中,DuerOS 已經具有了全場景多品類設備落地的可能性,更是提供包括影音娛樂、生活服務等 200+技能。

與此同時,第三方開發者或服務提供商還可以快速接入這個平臺,發佈自己開發的、基於語音交互的服務。正是這種全設備、多功能、多場景的開發和優化,才能最大限度地提升用戶體驗,而用戶體驗的上升,可以大幅增加用戶使用的頻率,從而也進一步推動語音交互的普及,形成又一種網絡效應。

而此次百度世界大會上發佈的人工智能硬件產品渡鴉raven H,不僅在設計、用料上超出行業同類產品,並通過搭載 DuerOS 2.0,在功能和用戶體驗上樹立了一個新的標杆。作為DuerOS的標杆之作,這是渡鴉自今年 2 月被百度全資收購以來,首次推出的AI 硬件產品。

DuerOS2.0發佈,世界級的人機交互平臺野心初現

raven Hraven H

3.寫在最後:語音交互的變革才剛剛開始

自 2007 年以後的十年時間,基於觸摸操作的交互方式定義了一代計算設備與人類交互的方式,而當第十代 iPhone 通過 FaceID 讓智能手機具備「認識用戶」的功能之時,整個行業也都在重新思考圍繞人與計算設備之間的全新交互方式。

這是屬於亞馬遜的機會,也是屬於百度的機會。尤其是百度一早就確立的「All in AI」的戰略轉型方向,不僅整個公司的技術產品思考都在轉型,而且百度過往在互聯網、移動互聯網積累的技術、生態和商業化運作能力,則構成了 DuerOS 天時地利與人和的多重優勢。

DuerOS2.0發佈,世界級的人機交互平臺野心初現

更重要的是,語音交互的變革才剛剛開始,亞馬遜也好,百度也罷,整個業界的探索還處在非常早期的階段,DuerOS 的故事也才剛剛開始,而從最早押注語音交互到對技術、生態與用戶體驗的完整開發能力,也讓 DuerOS 具備了成為世界級人機交互平臺的幾乎所有條件,接下來的故事情節,或許會更精彩。


分享到:


相關文章: