用 AI 專核跑語音,全志攜手 Arm 中國定義下一代智能音箱

在上個月深圳灣的一篇行業解讀中,我們提到了兩份智能音箱市場報告:2019 年全球智能音箱銷量達到 1.469 億部,同比增長 70%,同年中國智能音箱市場銷量 3682.2 萬臺,同比增長 126.6%。

單看國內市場,其中的貢獻,一方面來自天貓精靈、百度、小米等榜單上的玩家,另一方面則是背後的幾大頭部芯片供應商全志科技、瑞芯微、晶晨半導體等。

據不完全統計,全志科技面向智能音箱的 R 系列主控芯片已經廣泛應用於天貓精靈方糖 R、小度在家、小度音箱 Play、小愛音箱 Play、小愛音箱 mini、京東叮咚、騰訊聽聽、網易雲音箱等多款產品。其中,R328 已經成為智能音箱市場客戶認可的主流方案,併成為公司業績增長的主要動力之一。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

在深圳灣過往的多次交流中,全志科技都提到過智能音箱的往事:從 2011 年開始做 Wi-Fi 音箱(智能音箱的雛形)的主控芯片,沒有成為第一波先烈,反倒是柳暗花明,堅持至今,最終成為智能音箱市場的一匹黑馬,也是讓我們看到了市場的機會。

轉眼進入 2020 年,已經是全志科技涉足智能音箱領域的第 10 個年頭,主打高性價比的 R328 的傳奇還在繼續,全志科技與 Arm 中國合作打造的 R329 橫空出世。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

4 月 16 日,深圳灣應邀參與了 Arm 中國和全志科技舉辦的媒體溝通會,與 Arm 中國產品研發副總裁劉澍、全志科技副總裁陳風,一起聊了聊成就 R329 的「周易」AIPU 和智能音箱的故事。

R329 是首款採用 AI 專核跑智能語音的芯片

全志科技副總裁陳風指出,去年推出的 R328 也是採用了 Arm Cortex A7 處理器的典型產品,但它是用 CPU 來跑智能語音。在與很多友商和算法公司進行了大量的交流後,全志科技發現,市場對專用算力是有明確需求的。因此,經過了 10 個多月的研發,R329 應運而生。

R329 是基於 Arm 的多核異構處理器,集成了高性能的 AIPU、DSP、CPU 等 5 顆計算核,具有高算力、低功耗的特點,是一款 AI 語音專用芯片。

先看一下規格:

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

基於主頻 1.5GHz 的 Arm Cortex-A53 雙核架構,相較於 R328,全新升級的 R329 提供高達 1.58 倍整數算力,1.94 倍浮點算力。

集成了 400MHz 雙核 HIFI4,可以更大限度地達到優異的能效比,在使用中降低產品發熱,體驗更優。

配合芯片集成的 SRAM 與嵌入式第二代 VAD 硬件,更進一步降低功耗和發熱。1 節 2500mA 的電池,可實現 1 周的待機時長。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

R329 首次搭載了 Arm 中國「周易」AIPU,可提供最高達 0.256 TOPS 的運算能力。周易 AIPU 作為 AI 專核,其理論 AI 算力是單核 A7 1.2GHz 和單核 HIFI4 600MHz 的 25 倍。

在「周易」AIPU 的加持下,更充足的專用算力可以支撐更多的語音應用。用深度學習做端到端的算法,相對於傳統降噪、回聲消除和關鍵詞識別算法,效果提升巨大,顯著提升識別率和交互體驗。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

此外,R329 芯片還通過豐富的音頻接口(集成多路音頻 ADC 和 DAC、3 路 I2S 和 8 通道 DMIC,同時集成 LDOs),提供更多的功能擴展。

周易 AIPU 代表 Arm 中國首款自主 AIPU 進入商用時代

Arm 中國產品研發副總裁劉澍首先向我們介紹了周易 AIPU 名字的來源。他指出,全志科技 R329 所採用的 Arm Z1-0701 是 Arm 中國「周易」AIPU 第一代架構,其中,07 是它有 2 的 7 次方的硬件 MAC,01 表示它裡面還有一個通用的 Tensor 處理單元。命名即表明了處理核的個數,也表明了算力的承載能力。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

周易 AIPU 處理器是針對深度學習定製的,其架構包含以下幾個部分:

  • 向量處理單元(Vector/Tensor process),類似 NEON 的向量處理指令集,通過 8 比特向量陣列進行向量計算。

  • AI Fix Function,將通用 AI 部件和單元固化下來成為硬件,。

  • Scalar,通用目的的 CPU 運行指令集,具有類似 CPU 的標量處理功能。

  • 可擴展的安全架構,可兼容 Arm 的 TrustZone 安全方案。

  • 可擴展的用戶定義架構,如全志科技的案例。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

Arm Z1-0701 是專門針對智能家居、智能樓宇、智能機器人場景深度定製的,同時也支持比較簡單的視覺分析能力,如圖像和人臉的識別和感知。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

其最大的優勢是在精度和算法移植的速度上也有很高的優化,它可以非常高效地運行本地的 KWS 和本地的 ASR 等各種語音算法。

而在用戶端的體驗則是功耗低,原先用 CPU 跑 AI,產品的發熱需要在結構上做一些主動散熱,現在用 AIPU 來接替 CPU 的運算工作,可以很好的緩解這個問題。這就為產品的進一步小型化、長續航提供了可行性。

其次是安全擴展。周易 AIPU 傳承了 Arm 的 TrustZone 安全技術來保證整個設備裡面數據的安全性。在設計之初,就已經考慮了安全保障,使用戶隱私得到有效的保障。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

那麼,「周易」AIPU 與以往的語音加速器(DSP)有什麼不同呢?Arm 中國產品研發副總裁劉澍指出:

從產品定義上來看,「周易」AIPU 不是一個 CPU 處理器,而是一個 NN 類型的處理器。其本質在於 Arm 定義了一套新的適用於 AI 算法的指令集,通過指令來驅動裡面的向量處理單元和固定的 AI 算法處理單元,從而完成各種複雜網絡的組合的操作,所以我們把它叫做處理器而不叫加速器。
架構的定義、指令集的定義、設計的定義都是由 Arm 中國的團隊來完成,所以「周易」也是我們完全自主可控的中國產品。用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

周易 AIPU 具有高度的可配置性,可以實現單核上達到 0.2T~4T 的算力,而如果採用多核配置,可以增大到 64T,這樣就能應用到汽車電子或其他大算力的服務器上。

而在開發的支持方面,可以實現 Tensorflow 模型 24 小時移植,接口也是和 Tengine 的接口是統一的,能夠實現跨平臺應用,給開發者很多便利。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

此外,相比 Arm 的 U55 和 N77,周易 AIPU 更加通用,既可以與 Cortex-M 或 Cortex-A 一起工作,也可以作為處理器進行獨立工作。

智能音箱之外,還有更大的語音應用藍海

全志科技是 Arm 中國的戰略合作伙伴,推動了「周易」AIPU 的首個落地應用。在技術選型上,全志科技陳風認為,傳統的通用處理器 + DSP 的設計還不能支撐更高的算力,因此 R329 選配了「周易」AIPU 專核,來應對更大的語音智能處理需求。

得益於 Arm 的技術積累和工程化能力,周易 AIPU 將會是全球第一個大批量商用的 AI 處理器。

全志科技對於「周易」AIPU 的信心,不僅來自於其強大的 AI 運算性能,還來自於全志科技對於智能音箱、乃至語音 AI 應用前景的前瞻。

陳風認為,首先,語音解決的是人們從「動手」到「動嘴」的問題。語音不可能替代鍵盤、觸摸屏、按鈕、鼠標等所有其他的人機交互方式,而一旦語音 AI 能夠像一個貼身傭人一樣,語音的實用性會大幅度提升,從而解決人「懶」的問題。

其次,語音具有「非接觸」交互的優勢。這次新冠疫情就已經把非接觸擺到了一個非常高的位置,免接觸電梯成為熱點。語音是有它獨特的使用場景。

最後,全志科技堅信,語音將帶來功能入口的扁平化。相對於 PC 時代的網站導航和 Google、百度等搜索引擎,語音可以把幾百個功能點簡化成一句話,直達搜索結果。最典型的應用就是電視,未來語音搜索將成為電視標配,這也是智能音箱以外,語音應用的巨大增長點。

用 AI 专核跑语音,全志携手 Arm 中国定义下一代智能音箱 | ​R329 与周易 AIPU 详解

未來,R329 與周易 AIPU 將以智能音箱為主要切入點,滲入到智慧城市,包括智能樓宇、智慧工業以及智慧生活的方方面面。

從產品形態上,也不僅侷限於智能音箱,語音遙控電視、語音服務機器人、物流機器人、語音面板、語音電梯、道閘、門禁等等。

正如深圳灣在此前的分析中指出的,隨著 AI 性能在提升、交互模態在增加,智能音箱行業將呈現出低功耗高性能、多模態交互能力、邊緣計算和本地控制、分佈式控制等趨勢

。全志科技與 Arm 中國攜手打造的這一用例,或許就像一面鏡子,為我們映射出了下一代智能語音應用的樣子。

主筆:陳壹零 / 深圳灣


分享到:


相關文章: