技術文章—通過低延遲語音響應改善用戶體驗和安全性

使用語音命令來控制我們生活中的機器通常能夠更加自然(且更快)地與周遭世界進行互動。隨著越來越多的小型、低成本消費設備取消按鈕,僅提供觸摸屏,語言命令的作用將更加重要。使用基於雲的系統來添加語音識別是一種選擇,但這會帶來用戶隱私和延遲問題。它們還要求最終用戶具有可訪問的網絡,並且對於許多智能家居和消費物聯網應用而言,這往往會產生高昂成本。

技術文章—通過低延遲語音響應改善用戶體驗和安全性


為了幫助設計師應對這些挑戰,恩智浦將離線語音控制帶到了邊緣。

恩智浦EdgeReady SLN-LOCAL-IOT解決方案基於i.MX RT跨界MCU系列,可幫助開發人員開箱即用地進行概念開發。它的超小外形和“交鑰匙”特性使其成為向智能產品添加語言控制功能的理想平臺,能夠最大限度地減少風險、產品上市時間和開發工作。

這一系統為i.MX RT帶來了高質量的遠場音頻前端、可定製的喚醒詞引擎和命令識別引擎。當和完整的音頻硬件設計搭配使用時,此新解決方案可用於應用特定的語音識別模型。例如,在洗衣機中,用戶可以通過語言命令來啟動洗滌程序。然後,洗衣機可以詢問適當的問題來設置水溫、旋轉週期以及任何其他相關參數。

速度與靈活性

離線實施意味著能夠消除一些會增加成本的因素,例如Wi-Fi模塊和雲服務費用。在恩智浦低成本i.MX RT106L MCU上運行時,此係統可同時提供多合一功能和低廉成本。這種組合使其非常適合各種智能家居應用,包括開關、調光器、小型電器和恆溫器。

另一個關鍵優勢是設計自帶的隱私保護,這意味著音頻不會被傳輸到雲,所有處理都在本地設備完成,不會有語音記錄永久存儲在任何地方。SLN-LOCAL-IOT解決方案結合了許多尖端技術,而這些技術通常都來自昂貴得多的硬件和協處理器DSP。利用i.MX RT的性能,該解決方案可以完成MPU+DSP設計中通常提供的大多數(在許多情況下所有)音頻功能。

技術文章—通過低延遲語音響應改善用戶體驗和安全性

音頻處理前端和本地控制庫是獨特的使能技術,並且這兩個功能可以搭配或分別使用以定製用戶體驗。本地控制庫軟件包具有喚醒詞和命令檢測功能,並且易於集成到任何應用中。另外,對於典型語音模型,使用的RAM不到100KB,這為其餘應用留出了足夠的RAM。

在設置並初始化庫之後,應用只需將輸入音頻流饋送到控制庫即可。當庫檢測到喚醒詞或命令時,它將為用戶應用程序執行回調以進行處理。

技術文章—通過低延遲語音響應改善用戶體驗和安全性


為庫提供饋送的是音頻處理前端。該組件負責收聽多個麥克風(在語音解決方案中最多三個),並通過波束成型和回聲消除來清理音頻。前端選擇最佳的波束並將音頻發送到庫。

使用恩智浦EdgeReady進行語音控制的時機已到

通過將語音控制帶到邊緣,恩智浦使開發人員可以在不犧牲性能、成本或隱私的前提下,引入消費者期望的功能。

恩智浦EdgeReady SLN-LOCAL-IOT解決方案的目標應用:


技術文章—通過低延遲語音響應改善用戶體驗和安全性

在不久的將來,SLN-LOCAL-IOT有望與其他領先的AI/ML功能相結合,包括人臉識別、物體檢測和異常檢測,以實現各種令人興奮的新應用。


分享到:


相關文章: