AI下沉,Arm的“硬”普及與“軟”開放

AI下沉,Arm的“硬”普及與“軟”開放

當以5G、IoT、AI等作為主要驅動力的第五波浪潮(fifth wave)來襲時,計算領域的發展重新構建了我們的生活。

一直以來,大量的數據從邊緣流向雲端,但隨著數據和設備的數量呈指數型增長,把所有數據都放到雲端處理變得越來越不現實,更不用說安全和成本效益。

機器學習(Machine Learning,ML)向“邊緣”轉移成為必然趨勢,它將助力AI在更大範圍的普及,推進更為多元化的應用。從整體架構來看,只有提升邊緣的智能性,才能解決帶寬、功耗、成本、延時、可靠性和安全性等多方面問題。


AI下沉,Arm的“硬”普及與“軟”開放


持續拓寬ML處理器IP覆蓋

在日前的Arm Tech Symposia 2019北京站上,Arm宣佈進一步擴充其IP組合。這些IP組合沿襲了Arm一直倡導的大小核理念,既有比較高端的配置(如Ethos-N57和Mali-G57),也有入門級的產品(如Ethos-N37和Mali-D37),目的在於將軟硬件充分結合,並充分發揮生態系統的力量來提升主流設備的使用體驗。


AI下沉,Arm的“硬”普及與“軟”開放


由於消費級設備越來越智能化,通過專屬的ML處理器提供額外的AI性能與效率非常有必要。

自從推出Cortex-A73後,Arm便逐步且逐代地提升性能,大幅拓寬針對ML的CPU覆蓋。計算能力不斷被推升至全新水平,直到最新一代Matterhorn內核,預計其計算性能將提升10倍。


AI下沉,Arm的“硬”普及與“軟”開放


當CPU和GPU面對邊緣計算更密集計算、更復雜任務、更高效需求等顯現出一定的匱乏時,NPU將派上用場。


AI下沉,Arm的“硬”普及與“軟”開放


繼定位於高端設備的Ethos-N77發佈後,此次,

Ethos NPU家族又添Ethos-N57與Ethos-N37兩位新成員,將ML處理器延伸到主流市場。全新的Ethos對成本與電池壽命最為敏感的設計進行了優化,可以為日常生活設備帶來優質的AI體驗。

Ethos-N57與Ethos-N37的設計理念包括:

針對Int8與Int16數據類型的支持性進行優化;

先進的數據管理技術,以減少數據的移動與相關的耗電;

通過如創新的Winograd技術的落地,使性能比其他NPU提升超過200%。

Ethos-N57旨在提供平衡的ML性能與功耗效率,能夠針對每秒2兆次運算次數的性能範圍進行優化;Ethos-N37則為了提供面積最小的ML推理處理器(小於1平方毫米)而設計,能夠針對每秒1兆次運算次數的性能範圍進行優化。


AI下沉,Arm的“硬”普及與“軟”開放


Arm在ML內核方面主要關注數據管理,在設計中更多地注入了智能數據管理的功能和理念,例如數據敏感型的壓縮技術、高密度剪枝和稀疏功能等。


AI下沉,Arm的“硬”普及與“軟”開放


Mali-G57:為主流市場帶來智能與沉浸式體驗的GPU

同時推出的還有將優質智能與沉浸式體驗帶到主流市場的Mali-G57,是第一個基於Valhall架構的主流GPU。主要針對移動市場中最大的一部分應用,包括高保真遊戲、媲美電玩主機的移動設備圖型效果、DTV的4K/8K用戶接口,以及更為複雜的虛擬現實和增強現實的負荷等。

Mali-G57關鍵功能包括:

與Mali-G52相比,各種內容都能達到1.3倍的性能密度;

能效比提升30%,電池壽命更長;

針對VR提供注視點渲染支持,且設備ML性能提升60%,以便進行更復雜的XR實境應用。


AI下沉,Arm的“硬”普及與“軟”開放


Mali-D37:Arm單位面積效率最高的處理器

Mali-D37是一個在最小的可能面積上包含豐富顯示與性能的DPU。對於終端用戶而言,這意味著當面積成為首要考慮,在例如入門級智能手機、平板電腦與分辨率在2K以內的小顯示屏等成本較低的設備上,會有更佳的視覺效果與性能。

Mali-D37關鍵功能包括:

單位面積效率高,DPU在支持全高清(Full HD)與2K分辨率的組態下,16nm製程的面積將小於1 mm2

通過減少GPU核心顯示工作以及包括MMU-600等內存管理功能,系統電力最高可節省30%;

從高階的Mali-D71保留關鍵的顯示功能,包括與Assertive Display 5結合使用後,可混合顯示高動態對比(HDR)與標準動態對比(SDR)的合成內容。

ML選擇通用還是專用處理器?

是否一定需要專用的ML處理器?能否通過跨IP組合設計,或是對加速器進行優化,從而達到同樣的或類似的性能?

對此,Arm市場營銷副總裁Ian Smythe表示,這首先取決於是什麼樣的機器學習負載,如果是關鍵字識別,確實不需要專門的ML處理器,只需要在Cortex-M上運行推理引擎就可以,因為它本身就具有數據管理的能力,基本適用於一般的傳感器系統。但如果是更加複雜的機器學習,就要考慮工作負載的卸載問題了,具體包括硬件方面的成本,以及編程工具的工作量等等。


AI下沉,Arm的“硬”普及與“軟”開放


Arm建議從系統級別出發進行選擇,以達到降低功耗、減小芯片面積、提高效率、優化總體設計的目的。以圖形處理任務為例,如果用GPU,它在執行任務時會多次訪問內存,可能需要強制縮小像素,降低清晰度;但用DPU執行同樣的任務,它會在完成任務後直接把數據發給GPU,這時GPU就無需再去訪問內存,相當於把GPU的一些工作負載分配給DPU,從而能夠節約能耗和帶寬。

Arm ML事業群商業與營銷副總裁Dennis Laudick強調,Arm的NPU屬於通用型。其實現在市場上大部分還是用Arm的CPU來處理ML工作負載,新發布的NPU是對其CPU ML性能的進一步提升,以便提供更多的IP選擇。

現在的市場時機之下,Dennis Laudick認為,選擇通用型處理器非常合適。就ML處理能力來看,用戶對於CPU和GPU的需求還是非常高的,同時也有一些針對NPU的需求。由於AI本身還處於非常初期的階段,選擇通用處理器是比較安全的做法,即便算法迭代非常快,硬件還能夠有2到3年的生命週期。

開源Arm NN——標準化前提下的定製化

此次Arm的一個重要舉措還有開源類神經網絡開發工具包Arm NN,允許第三方合作伙伴進行定製化——Arm稱之為“允許標準化前提下的定製化”。


AI下沉,Arm的“硬”普及與“軟”開放


探究Arm這一舉動背後的含義。

首先,當我們真正進入IoT時代時,不論傳感器還是其他IoT設備都是萬億級的,客戶規模及類型都將指數級增長,Arm需要授予客戶能力,讓他們能夠根據實際需求實現自己指令集的定製化。

其次,可以說市場上一些開源指令集的出現對Arm構成了一定的競爭,Arm雖然能夠提供非常全面的指令集產品,但是定製化需求確實越來越強勁。

去年11月,Facebook就曾發表白皮書,要求其開發人員在移動設備上針對Cortex A53 SoC進行優化。由於不同SoC對AI加速的實施方法不同,如果是原生的軟件,可以利用SoC的加速能力;但如果是第三方軟件(Facebook就屬於第三方應用),就很難用到這些SoC的加速能力。

類似的案例,使Arm逐漸認識到了有定製需求的市場規模。通過框架開源,能夠允許第三方開發人員接入,在標準的編譯訪問、工具訪問的情況下,只需一次開發就可以獲得Arm全系列的硬件產品性能。

此外,Arm也宣佈延伸與Unity的合作伙伴關係。目前,有七成VR內容的開發都在Unity工具鏈中發生,雙方將進一步優化基於Arm的SoC、CPU和GPU的性能,使開發人員得以將更多的時間用於創造全新的、沉浸式的內容。


AI下沉,Arm的“硬”普及與“軟”開放


Total Compute理念應對未來複雜邊緣計算

應對未來複雜邊緣計算的趨勢,不難發現,Arm的關注焦點正在從單一的產品演進轉化為以應用場景與體驗為導向的系統解決方案。

全面計算(Total Compute)的理念被應用到Arm的每一個計算要素,包括CPU、NPU、GPU、DPU,以及互連或系統IP等。初衷在於確保它們是由實際體驗所驅動,同時針對解決未來工作負荷的複雜運算挑戰進行了優化。

硬件方面普及性不斷提升,軟件開始一定的開源嘗試——這是Arm對於未來計算架構思考方式的重大轉變。

在介紹Total Compute理念的時候,Ian Smythe提到了三個因素:性能、可訪問、安全。前兩個因素主要來自於軟硬件的協同發展,而第三個因素——安全,是一切設想得以實現的基礎。

Total Compute的安全性基於三個層次:

第一個層級是最基本的平臺級安全,涉及標準以及規則,做到合規;

第二個是處理級的安全,指的是處理器運行的軟件線程,主要防止通過某一個處理通道發起的攻擊,屬於深度防禦;

第三個是應用級的安全,即虛擬機在雲端的應用安全。

在最基本層次的安全方面,Arm將會加強基本安全級別如身份驗證、鑑權等工作,同時還有防止分支攻擊的方式。此外還有一種安全架構叫做內存時間延展,Arm發現70%的操作系統崩潰或錯誤,都是因為內存不當的訪問造成的,於是和Google共同合作了Arm V8.5,來防止類似的情況發生。

針對應用層安全,Arm與微軟、谷歌等公司聯合進行了安全架構方面的研究,主要通過編程方式的改變來防範現在比較流行的攻擊方式。與劍橋大學共同開發的Prototype能力架構,能夠將每個應用獨立隔離,如果黑客攻破其中一個應用,其他不受影響。

Arm正在將創新的安全功能整合到Total Compute內,以迎合客戶的各種需求。


AI下沉,Arm的“硬”普及與“軟”開放


結語

未來,隨著數據類型愈發多樣,如大數據應用、分佈式存儲和部分邊緣計算等對多核、高能效計算提出明確需求,單個設備的計算能力固然很重要,但已不再是唯一的關注點,整個系統的計算能力更應該被關注。

這種異構計算需求能否為Arm及其生態發展帶來新一輪增長點?Arm生態中的合作伙伴能否從中獲得巨大的商業價值?市場還需要持續的發酵和驗證。不過,觀察他們是如何提升生態系統的高度,找到長久盛放下去的辦法,可以從中得到一些答案。


分享到:


相關文章: