Arm芯片IP四彈連發!NPU

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

芯潮(ID:aichip001)文|心緣

芯潮10月23日消息,今日,Arm發佈兩款全新主流機器學習(ML)處理器,以及最新的Mali GPU與DPU,具體包括:

1、Arm Ethos-N57與Ethos-N37 NPUs:主要用於在主流設備上加速人工智能(AI)應用,並在機器學習的性能與成本、面積、帶寬與電池壽命之間達成平衡。

2、Arm Mali-G57 GPU:第一個基於Valhall架構的主流GPU,性能是前幾代產品的1.3倍,可透過性能提升帶來沉浸式體驗。

3、Arm Mali-D37 DPU:在最小的面積內提供豐富的顯示功能,以呈現全高清及2K分辨率,尤其適用於入門設備與小型顯示屏幕的顯示處理器(DPU)。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

據悉,這套全新IP吻合Arm全面計算(Total Compute)的初衷,確保其以實際體驗驅動,並針對解決未來工作負荷的負載運算挑戰進行優化,能提供更高的單位面積效率、更加節能,同時提升性能、降低成本、縮短上市所需時間,為移動設備帶來在機器學習處理、視覺效果和顯示性能。

在今天的大會上,Arm中國CEO吳雄昂再次表明,經法務及相關的調整,Arm V8 及後續架構將不受限制,繼續向中國合作伙伴授權。

在產品發佈後,Arm市場營銷副總裁Ian Smythe、Arm機器學習事業群商業與營銷副總裁Dennis Laudick等Arm高管接受芯潮等媒體的採訪,就Arm全面計算的三大支柱、Arm從雲端到AI邊緣的佈局等進行分享。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

▲Arm市場營銷副總裁Ian Smythe(左二),Arm機器學習事業群商業與營銷副總裁Dennis Laudick(右二)

一、兩款NPU:提供更強異構計算

繼Arm ML處理器Ethos-N77發佈後,Ethos NPU家族又添加Arm Ethos-N57與Ethos-N37 NPUs兩位新成員。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

新Ethos NPUs著重對成本及電池壽命最為敏感的設計進行優化,帶來更優質的AI體驗。

兩種新NPU的設計理念包括一些基本原則,如針對Int8和Int16數據類型的支持性優化、先進的數據管理技術以減少數據的移動與相關的耗電、通過Winograd等創新技術的落地使性能比其他NPU提升超過200%。

這些處理器採用端到端壓縮技術,降低了對DRAM的要求,將系統帶寬最小化1.5-3倍。

此外,Ethos-N57的功能還包括提供平衡的ML性能與功耗功率,針對每秒2兆次運算次數的性能範圍進行優化。

Ethos-N37的功能還包括提供小於1平方毫米的超小ML推理處理器,並針對每秒1兆次運算次數的性能範圍進行優化。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場


那麼,同現有市場上其他廠商推出的NPU相比,Arm NPU主要聚焦於怎樣的應用呢?

據介紹,Arm NPU屬於通用型NPU,現在市場上機器學習大部分都默認用Arm CPU來進行處理器。今日新發布的NPU產品,將Arm CPU機器學習能力進一步提升。Arm的很多合作伙伴表示,他們並不希望去支持五花八門的處理器,而是希望標準化,這恰恰是Arm在做的事情。

二、Mali-G57 GPU:更好沉浸式體驗

繼5月推出高級Mali-G77 GPU後,今天,Arm推出第一個基於Valhall架構的主流GPU 。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

Mali-G77至少有7個核心,而Mali-G57有1-6個核心,具體數量取決於配置。新推出的GPU可用於高保真遊戲、媲美電玩主機的移動設備圖形效果、DTV的4K/8K用戶接口、更復雜的VR/AR負荷等主流市場,這也是移動市場劃分最大的一部分。

相比Mali-G52,Mali-G57主要具有如下特點:

1、各種內容的性能密度達到1.3倍;

2、能效比提升30%,使得電池壽命更長;

3、針對VR提供注視點渲染支持,且設備機器學習性能提升60%。能靈活運行於不同的機器學習工作負載,能更好應用於更復雜的XR實境應用。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

其中,Valhall架構作為新一代GPU的基礎,扮演了重要角色。除了更好地與Vulkan等現代API保持一致外,該架構的關鍵功能還包括新的超標量引擎、簡化的標量ISA和新的動態指令調度等。

這些使得Mali-G57的性能和能效得到有效改善,會帶來更好的用戶體驗,比如玩每秒60幀的複雜遊戲時,畫面效果會更加出色。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

三、Mali-D37 DPU:Arm單位面積效率最高的處理器

Mali-D37 DPU是一個在最小的可能面積上包含豐富顯示與性能的新型顯示處理器,採用經過優化的Komeda架構,專為主流和入門級設備設計。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

對於入門級智能手機、平板電腦與分辨率在2k內的小顯示屏等較低成本設備,Mali-D37 DPU能提供更好的視覺效果和性能。

Mali-D37 DPU的關鍵功能包括:

1、單位面積效率極高,DPU在支持全高清與2K分辨率組態下,16nm製程的面積小於1平方毫米,大約是高級Mali-DPU的36%。

2、通過減少GPU核心顯示工作既包括MMU-600等內存管理功能,系統電力最高節省30%;

3、從高階Mali-D71保留關鍵的顯示功能,包括與Assertive Display 5結合使用後,可混合顯示高動態對比(HDR)與標準動態對比(SDR)的合成內容。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

四、藉助軟件與生態提升優勢

除了研發一系列IP外,Arm也非常關注軟件和生態系統。

去年Arm曾推出機器學習軟件Arm NN。它是Arm貢獻的一個開源標準,可以與Caffe等現有機器學習框架橋接,使得開發者仍可使用首選框架和支持工具,經 Arm NN 無縫轉換結果後可在底層平臺上運行。

Arm Ethos處理器系列與Arm NN一起使用時,可彌補現有神經網絡架構與底層CPU、GPU和NPU IP之間的鴻溝。使用Arm NN,開發人員僅需編寫一次代碼,即可適用於多個異構處理器。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

此外,在本月美國加州聖何塞舉行的Arm TechCon 2019上,Arm宣佈與Unity合作,以確保3D應用程序能在使用Arm架構的硬件上流暢運行。

而Arm之所以選擇Unity合作,是因為Unity是最為主要的3D內容創建引擎,90%的遊戲和70%的VR都是基於Unity的。Arm希望藉由合作,使得在原生開發環境中,Unity開發人員可以方便地訪問Arm產品,跨Arm CPU、GPU和NPU獲得最佳渲染和性能。

在採訪期間,Ian Smythe強調說Arm沒有開源指令集,開放的自定義指令功能可在特定CPU內核中使用,其一大優點在於允許用戶使用所熟悉的開源編譯器等標準軟件開發工具的訪問。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

這樣一來,第三方合作伙伴可以更快地集成和開發定製指令來加速特定應用。

而面對市場上的競爭,Arm的優勢在於,可提供最為全面的指令集產品,在標準化的基礎上允許開發人員做一些定製,滿足部分用戶定製化需求。

五、全面計算的三大支柱

Ian Smythe表示,全面計算(Total Compute)有三個支柱:性能、安全、可訪問。

談及第一個支柱性能,Ian Smythe介紹說,如今GPU、NPU、系統級IP等一些新型工作負載陸續出現,如何開發下一代CPU面臨新的難題?

考慮到AI計算帶來的挑戰,不止是NPU本身擁有強大的處理器能力,還需要CPU、GPU等都具備處理AI應用的能力,這會帶來設計上一些新的挑戰,需要工程師能用和之前不同的方式來思考工程開發工作。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

第二個支柱安全同樣是必須重視的一環,Arm全面計算中的安全性主要基於三個層次:

1、平臺安全性(Platform Security),通過透明且可獲取的安全標準實現去碎片化,設計規則和標準;

2、過程安全性(In-process Security),針對薄弱環節進行偵測與保護,屬於深度防禦;

3、應用安全性(Application Security),在不同應用上的程序和數據受保護。

在基本層安全上,Arm會做安全啟動、身份鑑別等基礎工作;二是防止分支的工具,Arm會在指令集中設置一些障礙,防止跳碼;三是內存標記擴展(MTE,Memory Tagging Extension),70%的操作系統崩潰或出錯都是因內存訪問不當所造成,因此Arm與谷歌合作共同研發內存標記擴展,來提升操作系統的安全防護水平。


Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

在應用層,Arm與微軟、谷歌等公司聯合做的平臺安全架構(PSA,Platform Security Architecture),主要通過編程方式的改變來防範在比較流行的應用攻擊。

假設在內存中同時跑6個應用,黑客只要攻破一個,就相當於六個應用都被攻破了。於是,Arm與劍橋大學共同開發出功能架構(capability architecture),這個架構意味著如果黑客攻破內存中的一個應用,是無法攻破其他應用的。

關於可訪問性,Arm目前邁出的一步是幫第三方開發人員,幫他們獲得Arm CPU、GPU、NPU的能力。

六、從雲端走向邊緣計算

如今,在英特爾、英偉達等巨頭的助力下,異構計算正大行其道,對此,Arm又有怎樣的考量?

Ian Smythe表示,Arm考慮的是如何滿足下一代產品的能耗以及性能跨CPU、GPU和NPU的需求。

這意味著不僅在產品設計階段,還要在開發人員進行產品部署的運行時階段,都能有效建立不同場景計算的組合,為做到這一點,需要統一工具鏈去支持CPU、GPU、NPU。

Arm芯片IP四彈連發!NPU/GPU/DPU全覆蓋,猛攻多個細分市場

無論是Arm所專注的全面計算,還是逐漸興起的異構計算,都聚焦於性能與能耗的平衡。Ian認為,異構計算支持這些的關鍵不在於打造硬件的平臺,更多是能讓第三方開發人員能訪問到芯片級性能,因此Arm強調的是全生態系統的合作。

很多Arm的合作伙伴已經在電視、手機等產品上實現了異構片上系統(SoC)。

談及雲邊端的佈局,Ian Smythe也分享了對現有市場的所見所感以及Arm自身的規劃。

目前,雲端推理基本上都是使用CPU、GPU或專用TPU來支撐,而邊緣推理基本都通過Arm CPU來做。

如果在手機上添加NPU,或者提升CPU性能,就意味著每一個設備的能力都提升,這是一個眾贏的局面。

邊緣端現在也在研究聯邦學習,即在邊緣設備上進行本地模型訓練,再將訓練好的模型加密上傳到雲端。從Arm的角度來看,即可以提升邊緣端推理的性能,也可以提升邊緣端訓練的性能。

以前數據流向是單向的,從邊緣流向雲。現在,這種流動變成了雙向的,如果將所有數據都放到網絡核心,成本會非常高昂,因此邊緣計算開始興起。

過去一年裡,Arm 推出了多個從網絡終端到雲端的解決方案,包括 Arm Project Trillium、Arm Neoverse、Automotive Enhanced 汽車強化處理器、Pelion 物聯網平臺。

為下一代基礎設施技術奠定基礎,Arm此前已公佈其Neoverse路線圖,提到將在下一代Zeus 平臺中增加bfloat16支持,將能夠更好利用IP開發能力支持AI計算需求,以從雲端到邊緣提供更加普適的計算。

Ian Smythe說,Arm提供給合作伙伴相應的架構和IP,至於合作伙伴想做什麼樣的平臺取決於他們自身的意願。

為了幫助解決AI從雲端到邊緣的過度問題,Arm還於本月宣佈了一項Cassini項目,將同其生態夥伴一起針對基礎設施邊緣開發平臺標準和參考系統,以確保跨各種安全的邊緣生態系統提供雲原生體驗。

結語:通用AI處理器仍是當前更安全的選擇

AI、物聯網、5G三大技術共同推進著產業應用的演進。在這一股浪潮中,Arm看見5G改變了數據處理方式,認為它將推動網絡邊緣更多的創新。

而隨著越來越多企業開始推出專用處理器,通用與專用之爭日漸成為關乎處理器趨勢的熱門話題。對此,在Ian Smythe看來,目前AI市場還處於初期階段,選用通用處理器是相對安全的做法,面對快速迭代的算法,通用處理器仍有2-3年的生命週期。


分享到:


相關文章: