超越傳統CPU?英特爾新一代AI芯片明年面世

超越傳統CPU?英特爾新一代AI芯片明年面世


新智元報道

【新智元導讀】昨天,英特爾首屆AI開發者大會發布了一系列機器學習軟件工具,並宣佈包括其首款商用神經網絡處理器產品將於2019年推出。

超越傳統CPU?英特爾新一代AI芯片明年面世

昨天,英特爾在舊金山舉辦第一屆AI開發者大會(AI Dev Con),英特爾人工智能負責人Naveen Rao做了開場演講。

Rao此前是Nervana的CEO和聯合創始人,該公司於2016年被英特爾收購。

超越傳統CPU?英特爾新一代AI芯片明年面世

Naveen Rao

在會上,Rao發佈了一系列機器學習軟件工具,並宣佈英特爾新一代產品,其中包括其首款商用NNP產品NNP-L1000,將於2019年推出。

以下從軟件和硬件兩個方面介紹AI Dev Con的重點。

MKL-DNN是用於深層神經網絡的數學內核庫。它是神經網絡中常見組件的數學程序列表,包括矩陣乘數、批處理規範、歸一化和卷積。該庫針對在英特爾CPU上部署模型進行了優化。

超越傳統CPU?英特爾新一代AI芯片明年面世

nGraph

開發者選擇不同的AI框架,它們都有各自的優點和缺點。為了使芯片具有靈活性,後端編譯器必須能夠有效地適應所有的芯片。

超越傳統CPU?英特爾新一代AI芯片明年面世

nGraph是一個編譯器,它可以在英特爾的芯片上運行。開發人員可能想要在英特爾的Xeons處理器上訓練他們的模型,然後使用英特爾的神經網絡處理器(NNP)進行推理。

BigDL

是Apache Spark的另一個庫,它的目標是通過分佈式學習在深度學習中處理更大的工作負載。應用程序可以用Scala或Python編寫,並在Spark集群上執行。

OpenVINOA軟件工具包用於處理“邊緣”(即攝像頭或移動電話)視頻的模型。開發人員可以實時地做面部識別的圖像分類。它預計將在今年晚些時候開放,但現在可以下載了。

再來看硬件部分。

英特爾在這方面比較沉默,沒有透露更多的細節。

“幾年前Xeons不適合AI,但現在真的已經改變了。”Rao強調,增加的內存和計算意味著自Haswell芯片以來性能提高了100倍,並且推理的性能提高了近200倍。

“你可能聽說過GPU比CPU快100倍。這是錯誤的。”他補充說,“今天大多數推理都是在Xeons上運行的。”

超越傳統CPU?英特爾新一代AI芯片明年面世

Rao沒有提到Nvidia,他解釋說GPU在深度學習方面起了個好頭,但受限於嚴重的內存限制。 Xeon擁有更多的內存,可以擴展到批量大的內存,因此它更適合推理。

在現場,ZIVA CEO James Jacobs還介紹瞭如何將Xeons用於3D圖像渲染。

超越傳統CPU?英特爾新一代AI芯片明年面世

他也簡要地談到了FPGA加速

的問題,並表示英特爾正在研發一種“離散加速器”(discrete accelerator)進行推理,但沒有透露更多細節。

同時,還介紹了Intel Movidius的神經計算棒。它是一個U盤,可以運行使用TensorFlow和Caffe編寫的模型,耗電量大約一瓦。去年,英特爾公司決定終止其可穿戴設備,如智能手錶和健身腕帶。

超越傳統CPU?英特爾新一代AI芯片明年面世

現場還展示了一段用計算棒來進行AI作曲的DEMO,人類演奏者演奏一段曲子,AI能夠在這段曲子的基礎上進行創作。

超越傳統CPU?英特爾新一代AI芯片明年面世

英特爾去年宣佈神經網絡處理器(NNP)芯片。雖然沒有發佈任何基準測試結果,但英特爾表示將會有可供選擇的客戶。

Rao也沒有透露多少細節。不過,大家所知道的是,它包含12個基於其“Lake Crest”架構的內核,總共擁有32GB內存,在未公開的精度下性能達到40 TFLOPS,理論上的帶寬不足800納秒,在低延遲的互連上,每秒2.4兆的帶寬。

最後介紹了NNP L1000,Rao對它的介紹更少,這將是第一個商業NNP模型,並將在2019年推出。它將基於新的Spring Crest體系結構,預計將比之前的Lake Crest模型快3到4倍。

超越傳統CPU?英特爾新一代AI芯片明年面世

開發者大會的當天,英特爾官網發出一篇Rao的署名文章,對英特爾Nervana神經網絡處理器(NNP)進行了介紹。

Nervana NNP有一個明確的設計目標,可實現高計算利用率和支持多芯片互連的真模型並行。

行業裡討論了很多關於最大的理論性能,然而,實際情況是,除非體系結構有能夠支持這些計算元素的高利用率的儲存器子系統,否則大部分計算都是沒有意義的。此外,行業發佈的大部分性能數據使用的是大型矩陣,這些矩陣通常在現實世界的神經網絡中並不常見。

英特爾專注於為神經網絡創建一個平衡的架構,它還包括低延遲的高芯片到芯片帶寬。NNP系列的初始性能基準在利用率和互連方面顯示出強勁的競爭力。具體包括:

使用A(1536, 2048)和B(2048, 1536)矩陣進行矩陣乘法運算的一般矩陣,在單個芯片上實現了96.4個百分點的計算利用率。這代表了在單個芯片上的實際(非理論)性能的38TOP/s。支持模型並行訓練的多芯片分佈式GEMM操作實現了A(6144,2048)和B(2048,1536)矩陣大小的接近線性縮放和96.2%的縮放效率,使得多個NNP能夠連接在一起,並將我們從其他架構的內存限制中釋放出來。

我們測量了89.4 %的單方向芯片到芯片的效率,理論上的帶寬小於790ns(納秒)的延遲,並且將其應用於2.4Tb/s的高帶寬、低延遲互連。

超越傳統CPU?英特爾新一代AI芯片明年面世

所有這些都在單芯片總功率範圍內低於210瓦的情況下進行,這只是英特爾Nervana NNP(Lake Crest)原型。

英特爾將在2019年提供第一個商用NNP產品——英特爾Nervana NNP-L1000(Spring Crest)。

預計英特爾Nervana NNP-L1000的性能將達到第一代Lake Crest產品的3-4倍。

超越傳統CPU?英特爾新一代AI芯片明年面世

在英特爾Nervana NNP-L1000中,還將支持bfloat16,這是一種業界廣泛用於神經網絡的數字格式。

隨著時間的推移,英特爾將在其AI產品線上擴展bfloat16支持,包括英特爾Xeons處理器和英特爾FPGA。

原文鏈接:

https://www.theregister.co.uk/2018/05/23/intels_first_commercial_ai_chips_will_arrive_in_2019/

https://newsroom.intel.com/editorials/artificial-intelligence-requires-holistic-approach/?utm_campaign=2018-Q2-US-AI-IntelAIDevConGMC&utm_source=twitter&utm_medium=social&utm_content=AIDC2018&cid=2018-Q2-US-AI-IntelAIDevConGMC&spredfast-trk-id=sf190226187

大會直播回放:

https://www.youtube.com/watch?time_continue=432&v=cxWF6vFqOt0


【加入社群】


分享到:


相關文章: