能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

芯潮(ID:aichip001)編 | 雲鵬

芯潮11月25日消息,日本AI創企Preferred Networks(PFN)在美國科羅拉多州丹佛市舉行的2019全球超級計算大會上展示了定製AI訓練芯片MN-Core,可以在500W的功耗基礎上實現524TFLOPS算力,計算功率效率達到了1.05 TFLOPS / W,超過NV Tesla V100、華為昇騰910等AI芯片的能效比。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

PFN成立於2014年,總部位於日本東京,目前已籌集了約1.3億美元,其中日本豐田(Toyota)公司投資了9,660萬美元。PFN主要致力於通過深度學習技術為邊緣和物聯網提供算力支持。此次展示的MN-Core基於臺積電12nm工藝製造。以下是對WikiChipFuse相關報道的原文編譯。

01、MN系列超級計算機已迭代兩次

在全球超級計算機大會中PFN的展位上,我們會見了東京大學名譽教授Kei Hiraki。Hiraki教授一直參與PFN的MN-Core的開發。Hiraki解釋說,PFN已經開發了一系列專用超級計算機,以加速其自己的應用程序的研發,這些應用程序使用大量的計算能力來進行深度學習。

該公司於2017年推出了首個AI超級計算機MN-1。該系統具有1,024個Nvidia Tesla P100 GPU,可達到1.39 PFLOPS和9.3PFLOPS的峰值計算量。當時,MN-1在工業超級計算機的TOP500上在日本排名第一,在世界排名第十二。

在2018年7月,PFN通過添加512個額外的Tesla V100 GPU增強了MN-1。較新的系統MN-1b將深度學習(張量)的計算能力提高到56 PFLOPS。

今年早些時候,PFN推出了迄今為止最大的超級計算機MN-2。該系統於2019年7月投入運行,該系統將V100 GPU的數量增加了一倍,並從PCIe卡切換為SXM2模塊。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲歷代PFN超級計算機

02、MN-Core兼顧高性能與低功耗

PFN下一代超級計算機更加有趣。Hiraki教授解釋說,PFN決定開發自己的專有深度學習加速器,以實現更高的性能,更重要的是實現更高的電源效率。

他們設計的是500瓦芯片,Hiraki表示這是在可能的冷卻極限內進行的。該芯片本身在一個多芯片封裝中包含四個內核。內核是根據公司自己的設計,以臺積電12nm工藝製造。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲MN-Core

在上面的芯片照片中,芯片上刻有單詞“ GRAPE-PFN2”。儘管尚不清楚刻制的原因,但似乎有些體系架構源自GRAPE-DR。還需要指出的是,PFN團隊的成員以前曾在GRAPE-DR物理協處理器(physics coprocessor)項目中工作,包括Hiraki教授。

MN-Core封裝尺寸比較大,為85*85mm。內核面積也非常大,達到756.7mm²。在500 W功耗時,該芯片的算力為524TFLOPS。這為他們提供了1.05 TFLOPS / W的計算功率效率,這正是他們的目標。

該體系結構類似於GRAPE協處理器(coprocessor)的體系結構。儘管對各個區塊進行了調整以用於訓練任務,但各個區塊的名稱都很相似,並且總體操作非常相似。

MN-Core有DRAM I / F,PICe I / F和4個L2B區塊。每個L2B中有8個L1B和1個區塊存儲器(block memory)。一級區塊包括16個矩陣算術區塊(MAB)以及其自己的區塊存儲器。矩陣算術單元(matrix arithmetic units)和4個處理元件(PE)組成一個MAB。每個芯片總共有512個MAB。

各個PE將數據傳遞給MAU,PE包含一個ALU並實現了PFN專門使用的許多自定義DL功能。PE的基本數據類型操作是16位浮點數,通過組合多個PE可以支持更高精度的操作。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲MN-Core內部架構圖

03、2 EFLOPS算力超算MN-3將使用MN-Core

MN-Core芯片本身位於MN-Core板上,後者是一種PFN設計的基於PCIe的定製加速器板。Hiraki教授表示,芯片功耗為500W,0.55 V,有1000 A電流流經電路板,而封裝對設計構成了重大挑戰。

該板本身是x16 PCIe Gen 3.0卡,其中集成了MN-Core芯片,32 GiB內存以及定製設計的散熱器和風扇。PFN估計該卡的功耗約為600瓦。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲搭載MN-Core的板卡

在MN-Core服務器(一個7U機架式機箱)上安裝了四個MN-Core板。每個服務器中都有一個雙插槽CPU。四個板使它們每秒可以達到2 PFLOPS的半精度浮點運算。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲MN-Core板卡和服務器規格

PFN計劃在每個機架(rack)上堆疊其4臺服務器。他們的下一代超級計算機MN-3將基於MN-Core。

能效比秒殺華為昇騰910!日本創企PFN展示MN-Core AI芯片

▲MN-3超算概念圖

PFN目前沒有出售這種芯片的計劃。MN-Core芯片和他們的超級計算機將專門用於自己的研發。

PFN預計MN-3擁有約300個機架,可用於4800個MN-Core板。這相當於每秒2 EFLOPS的算力。在功耗方面,PFN估計該機器的功率為3.36 MW,對於這種性能而言這是非常低的。例如,擁有1.88 EFLOPS算力的IBM Summit超級計算機功率為13MW。MN-3計劃於2020年投入運營。

目前Google和Amazon等超大規模用戶(hyperscalers)為自己的雲服務器開發了自定義神經處理器(custom neural processors)。類似的趨勢正在行業中出現,諸如Preferred Networks之類的公司設計了自己的NPU。

他們的目的都是相同的——通過設計和研發自己芯片,以便擁有獨特的,與眾不同的技術優勢。目前,只有少數幾家AI硬件初創公司推出了AI推理芯片,而沒有一家初創公司交付AI訓練芯片。這種專業訓練芯片的缺乏,給可以製造超越當前頂級訓練GPU能效比的AI芯片的公司帶來了獨特的機遇。

隨著越來越多的企業進入AI訓練芯片領域,整個市場格局可能將會發生變化。

結語:AI芯片自研——掌握技術優勢的核心

此次PFN推出的MN-Core AI訓練芯片,無論在絕對算力還是能效比方面都處於全球領先行列,不過該公司準備將這項成果掌握在自己手中,用於後續研發,之後是否會商用還未表態。

提高芯片的算力和深度學習推理能力是當下的大趨勢,MN-Core的推出豐富了當下相對匱乏的AI訓練芯片市場,為大規模超算提供了一種新的解決方案。

無論是谷歌、華為、英偉達、英特爾,都將自研AI芯片作為重點發力方向之一,唯有掌握“核心”,才能掌握核心技術優勢。AI芯片算力市場,亟待更多新力量加入。

原文來自:WikiChipFuse


分享到:


相關文章: