華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

這是迄今為止華為推出的最強芯片。剛剛,華為在深圳宣佈其自研的 AI 訓練芯片「昇騰 910」正式上線。與此同時,一同推出的還有華為全場景 AI 計算框架 MindSpore。

華為表示,全新的人工智能芯片「昇騰 910」主要面向 AI 數據科學家和工程師,其算力已達到全球領先水平,遠超谷歌的 TPU v3 和英偉達最新的 GPU Tesla V100。配合 MindSpore 開源框架,華為一次滿足了終端、邊緣計算、雲全場景需求,讓芯片的強大算力能夠以最高效的方式被人們利用。

昇騰 910 也是華為「達芬奇架構」最大的一款芯片。去年 10 月,華為在全聯接大會(HC)上宣佈了達芬奇計劃,其中用於人工智能訓練的昇騰 910 芯片格外引人注目。它被認為是全球單芯片計算密度最大的 AI 芯片。今天,華為在深圳的發佈讓我們終於能夠和它見面,人們可以在華為雲服務中使用這些芯片了。

華為公司輪值董事長徐直軍表示,「華為自 2018 年 10 月發佈 AI 戰略以來,穩步而有序地推進戰略執行、產品研發及商用進程。昇騰 910、MindSpore 的推出,標誌著華為已完成全棧全場景 AI 解決方案的構建,也標誌著華為 AI 戰略的執行進入了新的階段。」

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

華為首款 AI 訓練芯片昇騰 910

面向服務器的芯片昇騰(Ascend)910 採用 7nm 製程,而設計功耗為 310W,其算力比英偉達 Tesla V100 還要高出一倍,半精度(FP16)達到了 256 TeraFLOPS(英偉達 Tesla V100 為 125),整數精度算力(INT8)則為 512TeraOPS。在這塊芯片上,華為還加入了 128 通道全高清視頻解碼器。此外,華為表示,昇騰 910 達到規格算力所需功耗僅 310W,明顯低於設計規格的 350W。

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

圖:昇騰910與谷歌TPU、英偉達v100對比

徐直軍表示:「昇騰 910 完全達到了設計規格,在同等功耗下擁有的算力資源,達到了業內最佳水平的兩倍。它已經應用在實際的服務中,比如在典型的 ResNet50 網絡的訓練中,昇騰 910 與 MindSpore 配合,與現有主流訓練單卡配合 TensorFlow 相比,顯示出接近 2 倍的性能提升,每秒處理的圖片數量從 965 張提升到了 1802 張。」

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

在發佈芯片的同時,華為還推出了大規模分佈式訓練系統 Ascend 集群,在設計中,該集群將包括 1024 個 Asced 910 芯片,算力達到 256P,大幅超過英偉達 DGX2 和谷歌 TPU 集群。

一次開發,全面部署:MindSpore

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

強大的硬件也需要 AI 開發框架才能釋放全部潛能,MindSpore 是華為提出的全場景 AI 框架,與 TensorFlow、PyTorch、PaddlePaddle 等框架並列。

未來的 AI 應用由任務驅動,在不同場景中機器學習模型的部署方式不同;另一方面,隨著技術的快速發展,新方法引出的安全問題和算力瓶頸成為了人們面臨的重要挑戰。

MindSpore 是一款支持端、邊、雲獨立的和協同的統一訓練和推理框架。華為希望通過這款完整的軟件堆棧,實現一次性算子開發、一致的開發和調試體驗,以此幫助開發者實現一次性開發,應用在所有設備端、邊緣及雲端平滑遷移的能力。

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

「MindSpore 框架支持從大到小的所有設備,同時也支持本地的 AI 計算,從而實現隱私保護,」徐直軍表示。「這種框架傳遞給雲端的數據可以是處理後的、不帶有隱私信息的梯度、模型信息,而非數據本身,以此實現在保證用戶隱私數據保護的前提下跨場景協同。除了隱私保護,MindSpore 還將模型保護 Built-in 到 AI 框架中,實現模型的安全可信。」

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

MindSpore 原生適應所有的 AI 應用場景,並能夠按需協同的基礎上,通過實現 AI 算法即代碼,使開發態變得更加友好,顯著減少模型開發時間。以一個 NLP(自然語言處理)典型網絡為例,相比其他框架,用 MindSpore 可降低核心代碼量 20%,開發門檻大大降低,效率整體提升 50% 以上。

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

MindSpore 和昇騰處理器結合可以顯著提高 AI 負載的處理效率,不過即使用戶採用常規的 CPU、GPU,這一框架也能提供全面支持。

在這一框架中,算子庫 CANN 面向人工智能不斷出現的多樣性算子,兼顧了高性能和高開發效率。TensorEngine 實現了統一的 DSL 接口、自動算子優化、自動算子生成,以及自動算子調優功能。值得一提的是,華為在 Tensor Engine 中採用了陳天奇等人提出的 TVM。華為稱,CANN 可以實現 3 倍的開發效率提升。華為表示,MindSpore 同時也支持目前所有主流深度學習框架中的模型。

在框架之上,華為還為開發者提供了更為高級的 ModelArts,這是一個機器學習 PaaS,提供全流程服務、分層分級 API 及預集成解決方案。去年發佈 ModelArts 後,目前的日均訓練作業任務超過 4000 個,已經擁有了超過 3 萬名開發者。

基於達芬奇架構的統一性,開發者在面對雲端、邊緣側、端側等全場景應用開發時,只需要進行一次算子開發和調試,就可以應用於不同平臺,大幅降低了遷移成本。

在發佈會上,徐直軍還宣佈 MindSpore 將在 2020 年的第一季度開源,希望以此助力每一位開發者,促進 AI 產業生態發展。「華為在生態建設上有自己的優勢,」徐直軍表示。「我們在智能終端上的 HiAI 引擎,可以讓所有開發者基於異構計算的算力實現多種智能化服務。通過最強算力和先進框架的結合,我們可以打造很多其他框架做不到的事情。」

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

隨著昇騰處理器和 MindSpore 等產品的推出,華為的全場景 AI 戰略已經向我們展現無餘。

華為達芬奇計劃

華為的達芬奇架構此前已經隨著昇騰 310 芯片,和 7 月份剛剛推出的麒麟 810 手機處理器為我們揭開了面紗。華為希望通過這一自研架構的多種處理器,接管未來人工智能場景中的所有計算任務。

在達芬奇架構的處理器中,Da Vinci Core 只是 NPU 的一個部分,Da Vinci Core 內部還細分成很多單元,包括核心的 3D Cube、Vector 向量計算單元、Scalar 標量計算單元等,它們各自負責不同的運算任務實現並行化計算模型,共同保障 AI 計算的高效處理。

華為史上最強芯片昇騰910面世,算力超Tesla V100一倍

其主要結構分為三個部分:

3D Cube 矩陣乘法單元。矩陣乘是 AI 計算的核心,這部分運算由 3D Cube 完成,Buffer L0A、L0B、L0C 則用於存儲輸入矩陣和輸出矩陣數據,負責向 Cube 計算單元輸送數據和存放計算結果。

向量計算單元雖然 Cube 的算力很強大,但只能完成矩陣乘運算,還有很多計算類型要依靠 Vector 向量計算單元來完成。Vector 的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定製的計算類型。

標量計算單元,主要負責 AI Core 的標量運算,功能上可以看作一個小 CPU,完成整個程序的循環控制,分支判斷,Cube、Vector 等指令的地址和參數計算以及基本的算術運算等。

華為稱,達芬奇架構適用於從手機端到智能設備,再到服務器端的全部人工智能模型訓練場景。在首款採用自研 NPU 的麒麟 810 上,華為已經展現了自己的 AI 芯片研發實力(搭載的手機是華為 Nova5 系列)。今天推出的昇騰 910 芯片是目前採用達芬奇架構最大、算力最強的一款芯片。

華為一直在加強投資基礎技術的研究,自 2018 年 10 月發佈 AI 戰略以來,一直在穩步推進戰略執行、產品研發及商用進程。昇騰 910、MindSpore 的推出,標誌著華為已完成全棧全場景 AI 解決方案的構建,也標誌著華為 AI 戰略的執行進入了新的階段。

昇騰 310 和昇騰 910 僅僅是一個開始,面向未來,華為還將推出更多的面向所有場景的產品。在 2021 年,華為還將推出下一代芯片昇騰 320,在 9 系列和 3 系列之間的昇騰 610 也將在明年推出。

最後,徐直軍表示:「在今年的華為全聯接大會上,我們還會發布更加震撼的 AI 產品。」此外,華為的下一代旗艦手機處理器麒麟 990 也將在 9 月 6 日與我們見面。

轉自公眾號 機器之心


分享到:


相關文章: