2017 中國 AI 服務器市佔率超 57%,看浪潮如何編織 AI 生態大網

隨著深度學習帶來 AI 的第三次浪潮,對 AI 的相關討論層出不窮,算法是大家關注的重點。

算法固然重要,但想做好 AI,還需要強大的底層支撐。谷歌在訓練 AlphaGo Zero 時,用到 2000 塊 TPU,僅僅花費三天就完成訓練。目前,企業 AI 化的需求不斷加深,需要有非常強大的計算平臺來有力支撐線上推理和線下訓練。

AI 計算平臺涉及到 GPU、CPU、TPU、FPGA 等硬件,每類硬件背後都有代表企業。英偉達 GPU 以卓越的性能,在 AI 計算中佔據了相當大的市場;英特爾在 CPU 上有得天獨厚的優勢,並擅長佈局生態,譬如將 CPU 與 FPGA 相結合;谷歌瞄準深度學習場景,發佈專用 TPU 加速器。

在 4 月的浪潮雲數據中心合作伙伴大會(IPF2018)上,浪潮首發面向 AI 雲設計的彈性 GPU 服務器 NF5468M5,可靈活支持 AI 模型的線下訓練和線上推理。(目前,浪潮在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中得分為 8 。)

2017 中国 AI 服务器市占率超 57%,看浪潮如何编织 AI 生态大网

圖:浪潮彈性 GPU 服務器 NF5468M5

這一服務器具備以下功能:

  • 面向線下訓練對性能的需求,可支持 8 顆最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互聯。

  • 面向在線推理對高能效比的需求,可支持 16 顆高能效比的 Tesla P4 GPU,適用於語音、圖片、視頻場景。

  • 在智能視頻分析場景下,可同時處理 300 路以上 1080p 高清視頻結構化。

  • 在數據存儲和通信性能方面,支持 288TB 大容量存儲或 32TB 固態存儲,能實現高達 400Gbps 的通信帶寬和 1us 的超低延遲。

據浪潮介紹,AI 雲對基礎架構的設計帶來了新的挑戰,要求 AI 服務器具備適合於不同 AI 訓練場景的 GPU 靈活拓撲、AI 線上推理的高併發低延遲與高能效比、大規模 AI 數據的存儲與通信能力。基於此,結合英偉達 GPU 芯片的良好性能以及穩健生態,浪潮做出一系列創新,推出 NF5468M5。

除了最新發布的 GPU 服務器 NF5468M5,浪潮的服務器還涉及 CPU、FPGA。浪潮通過實測數據,分析不同場景下人工智能計算對服務器的性能要求,合理搭配以 CPU、GPU 和 FPGA 為核心的 AI 計算服務器。以下是兩個典型案例。

適用於多個應用場景的 FPGA 加速設備 F10A

F10A 是一款 FPGA 加速設備。基於 FPGA 具有可編程專用性,高性能及低功耗的特點,浪潮 F10A AI 線上推理加速方案針對 CNN 卷積神經網絡的相關算法進行優化和固化,可加速 ResNet 等神經網絡,能夠應用於圖片分類、對象檢測和人臉識別等應用場景。

這一服務器的單芯片峰值運算能力為 1.5 TFlops,每瓦特性能達到 42 GFlops。同時,F10A 具有靈活的板卡內存配置,最大支持 32G 雙通道內存,能夠寄存更多的並行任務數據。

最大支持 64 塊 GPU 的 SR-AI

SR-AI 單機可實現支持 16 個 GPU 的超大擴展性節點,該方案最大支持 64 塊 GPU,峰值處理能力為 512 TFlop,可支持千億樣本、萬億參數級別的模型訓練。該服務器打破了傳統服務器的 GPU/CPU 緊耦合架構,通過 PCI-e Switch 節點連接上行的 CPU 計算/調度節點和下行的 GPU Box,實現 CPU/GPU 的獨立擴容,避免傳統架構升級帶來的部件過度冗餘,使得 GPU 擴展無需同步配置高成本的 IT 資源,可將成本優化 5% 以上,隨著規模上升,成本優勢更加明顯。

浪潮表示,在計算平臺的選擇上,企業可以在適合線下訓練的計算加速節點採用浪潮領先業界設計的浮點運算能力強、高擴展的 GPU 服務器,或 KNM 計算加速器,而用於線上識別的計算加速節點採用浪潮低功耗、高能效比的 GPU 服務器,或者低功耗定製優化推理程序的 FPGA 加速器。

2017 中国 AI 服务器市占率超 57%,看浪潮如何编织 AI 生态大网

圖:浪潮 GPU 服務器產品家族

對於浪潮在 AI 服務器上的成功,浪潮 AI&HPC 總經理劉軍將其歸功於三個方面,一是對 GPU 的佈局早,二是對行業客戶的把握——把互聯網作為主航道,三是產品創新的能力和效果有保證。

日前,浪潮也公開了企業 AI 策略。

2018 年 4 月 26 日,在浪潮雲數據中心合作伙伴大會 IPF2018 上,浪潮發佈全新 AI 品牌 TensorServer,明確傳遞浪潮對 AI 業務的決心與願景。浪潮集團副總裁彭震對 TensorServer 品牌予以了詮釋:「Tensor 是算法的基礎元素,Server 是計算力的基礎架構。AI 基礎架構對於 AI 產業持續快速健康發展至關重要。TensorServer 意在成為 AI 的承載者與賦能者,整合創新 AI 基礎架構系統,以計算開啟可進化的智慧世界。」

這裡的 AI 基礎架構系統涵蓋平臺、管理、框架、應用多個方面。

在 AI 管理上,浪潮部署 AIStation 人工智能深度學習集群管理軟件。AIStation 主要面向深度學習計算集群,提供數據處理、模型開發、模型訓練、推理服務全流程服務,支持多種深度學習框架,能夠快速部署深度學習訓練環境,全面管理深度學習訓練任務,為深度學習用戶提供高效易用的平臺。此外,這一軟件可以對計算集群的 CPU 及 GPU 資源進行統一的管理、調度及監控,有效的提高計算資源的利用率和生產率。

2017 中国 AI 服务器市占率超 57%,看浪潮如何编织 AI 生态大网

圖:AIStation 系統架構圖

作為補充,浪潮還自研 Teye 應用特徵分析系統。Teye 主要用於分析 AI 應用程序在 GPU 集群上運行時對硬件及系統資源佔用的情況,反映出應用程序的運行特徵、熱點及瓶頸,從而幫助用戶最大限度的在現有平臺挖掘應用的計算潛力,進而為應用程序的優化以及應用算法的調整改進提供科學的指引方向。

而在框架上,浪潮早在 2015 年就發佈 Caffe-MPI 深度學習計算框架,他們在 Caffe 架構的基礎上,針對並行擴展性做出一系列創新。

據雷鋒網瞭解,最新版本 Caffe-MPI 在 4 節點 16 塊 GPU 卡集群系統上訓練性能較單卡提升 13 倍,其每秒處理圖片數量是同配置集群運行的 TensorFlow 1.0 的近 2 倍。

Caffe-MPI 設計了兩層通信模式:節點內的 GPU 卡間通信及節點間的 RDMA 全局通信,這極大降低了網絡通信的壓力,並克服了傳統通信模式中 PCIE 與網絡之間帶寬不均衡的影響,同時 Caffe-MPI 還設計實現了計算和通信的重疊。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用戶可以無縫調用最新的 cuDNN 版本實現更大的性能提升。

除了自研深度學習框架,浪潮將深度學習框架及其依賴的庫統一進行資源封裝成一個鏡像,之後便可以在任何支持資源封裝的浪潮平臺上隨時加載鏡像,用戶可以立刻開始工作,其工作環境與原始環境完全一致,這可以有效提升生產力。目前,浪潮可封裝的框架資源基本涵蓋了主流的深度學習框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。

在應用加速上,雷鋒網瞭解到浪潮的解決方案如下:

  • 應用場景諮詢與系統方案設計

浪潮 AI 解決方案專家與客戶商討深度學習應用場景,共同分析計算熱點和瓶頸,幫助設計適合客戶應用場景的系統方案。

  • 應用代碼移植優化

浪潮異構應用專家可以幫助客戶分析 CPU 代碼特徵,辨別是否適合遷移至異構加速部件,並共同將代碼熱點進行移植優化,提升應用的計算效率,時間更短。

  • 計算加速部件性能橫向評測

浪潮針對 GPU/FPGA/KNM 等主流異構加速部件擁有成熟的橫向評測方法,可以幫助客戶選擇適合的部件。

目前,浪潮的解決方案為行業 AI 轉型提供賦能支撐。

2017 中国 AI 服务器市占率超 57%,看浪潮如何编织 AI 生态大网

此外,浪潮很早就開始與科大訊飛合作訓練語音神經網絡模型,從將模型訓練從 CPU 單機上擴展到多機,而後又開展如何在 FPGA 上運行語音神經網絡模型的研究,實現更高的性能。

目前,浪潮在計算平臺、管理套件、框架優化和應用加速上已經形成有機的 AI 生態。劉軍表示,對於渴望 AI 轉型的企業,從客觀看,極其需要這四層能力,而浪潮作為賦能者,能將這四層能力賦予這些企業,讓其更快速地實現 AI 落地。


分享到:


相關文章: