第三次AI浪潮革命,百萬倍算力挑戰大起底

【導讀】AI第三次浪潮革命是在算力激增的推動下發生的。Jeff Dean說我們需要超過現在100萬倍的算力,成為企業面臨的重大挑戰。本文通過硬件基礎、軟件基礎以及優化框架和應用加速4個方面,為您起底百萬倍算力挑戰。

AI這個詞,從第一次被創造出來至今,已經經歷了兩次浪潮。如今在算法、大數據、算力三大因素的驅動下,AI發展迎來第三次浪潮。

谷歌AI負責人Jeff Dean說:“事實證明,我們真正需要的是超過現在100萬倍的計算能力,而不僅僅是幾十倍的增長。”

算力為王的年代,企業需要滿足4個層次的需求:

  1. 硬件,一些計算平臺比如服務器、加速卡等。這是算力的物理根基,是滿足算力的第一步
  2. 軟件,構建在硬件之上的開發管理套件,提供整體解決方案,可以讓用戶無需掌握高深的AI知識,直接根據需要進行開發
  3. 優化主流框架,針對硬件和管理套件進行定製化,使得算力能夠更加快速穩定
  4. 應用加速,AI端到端的解決方案,將算力落地

這就給傳統企業帶來了前所未有的挑戰。一方面,越來越多的傳統企業需要儘快轉型AI;另一方面,傳統企業已經無法應對AI時代的算力挑戰。

提高整個AI計算系統的性能與效率迫在眉睫,而首當其衝的,就是服務器和加速卡。

解決算力需求的硬件基礎:服務器和加速卡

企業的規模越大,數據的集中度就越高,對AI計算力的需求也就越高,對AI服務器的需求也就約旺盛。

根據國際調研公司(IDC)全球季度服務器跟蹤報告,2018年第三季度全球服務器市場,供應商收入達234億美元(約1581億人民幣),同比增長37.7%。全球服務器出貨量320萬臺,同比增長18.3%。

在全球服務器市場,排名前五的分別是:DELL EMC第一、HPE/New H3C Group第二、Inspur/Inspur Power第三、Lenovo第四、 IBM,Huawei和Cisco並列第五。

具體數據如下圖:

第三次AI浪潮革命,百萬倍算力挑戰大起底


可以看到,在服務器市場TOP 5的7家廠商中,浪潮表現的最為亮眼,出貨量同比增長90.2%,營收增長達增長156.5%

而根據IDC《2018上半年中國AI基礎架構市場報告》,2018上半年浪潮AI服務器銷售額2.79億美元,銷售量11,713臺,繼續保持中國市場第一,銷售額份額為51.4%。

杭州的阿里,北京的京東、字節跳動(今日頭條)、百度,深圳的騰訊,都對當地AI計算力產生巨大的需求。

能夠勝任BAT算力要求的企業不多。在AI算力供應商的問題上,BAT紛紛選擇了浪潮。

浪潮能夠連續多年成為BAT最主要的AI服務器供應商,靠的是不斷提升計算能力的AI服務器:

AI超級服務器AGX-5,單機配置16顆NVIDIA Tesla® V100 Tensor Core 32GB GPUs,AI計算性能高達每秒2千萬億次,可支持4倍超大規模深度神經網絡模型,並將訓練速度提高10倍

第三次AI浪潮革命,百萬倍算力挑戰大起底


AGX-2服務器,採用P100的Linpack浮點運算性能達29.33TFLOPS,在2U空間內支持部署8塊NVLink或PCI-E。在AI深度學習模型訓練上,採用TensorFlow框架和GoogLeNet模型,AGX-2處理速度為每秒1165幅圖片。

智能視頻分析服務器NF5280M5-V,在2U空間內配置8片NVIDIA TESLA P4 GPU,單臺服務器即可完成96路高清攝像頭視頻數據的解碼及結構化實時處理需求。同時最大可提供96TB本地存儲空間,可將視頻處理數據的保存週期最高延長至6個月。

彈性GPU服務器NF5468M5,專注於AI雲。可同時處理300路以上1080p高清視頻結構化,支持288TB大容量存儲或32TB固態存儲,實現高達400Gbps通信帶寬和1us的超低延遲。

這些服務器,同時也在為科大訊飛、商湯、曠視、字節跳動、滴滴等AI領先公司,在語音、圖像、視頻、搜索、網絡等方面提供了算力支持。

除了AI服務器,浪潮還發布了全球首款集成HBM2高速緩存FPGA AI加速卡F37X,可在不到75W典型應用功耗提供28.1TOPS的INT8計算性能和460GB/s的超高數據帶寬,實現高性能、高帶寬、低延遲、低功耗的AI計算加速。

有了AI服務器和加速卡,僅僅是解決了算力需求的第一步:硬件基礎設施。接下來,就需要管理套件的跟進,實現軟件平臺基礎。

解決算力需求的軟件基礎:AI開發平臺

解決了算力的硬件基礎,企業還需要解決快速構建AI開發平臺,進行人工智能產業佈局的難題。

這個時候,一套能夠實現對計算、存儲、網絡等基礎資源的管理和調度的完整解決方案就非常必要了。

浪潮升級了AI高效開發管理平臺AIStation,致力於提供高效、易用的人工智能開發平臺。

同時AIStation還集成了主流的AI開源框架和深度學習模型,提供完整的AI開發工作流服務。

除了AIStation外,浪潮還發布了OpenStack AI雲平臺。

根據工信部華信研究院提供的數據顯示,2018年OpenStack佔據私有云60%的市場。

OpenStack AI雲平臺

可幫助行業AI用戶快速便捷的構建CPU+GPU的彈性異構雲環境,並實現對異構計算資源池的動態調度與分配,支撐數據管理、模型訓練、模型部署等各類AI應用場景。

通過對GPU虛擬機的支持,浪潮OpenStack AI雲平臺能夠以多租戶的形式,按需分配異構計算資源,從而實現AI敏捷開發。

同時,多租戶任務排隊策略、資源分組優化策略、租戶資源配額集均衡策略以及GPU共享策略等精細化調度策略,也進一步提高了GPU資源的利用率。

有了管理套件後,接下來就應該深入到更細節的框架優化中了。

進一步提升算力方法:框架優化

要滿足算力的不斷提升,舊有的計算框架已經無法滿足新的性能需求,需要不斷的進行優化。

目前使用比較廣的框架包括TensorFlow、PyTorch和Caffe。

TensorFlow是一款強大而成熟的深度學習框架,有強大的可視化性能,以及用於高水平模型開發的多個選項。它具備產就緒的部署選項,支持移動平臺。

Caffe用來做計算機視覺,HPC和數值優化的研究,加上產品線裡的高效部署。

PyTorch用來做非常dynamic的研究加上對速度要求不高的產品。

對於企業來說,由於TF和Caffe的高效部署選項,基於TF和Caffe的框架優化就顯得更有意義。

浪潮針對TF和Caffe推出了Caffe-MPI, TensorFlow-Opt, FPGA計算加速引擎TF2等優化方案。

Caffe-MPI

Caffe-MPI是全球首個集群並行版的Caffe深度學習計算開源框架,針對高性能計算系統設計使之具備良好的並行擴展性。

新版本在4節點16塊GPU卡集群系統上訓練性能較單卡提升13倍,其每秒處理圖片數量是同配置集群運行的TensorFlow 1.0的近2倍。

Caffe-MPI設計了兩層通信模式,非常適合現在的高密度GPU服務器。同時Caffe-MPI還設計實現了計算和通信的重疊,提供了更好的cuDNN兼容性,用戶可以無縫調用最新的cuDNN版本實現更大的性能提升。

TensorFlow-Opt

TensorFlow-Opt已完成了ResNet-50、ResNet-101和VGG16(batch size=128 & 256)等多個網絡模型的測試。

其中,在ResNet-50網絡模型下(單卡batchsize=256),512塊GPU每秒可訓練128336張圖片,即訓練完成一個完整的ImageNet數據集(128萬張圖片)只需要約10秒時間,打破了AI訓練性能世界紀錄。

FPGA計算加速引擎TF2

FPGA計算加速引擎TF2支持TensorFlow,可幫助AI客戶快速實現基於主流AI訓練軟件和深度神經網絡模型DNN的FPGA線上推理,並通過全球首創的FPGA上DNN的移位運算技術獲得AI應用的高性能和低延遲。

TF2計算加速引擎提高了FPGA上AI計算性能,降低了FPGA的AI軟件實現門檻,將支持FPGA廣泛應用於AI生態推動更多AI應用落地。

經過AI服務器提供算力的硬件基礎,管理套件提供軟件平臺基礎,優化框架保證緊跟算力不斷增長的需求,最後就是為應用提供加速。

實現算力需求的落地應用:案例解析

目前,浪潮在智能視頻分析、醫療影像、電力設備巡檢、金融匯率預測、語音識別、AI雲等應用中,已經有了很多成功案例。

成功案例一:智能安防

視頻科技領域AI應用的場景化非常分散,需要提煉應用場景,根據應用規模,在解決方案中按需靈活組合各種產品。

浪潮人工智能專家團隊與大華合作建立了超強計算力為核心的計算平臺和計算集群單元。

在硬件上,使用AGX-2集群來處理視頻相關業務計算。在管理套件上,針對智能安防的應用場景,定製開發了AIstation管理平臺。

優化後的AIStation平臺,可以秒級構建AI環境,實現GPU資源智能調度,整體效率大幅提升,降低運維成本。

目前大華股份與浪潮已經在智慧城市、雪亮工程、平安城市等多個領域共同打造信息化聯合解決方案,共同促進智能物聯網行業智能化、信息化轉型升級和跨域發展。

成功案例二:首鋼園落地項目

北京首鋼自動化信息技術有限公司,採用了浪潮和百度聯合推出的ABC一體機3.0的鋼包質檢解決方案後,10000張鋼材照片的整體缺陷識別分類準確率達到99%以上,比人工專業檢測的準確率更高。

成功案例三:語音識別一體機

浪潮與科大訊飛聯合發佈了面向於語音識別、翻譯等AI應用的16卡計算集群“AI Booster”,單套系統能夠實現單精度240TFlops/s或Int8 752TFlops/s的計算性能。

雙方公佈的實測數據顯示,在智能翻譯模型訓練任務中,採用相同計算卡的“AI Booster”與傳統4卡服務器組成的16卡集群相比,AI計算加速比提升18%。

解決算力需求的長期戰略:人才培養

除了技術問題,傳統行業AI轉型還面臨AI人才的短缺。在培養人才問題上,浪潮也在積極提供解決方案。

去年在AICC人工智能計算大會上開辦集訓營,提供了現場動手實踐的課程。

打比賽也是一個很好的吸引大學生投入AI學習中的方式。世界三大超算競賽之一的ASC,就是一個很好的例子。

AIStation也可以應用在AI人才培養方面。在AIStation上集成課件、實驗題目、網絡模型、框架和數據集,老師可以給學生開通帳號,做題目,看課件,快速完成AI能力的掌握。

除此以外,浪潮還在做教材的開發,預計今年會有正式出版的版本。

依靠算力推動AI生態發展

通過發佈AI子品牌TensorServer、推出AI計算生態計劃Plan T,浪潮在不斷的推動AI應用落地。

在整個AI生態中,需要強大計算力來連接芯片提供商、應用提供商、服務提供商和算法提供商,計算力是一切AI產業發展的核心,是AI產業發展的基石。

浪潮為AI生態提供強大的計算力支撐,並攜手百度、科大訊飛、寬邦、第四範式等夥伴夥伴,推出聯合解決方案,共同推動AI生態,賦能傳統行業智慧轉型。

我們有理由相信在未來,將會讓更多行業真正享受到AI技術的好處。


分享到:


相關文章: