SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

每十年性能增長約1000倍,這是HPC(高性能計算)領域的“千倍定律”,背後則是計算力對於AI、大數據等新興工作負載的不斷滿足,作為GPU領域的領導企業,英偉達也在深耕多年後迎來了收穫:在TOP500位列榜首的超算系統Summit中,英偉達GPU提供了95%計算力。然而,英偉達要做的並不止是“計算力提供商”,而是要將基於GPU的領導力擴展到更廣闊的多樣化計算和雲生態,以打造人工智能時代的現代化基礎設施。在SC19上,NVIDIA創始人兼首席執行官黃仁勳發佈了用於構建GPU加速Arm服務器的參考設計,並且宣佈微軟在Microsoft Azure上部署了NDv2超大型實例,這被認為是“全球最大的GPU加速的雲端超級計算機”。同時,英偉達還推出了NVIDIA Magnum IO軟件套件,幫助數據科學家及AI和高性能計算研究者解決數據瓶頸問題。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

NVIDIA創始人兼首席執行官黃仁勳

“高性能計算領域正在同時朝各個方向擴展,實際上高性能計算已無處不在,比如超級計算中心、雲和邊緣等等。”在黃仁勳看來,HPC市場的變化充斥在各個方面:基於大量傳感器陣列的高性能流式計算、使用邊緣計算進行更復雜的篩選、在雲端運行高性能計算、使用AI加速高性能計算等等。其中,HPC與AI相互促進的融合發展堪稱近年來的一大亮點。上個月,黃仁勳宣佈NVIDIA正在與Ericsson、微軟、Red Hat等公司合作,利用NVIDIA EGX邊緣超級計算平臺為企業和5G電信網絡邊緣AI提供支持。本月初,美國郵政署宣佈將採用NVIDIA的端到端AI技術,其每天要處理近5億封郵件。目前,首批AI超級計算機已經推動了聚變能、引力波等多個領域的科學研究。

值得一提的是,黃仁勳在演講環節還在現場展示了全球最大的交互式立體可視化項目——與NASA一起模擬火星著陸。該模擬的內容是讓一個體積大小約為一棟雙層公寓、且正在以時速12000英里的速度飛行著的飛行器在七分鐘內安全地停下,然後著陸。據瞭解,該模擬以隨機存取的方式傳輸150 TB數據,數據量相當於12.5萬張DVD的數據存儲量之和。為此,英偉達還在超級計算機旁配備了一臺超級計算分析儀器。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

約1400名研究者和技術人員在現場聆聽了NVIDIA的主題演講

加速Arm生態超算構建

Arm正在成為HPC領域的新選擇,此前日本就曾透露下一代Kyo HPC的處理器會從SPARC64架構全面轉向Arm架構,這是Arm在E級超算時代的一次嘗試。而其製造商富士通也研發出了採用512bit浮點運算單元的ARMv8 SVE芯片。與此同時,基於Arm架構的計算設備也超過千億臺。或許是看到了這一趨勢,英偉達在年初為Arm帶來了CUDA-X軟件平臺。在SC19上,英偉達發佈的參考設計平臺可以使企業能夠快速構建GPU加速的Arm服務器,該平臺由硬件和軟件基礎模塊組成,英偉達將提供Arm兼容軟件開發套件的預覽版本,該版本包含NVIDIA CUDA-X庫和加速計算開發工具。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

CUDA對Arm生態的支持

為了構建這一參考平臺,英偉達與Arm及其生態合作伙伴(Ampere、富士通、Marvell等)聯手,以確保NVIDIA GPU與Arm處理器之間的無縫協作。該參考平臺還得益於與HPE旗下公司Cray和HPE這兩家早期採用Arm服務器的供應商之間的緊密合作。此外,很多高性能計算軟件公司已使用NVIDIA CUDA-X庫來構建可在Arm服務器上運行、並可通過GPU實現的管理和監控工具。這些合作伙伴包括GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso、Relion等。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

NVIDIA構建GPU加速的ARM服務器

為了讓Arm平臺上的應用實現GPU加速,英偉達及其高性能計算應用生態合作伙伴還編譯了大量代碼。除了應用層面的合作,英偉達還與Canonical、Red Hat、SUSE強化了基礎開發工具。正是有了如此廣泛的生態,才推動了像美國橡樹嶺國家實驗室和桑迪亞國家實驗室、英國布里斯托大學、日本理化學研究所等機構或組織在GPU加速Arm計算系統上的測試和應用。目前,已啟動並開始運行的應用已有30個。

“在HPE、Marvell和NVIDIA的幫助下,橡樹嶺國家實驗室(Oak Ridge National Laboratory)成功完成了所負責的工作,迅速升級了Arm測試系統,整合性能測試並取得了良好的成果。短短兩週內,我們編譯並正確運行了約八個領先級應用程序,三個重要的社區庫,以及常被用於評估Arm高性能計算生態的基準套件。”美國橡樹嶺國家實驗室國家計算科學中心科學主任Jack C. Wells談到,“對於Arm的加速計算生態而言,這是一個了不起的開始。”

攜手微軟打造“最大規模雲超算”

以雲的方式將大規模AI訓練或推理集群的資源共享出來,配合異構環境的基礎設施、高性能軟件棧,成為了當前的一大趨勢,雲計算業務也成為了英偉達新的增長動力,這種HPC“軟件化”的方式促進了超算的普惠。就像黃仁勳在發佈Microsoft Azure上的GPU超級計算機NDv2時所說的,“這讓全球每一位科學家都擁有了一臺超級計算機”,使用者只需打開實例、啟動容器中的堆棧即可藉助HPC來開展科學研究,這意味著研究人員可以按需租用整臺AI超算,其功能與那些需要長達數月部署時間的大型本地超級計算機相匹配。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

NVIDIA發佈Microsoft Azure雲端可擴展型GPU加速超級計算機

據瞭解,Azure NDv2實例專為處理要求苛刻的AI和高性能計算應用而設計,能夠在一個Mellanox InfiniBand後端網絡上提供800個互聯的NVIDIA V100 Tensor Core GPU,相信這也是英偉達收購Mellanox後在組件互聯上取得的新進展。對於想要快速構建AI解決方案的開發者來說,可以迅速啟動多個Azure NDv2實例,在數小時內完成複雜的會話式AI模型訓練。相比基於CPU的傳統運算方式,具有顯著的性能和成本優勢,適用於複雜的AI、機器學習和高性能計算工作負載

此前,微軟和NVIDIA的工程師已在該集群的預覽版本上使用64個NDv2實例進行了實驗。他們使用約三小時完成了BERT會話式AI模型的訓練,實現這一速度的原因之一是使用了NCCL(一款NVIDIA CUDA X庫)提供的多GPU優化,以及高速Mellanox互聯解決方案。

另一個優勢是,客戶可以使用多個NDv2實例運行復雜的高性能計算工作負載。以LAMMPS為例,這是一種流行的分子動力學應用程序,用於在藥物開發和探索等領域中模擬原子級物質。相較專用於特定應用程序(如深度學習)、未使用GPU的 HPC計算節點,單個NDv2實例可實現一個數量級的速度提升。如果需要進行大規模的模擬,還可以將這一性能線性擴展至一百個實例。

此外,所有NDv2實例都能夠受益於NVIDIA NGC容器註冊表和Azure Marketplace所提供的TensorFlow、PyTorch和MxNet等GPU優化高性能計算應用、機器學習軟件及深度學習框架。該註冊表還提供Helm圖表,使得用戶在Kubernetes集群上輕鬆部署AI軟件。目前,NDv2已推出預覽版本,一個實例包含8個NVIDIA V100 GPU,可組成集群,根據不同的工作負載需求進行擴展。

讓數據駛上高速公路

如何讓海量的數據在有限的核心區域快速交互,對存儲部件的互聯有著很高的要求,這也直接影響了系統的性能表現。為此,英偉達推出了NVIDIA Magnum IO軟件套件,以幫助數據科學家,以及AI和高性能計算的研究者,可以在數分鐘內處理好以往需要數小時才能處理完的海量數據。

Magnum IO專為解決存儲和I/O瓶頸進行了優化,優化後在執行財務分析、氣候建模等複雜、需要處理大量數據集的高性能計算工作負載時,多服務器、多GPU計算節點的數據處理速度較之前提升20倍。這一成績的實現,與NVIDIA和DataDirect Networks、Excelero、IBM、Mellanox、WekaIO等網絡或存儲企業的合作密不可分。

SC19:發力Arm 攜手Azure 英偉達踏上超算新徵程

NVIDIA Magnum IO軟件套件

作為Magnum IO的核心, GPUDirect Storage為數據提供了一條路徑,該路徑可以繞過CPU,在GPU、存儲和網絡設備所提供的“開放式高速公路”上進行傳輸,快速訪問用於模擬、分析或可視化的數據文件。GPUDirect由點對點和RDMA組件組成,兼容多種通信互聯產品與API,包括NVIDIA NVLink、NCCL、OpenMPI和UCX。目前,Magnum IO軟件已經上市,GPUDirect Storage則僅為部分用戶提供了早期訪問權限,英偉達計劃在2020年上半年向所有客戶提供GPUDirect Storage。

DDN首席研究官Sven Oehme表示:“最新的HPC和AI研究依靠的是海量數據,其數據規模通常都超過PB級,因此需要更高級的領先技術才能最有效應對這一挑戰。DDN使用NVIDIA的Magnum IO軟件套件,以及我們的並行EXA5存儲結構開闢了新的直接數據路徑,使GPU在高帶寬下可以直接訪問PB級數據存儲。這種方法在以前是不可能實現的。”

結語

在英偉達看來,高性能計算的下一步將會是使用大量軟件定義傳感器,將數據優先發送到可編程的邊緣計算機,然後將其中最相關的數據發送到超級計算機,最終由超級計算機從海量的實時數據中獲取洞察。要想在這些數據中獲取價值,不僅需要數萬個計算節點的智能超算,同樣需要以多元化的方式擴展HPC的開發、部署、實踐場景,只有這樣才能迎來更為廣闊的天地。而英偉達作為在算力服務領域的開拓者,也在不斷將更多的技術創新融入用於HPC的GPU,希望以此在現代AI所處的全新計算時代尋求更大的突破。


分享到:


相關文章: