上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

智東西(公眾號:zhidxcom)文 | 心緣

隨著AI發展如火如荼,高校作為基礎研究的主陣地,正扛起推進AI研發和應用的大旗,如何構建AI所需的超高算力並加速科研成果轉化早已提上日程。

就在去年11月,國內高校最強AI計算平臺正式開放,峰值算力達16PFLOPS,面向上海交通大學各院系和科研機構提供高效的算力支撐。

這一AI計算平臺由上海交通大學網絡信息中心計算部(以下簡稱“計算部”)打造,目前已支持20多位研究團隊開展AI和典型HPC等科研創新應用工作。

近日,智東西與上海交通大學網絡信息中心工程師程盛淦進行深入交流,試圖瞭解國內高校最強AI計算平臺背後的故事。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

▲上海交通大學網絡信息中心機房

一、國內高校最早AI計算平臺,全隊列使用率接近100%

上海交大網絡信息中心的前身是上海交通大學計算中心,始建於1973年,是我國高校建立最早、規模最大的計算中心之一。

早在2013年,該中心就搭建了超級計算機π1.0,這是一臺異構HPC系統,峰值性能達262TFLOPS,在2013年6月全球TOP500超算排行榜中位列第158名,是當時的國內高校第一、上海市地區第一。

當AI研發風潮席捲學術圈,更多院系希望藉助AI加速推進自己的研發成果,有限的算力資源和繁複的硬件部署流程成為擋在他們面前的主要阻礙。

此時,一個穩定成熟且擁有強大算力基礎的資源調度平臺成為剛需,它可以按需進行AI算力供給和分配,同時有專門的技術和運維團隊予以支持。

這將使更多研究團隊在滿足AI計算需求的同時,無需自行購買硬件設備,也不必在環境配置和應用部署耗費時間,而是更加專注於自己的科研項目本身。

作為是國內早涉足AI領域的高校之一,上海交通大學有著豐富的AI計算需求。

恰逢超級計算機迭代之際,上海交通大學AI計算平臺即依託從2018年開始立項的π2.0來建設,它也是國內最早搭建的高校統一AI計算平臺之一。

上海交大AI計算平臺面向全校提供穩定強大的GPU資源調度,同時也支持校外用戶來申請計算資源,峰值算力達16PFLOPS。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

▲上海交通大學網絡信息中心服務器

π2.0集群從2019年4年正式啟動設備的安裝部署,程盛淦也是在此期間開始參與這一新項目的推進。經過機房改造、擴容製冷設備、安裝調試等一系列流程,π2.0自2019年11月起正式向校內開放。

程盛淦透露說,2019年12月上海交大AI計算平臺整個隊列的使用率接近100%,GPU利用率達到70%,AI相關負載達到75%,其餘25%是一些高性能計算負載。

二、搭建AI計算平臺,上海交大的三個優勢

在高校科研環境中,搭建AI計算平臺並非易事,至少面臨三方面的挑戰。

其一,海量數據和巨大計算需求。AI和HPC都需要海量數據,要求AI計算平臺具備較高數據處理能力、存儲能力和網絡能力。

其二,環境配置。AI和HPC應用的框架、庫、驅動程序等複雜組件更新迭代速度很快,需消耗大量人力來維護和編寫整個平臺的軟件棧。

其三,資源調度。AI計算平臺需具備完善的資源調度系統和強健的集群管理工具,能夠靈活調度集群算力資源,避免不同負載間相互干擾,提升應用運行效率。

不過,這對於擁有多年集群部署經驗的交大計算部來說並非難事。程盛淦表示,在打造AI計算平臺方面,其團隊有三個核心優勢

首先,在搭建第一代超級計算機π 1.0時,網絡信息中心已經積累了豐厚的用戶基礎、強大的運維團隊和成熟的集群管理經驗,能夠確保集群系統的穩定運行。

其次,上海交大是最早開始提供GPU計算服務的高校之一。

GPU擅長處理大規模深度學習訓練以及部分典型HPC任務,而上海交大在採用GPU做基礎科學研究方面有多年的積累,對先進GPU設備和校內計算需求都有較好的理解。

此外,計算部還提出一個創新的“交大型”服務模式。

計算部藉助超級計算機π向高水平科研用戶提供豐富的技術支持,和多學科研究進行緊密融合,支撐和催化學校的科研發展。

三、高算力集群背後:DGX-2帶來性能爆發

聚焦到AI計算平臺本身,這麼高的算力如何實現呢?在部署底層基礎設施的過程中,上海交大計算部又曾站在哪些選擇的交叉口上?

從和程盛淦的交流中,我們提煉了其中較為重要的三點。

1、硬件選型:8臺DGX-2,打造超強AI算力集群

由於GPU在深度學習訓練性能和完整的生態上,相比其他計算設備優勢更明顯,交大計算部選擇使用8臺NVIDIA DGX-2服務器來提供底層算力支撐。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

▲NVIDIA DGX-2機櫃

這一選擇主要有兩方面考量。一是GPU在深度學習訓練性能和完整的生態上本身具備優勢,二是上海交大在使用GPU計算設備和搭建計算機集群上有長期經驗。

而DGX-2又是NVIDIA GPU超高計算和存儲能力的集大成者,NVIDIA通過採用多種互聯技術,有效提升GPU間以及集群間的互聯帶寬。

每臺DGX-2內置16張NVIDIA Tesla V100 GPU,程盛淦特別提到,DGX-2搭載了NVIDIA NVSwitch創新互聯技術,最多可支持16塊GPU互聯,並將GPU間的總雙路帶寬提升到2.4TB/s。

DGX-2還採用了可擴展架構,使得模型的複雜性和應用的規模不受傳統架構侷限性的限制,8臺DGX-2就使得深度學習張量計算能力達到16PFLOPS,本地NVMe存儲達到300TB,從而可以應對眾多複雜的AI和HPC的挑戰。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

DGX-2的硬件性能優勢,使其可以支持此前GPU服務器難以支持的大規模AI和HPC應用。

比如,上海交大生命科學學院的一個團隊在做針對單顆粒冷凍電鏡圖片處理的軟件框架Relion,用到的數據集量級高達1TB。這對普通GPU服務器來說過於龐大,但在上海交大AI計算平臺的幫助下,該團隊通過使用DGX-2全機6節點8卡的配置,順利完成了計算任務。

2、軟件優化:協同硬件,提升GPU有效利用率

有了高性能的硬件基礎設施,還要思考如何能更好保障GPU有效利用率。對此,程盛淦所在的團隊重點做了三方面的工作。

(1)搭建了DGX-2和π 2.0集群共享的並行文件系統,這個文件系統加上DGX-2本地NVMe存儲,保證數據傳輸速率能承擔大規模數據量處理任務。

(2)根據AI計算平臺的實際情況,採用SLURM作業調度系統和Singularity容器技術相結合的方式, 保證用戶作業相對獨立,有效實現資源隔離,以最高的效率為用戶提供最佳性能的應用支持。

(3)通過NGC為用戶提供經過特別優化處理的容器鏡像,進一步優化軟件部署流程。

在DGX-2上直接運行應用可能面臨編譯流程複雜、應用優化需與最新硬件適配、AI領域實驗復現和環境管理難等問題,因此用戶需要一個性能優異、開箱即用的應用部署方案,而NGC是一個很好的選擇。

NGC 是NVIDIA針對GPU優化的AI和HPC軟件堆棧的容器平臺,提供超過50種相關應用和框架的鏡像,簡化了軟件部署流程和軟硬件協同調優流程。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

例如,使用PyTorch在ImageNet數據集上訓練ResNet50,NGC的容器鏡像上速度上明顯優於開源版本。

3、體驗升級:與超算平臺統一入口

由於AI計算平臺是依託π2.0集群搭建的,是為AI計算平臺打造一個獨立入口,還是讓它和超算系統使用統一的入口,計算部特意做了測試。

經測試用戶反饋,統一入口在管理效率和用戶體驗感方面都更勝一籌。

對於超算老用戶來說,超級計算機π 1.0的用戶無需學習新知識,即可快速掌握AI計算平臺的使用方法。

對於校內新用戶來說,統一入口也能降低他們在使用超算平臺和AI計算平臺上的學習成本。

四、最高提升1.8萬倍!超強AI平臺助推多項科學研究效率大幅提升

AI計算平臺的開放,將做AI處理任務的門檻進一步降低,有助於幫助更多科學研究人員藉助AI計算實現更高效地進行科研工作。

此前,π1.0作為校級高性能計算公共服務平臺,曾支持理、工、生、醫的多篇研究發表於《Science》、《Nature》等高水平期刊上。如今AI計算平臺支持的多項科研項目,論文也已經投往各大學術會議和期刊。

截至本月,上海交大AI計算平臺已經幫助上海交大人工智能研究院、Bio-X研究院、密西根聯合學院等多院系的研究團隊去優化計算AI及HPC應用,最高將科研效率提升1.8萬倍。

程盛淦向我們介紹了其中的四個典型應用。

1、AI應用:二值化神經網絡

該研究電子信息和電氣工程學院的一個團隊所做。他們利用Tensor Core混合精度進行加速並優化了數據讀取,使用1臺DGX-2達到每秒6826張圖的訓練速度,比早先在有4張NVIDIA 1080Ti的服務器上跑,速度(103張/秒)提升66.3倍。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

2、AI應用:用強化學習加速類AlphaGo訓練

做這一研究的團隊同樣來自電子信息和電氣工程學院,通過採用8臺DGX-2、使用NVIDIA MPS技術並調整了負載均衡。

原來用2張NVIDIA Tesla v100卡訓練50萬局自我對弈需要35天,現在僅用34.8小時就能完成訓練。

3、AI應用:基於深度學習的空氣汙染預報

該研究團隊來自環境科學與工程學院。他們使用Conv-LSTM模型結合編解碼結構,學習全國範圍內排放、氣象分佈到汙染物分佈情況的映射關係。

上海交大國內高校最強AI計算平臺如何煉成?超強DGX-2加速AI+科研

使用DGX-2單機後,系統訓練迭代速度比之前使用1張NVIDIA P100快31.6倍。

4、HPC應用:求解聲子玻爾茲曼方程

除了為AI訓練提供算力,AI計算平臺還能支持HPC應用。比如密西根聯合學院就利用該平臺來求解聲子玻爾茲曼方程。

原先用CPU做這一計算需要2周,使用8臺DGX-2後,計算時間壓縮到2分鐘,比此前速度足足提升1.8萬倍。

結語:AI計算平臺將催化更多科研創新

上海交通大學網絡信息中心計算部主任林新華表示:“AI for Science作為科研第四手段已經成為一種國際趨勢,而世界著名高校、科研單位在新建計算平臺時對數值計算和AI計算都予以了充分考慮。像NVIDIA DGX-2和NGC容器平臺這樣的先進的硬件配置和軟件堆棧方案,解決了在高校科研環境下搭建AI計算平臺面臨的諸多挑戰,加速了學科進步,推動了學科融合。”

林新華認為,AI計算平臺不僅是一個面向全校的計算服務平臺,更是一個學科交叉以及科研創新平臺,可以在此基礎上深入開展典型高性能計算應用、AI、大數據等應用科研創新工作。

接下來,上海交通大學網絡信息中心計算部希望藉助AI計算平臺與更多用戶深度合作,展開更多研究領域的深層次合作,解決更多科學計算難題,進一步助力提高交大科研水平。

感謝閱讀。點擊關注上船,帶你浪在科技前沿~


分享到:


相關文章: