阿里雲超算揭祕:虛擬機的心臟,物理機的肌肉

在汽車行業,過去有一句俗話,一輛車從設計到下線,“至少要11輛真實碰撞試驗”,今天,在現代化的汽車製造業,通過長期發展的設計和仿真軟件,幾乎所有的環節,都可以做到設計與仿真一體化的高性能計算實現,這一進步的背後需要依賴更強的並行計算集群和靈活的數據流動,以及實現複雜算法的工業仿真軟件。


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


2018杭州雲棲大會主論壇上,阿里雲高性能計算發佈環節對比演示了風洞汽車模型實驗和數字仿真風洞,吸引了現場以及線上眾多觀眾的眼球。


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


展示環節首先通過風洞裝置模型,現場以煙流法的方式展示了在不同風速條件下煙流經過模型車的不同軌跡,解釋了傳統汽車風洞實驗的大致流程,並且大幅提升了測試效率。

這次演示背後的兩大核心是SCC超級計算集群和E-HPC:使用阿里雲SCC超級計算集群,結合E-HPC創建集群及集諦性能分析等操作流程,以可視化的形式展示ANSYS流體動力學軟件基於SCC和E-HPC彈性高性能計算服務進行求解運算後的結果。



/雲上超級計算集群SCC/


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


現場進行ANSYS Fluent F1賽車模型流體動力仿真計算的HPC集群計算節點由超級計算集群scch5實例組成。

SCC基於阿里雲新一代彈性裸金屬(神龍)服務器,既具備了雲計算的彈性資源優勢,又擁有了物理機的性能,在此之上加入高速RDMA互聯支持,大幅提升網絡性能,顯著提高大規模集群加速比,這也是SCC獨有的特點。

如果用公式表達的話:SCC = 彈性裸金屬服務器+ RDMA網絡;總結一句話就是,SCC擁有虛擬機的心臟,物理機的肌肉,高速的神經。


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


彈性裸金屬服務器(ECS Bare Metal Instance)計算性能與傳統物理機無差別,具有安全物理隔離的特點。

RDMA(Remote Direct MemoryAccess)是一種直接存儲器訪問技術,它將數據直接從一臺計算機的內存傳輸到另一臺計算機,無需雙方操作系統的介入。這允許高通量、低延遲的網絡通信,尤其適合在大規模並行計算機集群中使用,SCC使用的是RDMA 的方案之一——RoCE網絡。

同時SCC還與成熟的ECS管控完整對接,確保了用戶體驗一致性,且與阿里雲VPC網絡、NAS共享文件存儲、CPFS高性能共享存儲等產品完全整合,充分發揮雲上生態優勢,帶來極致的計算體驗。

阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉



/彈性高性能計算E-HPC/


如果說SCC提供的是高性能計算基礎設施,那麼E-HPC則為用戶提供了一站式全業務流程的公共雲HPC服務。

E-HPC通過集成PBS pro/Slurm等HPC調度器提供了並行調度功能,基於阿里雲管控能力實現了根據負載進行集群規模自動伸縮,基於VPC網絡及RoCE網絡架構提供了並行通訊支持,由超算容器Shifter提供了容器部署功能,專門針對雲上並行作業開發的集諦提供了性能監控分析和“性能大數據”積聚優化引擎。

在演示中,E-HPC提供了並行調度,自動擴容和並行通訊支持,使得大規模仿真成為可能。


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


相比傳統超算中心以及自建IDC集群,E-HPC的優勢也很明顯:

1、相比傳統超算中心,E-HPC可按需購買,無需排期,即買即用;實例種類多,可根據應用需求購置最適合的計算資源配比;充分複用阿里雲產品,大大提高了數據安全性和高可用性。

2、相比自建IDC集群,E-HPC 可節約巨量 CAPEX 投入,包括但不限於硬件系統費用,軟件許可證費用 (如ANSYS支持雲上elastic license),服務器機房建設,電力和製冷費用,平日運作的維護支持費用等,而且無需顧慮硬件升級換代,公共雲確保了極強的可擴展性。


阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉


目前,阿里雲HPC已經廣泛應用於製造業以及科學計算等領域:

1、上汽集團乘用車採用SCC集群進行混合仿真,整體提升25%效率

2、安世亞太基於SCC集群為客戶提供HPC解決方案,總體成本下降20%以上

3、大連化物所國家重點實驗室使用E-HPC集群做分子動力學仿真計算,相對上一代GPU集群效率提升200%


分享到:


相關文章: