日本超算又進一步:富士通公布 Post-K 超級計算機處理器細節

超級計算機具有很強的計算和處理數據的能力,主要特點表現為高速度和大容量,配有多種外部和外圍設備及豐富的、高性能的軟件系統

現有的超級計算機運算速度大都可以達到每秒一萬億次以上。這個巨大的計算機系統主要用來承擔重大的科學研究、國防尖端技術和國民經濟領域的大型計算課題及數據處理任務: 如大範圍天氣預報,整理衛星照片,原子核物理探索,研究洲際導彈、宇宙飛船等,制定國民經濟的發展計劃等。

到 2016 年,中國的神威·太湖之光”(每秒 9.3 億億次的浮點運算)天河二號奪得狀元和榜眼,第三至第十名依次是美國的“泰坦”、“紅杉”、“科裡(Cori)”,日本的“Oakforest-PACS”、“京(Kyo)”,瑞士的“代恩特峰”以及美國的“米拉”和“三一”。

現在,超級計算機正被用於各國國家高科技領域和尖端技術研究同時也是一個國家科研實力和科技發展水平的體現

而在超算領域,有一個知名的排名“TOP 500”榜單。該榜單始於 1993 年,是對全球已安裝的超級計算機“排座次”的知名排行榜,由美國與德國超算專家聯合編制,該榜單每半年發佈一次。

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

其中,日本的超算曾於 2011 年獲得 TOP 500 榜單冠軍,是由富士通聯合日本理化研究所開發的,到 2018 年6月已跌至全球第 16 位富士通表示計劃開發下一代超級計算機代號 Post-K重奪全球超算榜首,它的性能將是現在的“京”的 100 倍,同時能耗只有三倍。

Post-K 將使用全新研發的處理器 A64FX,架構轉向 ARM,將於 2021 年推出。在今年美國硅谷舉行的 HotChips 會議上,富士通公開了 A64FX 處理器的詳細架構及性能。

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

圖丨富士通超級計算機的配置

A64FX 由 87.86 億個晶體管組成,採用 7nm FinFET 工藝技術製造。它將是第一個實現 Arm 的可擴展向量擴展(Scalable Vector Extensions/SVE)的處理器,這是一個專為高性能計算而設計的指令集。

今年 6 月,富士通已經開始生產該處理器的原型並開始進行初步測試,還披露了 CPU 的一些基本細節,

包括其核心數(48 個計算核心加 4 個輔助核心)和 SIMD 矢量寬度(512 位)。在 HotChips 會議上,富士通的吉田敏夫(Toshio Yoshida)對微體系結構及其性能概況進行了更深入的研究。

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

在運算速度上,作為第一款 SVE Arm 芯片,A64FX 提供了一些不錯的浮點性能數據:64 位系統(FP64)每秒可以做超過 2.7 萬億次浮點運算,32 位系統(FP32)的速度則達到每秒 5.4 萬億次,16 位系統(FP16)每秒超過 10.8 萬億次

。後兩個系統對於深度學習應用尤其重要,傳統上使用較低精度的 FP32 和 FP16 來訓練神經網絡。

A64FX 還實現了 16 位(INT16)和 8 位(INT8)格式的整數點積運算,可用於推理這些相同的網絡。富士通稱,使用 INT8 的新 CPU 可以達到每秒 21.6 萬億次操作以上,INT16 可以達到每秒 10.8 萬億次操作以上

雖然 A64FX 的浮點性能值得肯定,但它只比最先進的 Xeon Skylake CPU 快了大約 35%,比現在已經不存在的 Xeon Phi CPU 慢了 20%。不難想象,無論是使用 Ice Lake Xeon CPU 還是未經證實的 Xeon AP 處理器,英特爾將在 2021 年為 Aurora exascale 超級計算機生產更高速的 CPU。另一方面,現在富士通只是提供了 A64FX 的低端性能估計,它暗示將在最終芯片推出幾年後公佈更多的測試信息。

雖然浮點運算速度並不是超級計算機的一切,但這確實讓我們瞭解到億億次級計算機所需的處理器數量。使用保守的每秒 2.7 萬億次估計,需要超過 37 萬塊芯片才能達到峰值,而在 Linpack 或真正的浮點密集型應用程序上達到峰值可能需要 40 萬

由於富士通計劃在每個 Post-K 節點中只放置一個 A64FX 處理器,因此該 40 萬個處理器就是計算機的節點。

Post-K 每個機架將有 384 個節點,在最終的億億級計算機中將需要 1000 多個這樣的機架。如果在未來兩年繼續改進芯片,可以再次提高計算峰值。

處理器的節點這麼多,說明計算機需有高性能互連能力。為此,A64FX 將配備一個片上網絡控制器,通過一個叫“豆腐”的大規模並行互連網絡來傳輸數據。對於 Post-K ,這種結構將是一個 6 維 mesh/torus 網絡,它有六個座標軸:X、Y、Z、A、B 和 C,每個處理器(節點)提供 2 個通道,每個通道有 10 個每秒 28000 兆位的端口。每個 CPU 或節點的傳輸速度可達到 560000 兆位

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

圖丨“豆腐”網絡是如何在節點之間產生聯繫的(來源:IEEE Computer Society )

Post-K 另一個突出之處是內存帶寬。A64FX 將使用 32GB 的封裝 HBM2 內存為每個 CPU 提供高達 1024 GB/秒的速度。根據富士通的說法,他們能夠在 Stream Triad 基準測試中實現超過 830 GB /秒的速度超過處理器峰值帶寬的 80%。富士通沒有提到將這種芯片是否連接到傳統的 DDR 內存。

在內部,48 + 4 內核分為四個核心內存組,也叫 CMG。CME 是 13 個核心,由 12 個計算核心和 1 個輔助核心組成。CME 處理 OS 函數,如 I/O 和守護進程處理。13 個內核中的每一個都配備了 64 KB 的 L1 緩存,能夠以超過 11 TB/秒的速度傳輸數據。而每個 CMG 都配備 8MB 二級緩存,運行速度超過 3.6 TB/秒。L2 高速緩存連接到存儲器控制器和片上網絡(NoC)的接口。NoC 可以和其他 CMG、豆腐網絡和 PCIe 控制器產生連接。

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

圖丨 A64FX 芯片的內部結構(來源:TOP500 官網)

平均而言,A64FX 的速度比 SPARC64 XIfx(富士通之前的高性能 CPU)快 2.5 倍,適用於各種高性能計算和人工智能的工作負載。A64FX 在流體動力學和地震波傳播等領域的運算速度特別快,分別比 SPARC64 Xifx 快 3.0 倍和 3.4 倍。

日本超算又進一步:富士通公佈 Post-K 超級計算機處理器細節

圖丨 A64FX 在高性能計算和人工智能領域的表現(來源:TOP500 官網)

在軟件方面,Post-K 機器的客戶富士通和日本理化學研究所正在為 A64FX 處理器和系統本身共同開發軟件。基於 Arm 的系統軟件和工具的開發人員 Linaro 以及各種開源和獨立軟件開發人員也將參與其中。預計到 2021 年時,富士通將開發出一整套高性能計算軟件組件,包括 Linux,C / C ++和 Fortran 編譯器,調試器,MPI,OpenMP,數學庫,資源管理器和 Lustre 等


分享到:


相關文章: