美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

自 2013 年以來,中國就始終佔據著世界超級計算機排名第一的位置。而這一次,美國再次逆襲,重回巔峰。

近日,美國能源部 ( US Department of Energy) 田納西州橡樹嶺國家實驗室 (Oak Ridge National Lab) 的工程師推出了一臺名為“ Summit ”的超級計算機,其計算能力已經超過了目前排名第一的中國神威·太湖之光超級計算機。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

根據官方介紹,Summit 的峰值計算能力可以達到每秒 20 億億次,比神威·太湖之光要快60%,同時也是美國此前的明星超級計算機“Titan”計算能力的 8 倍。

我們做一個類比,如果一個人一秒計算一次的話,就必須要花 63 億年才能達到 Summit 一秒的計算量。假設一個 10 萬人的體育場,每個人都手握一臺筆記本電腦同時計算,那麼也至少需要 20 個這樣的體育場同時“運轉”才能達到 Summit 的計算能力。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

在超級計算機領域,美國的世界霸主地位曾經被動搖。一直以來,美國能源部所使用的超級計算機長期佔據著世界第一的位置。但是在這次成果出來之前的幾年裡,中國已經成功實現追趕超越美國。我國的神威·太湖之光 93 PFLOP 的極限性能(1 PFLOP 等於每秒一千萬億次的浮點運算),相當於美國能源部下屬橡樹嶺國家實驗室開發的 Titan(18 PFLOP)超級計算機的 5 倍。

根據全球超算大會(ISC)2017 年“超級計算機 500 強”榜單,中國超算“神威·太湖之光”與“天河二號”連續第三次奪得榜單前兩位,瑞士的“Piz Daint”排名第三,美國的超算 Titan 則名列第四。這也是 20 年來美國首次跌出該榜單的前三名。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

圖丨美國能源部的“Titan ”超級計算機

當然,Summit 的出現除了再次喚起美國人的自豪感之外,其也有實際的應用場景。比如從新飛機的設計到新材料的製造、從軍方核武器的設計到最基礎的科學研究,可以說,無論是從科學研究還是軍事能力的角度出發,Summit 都對美國繼續保持全球超級大國的地位起到非常重要的作用。

橡樹嶺的研究小組說,Summit 是第一臺既支持傳統計算也支持運行人工智能應用程序的超級計算機,比如機器學習和神經網絡等運行都可以在其上實現。Summit 基於 IBM 在 2017 年 12 月於北京所發表的最新一代 Power PC 9216 架構,與多達 27648 個 NVIDIA GPU 組合而成,目的在於解決目前機器學習與神經網絡等 AI 應用的性能瓶頸,而英特爾在此次的超算架構中缺席,代表 IBM 重回超算核心架構的決心有了相當的成效。

IBM 的專家 Bob Picciano 認為,這讓 Summit 能夠在運行一些程序時比 Titan 快 10 倍,而使用的電力只增加了 50%。測試 Summit 時使用的 AI 程序包括海量的報告和醫療圖像,用來嘗試發現基因與癌症的關係,以及用來發現那些可能導致阿片成癮或其他病痛的遺傳特徵。

像 Summit 這樣更強大的超級計算機也可以用於推進氣候建模。斯坦福大學卡內基科學研究所的 Patrick Brown 指出,氣候建模最大的挑戰之一是模擬雲的行為,這對我們預測變暖量非常重要。Brown 說,如果有更強的計算能力,用更加詳細的方式、模擬更長的時間範圍內雲中發生的事情會更容易。這可以幫助理清不同氣候模型結果之間的關係。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

圖丨超級計算機含有芯片的節點

Summit 有望在超算算力排名中拔得頭籌,預計未來它的性能將達到每秒百億億次。全球超級計算機的競賽已經開始,美國和中國領先。美國正在研究開發幾臺這樣的機器,每臺機器的成本可能在 4 億美元至 6 億美元之間,並且得到了英偉達、IBM 以及英特爾等公司的合作幫助。美國的目標是在 2021 年和 2023 年之間完成使至少一臺“百億億級”計算機。

橡樹嶺實驗室的 Jack Wells 表示,Summit 佔據了兩個網球場大小的區域,每分鐘有 4000 加侖的水流過,帶走 約13 兆瓦熱量。Summit 先進的內存管理和全新的高帶寬連接在處理超級計算機產生的海量數據時必不可少。橡樹嶺國家實驗室的科學家表示,他們已經利用 Summit 來進行高效的超大規模比較基因組計算。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

Summit 代表美國要在超算領域重回榜首的決心,畢竟超算是許多包含物理、化學、能源,甚至武器在內等多數基礎科學發展的基礎,若算力不足,那麼就很難推動相關科技的持續領先地位。尤其對美國而言,雖然其超算平臺發展歷史悠久,並在多數科學與應用領域帶來領先全球的結果,但近年來中國積極發展超算技術,在神威太湖之光與天河二號等分別針對國防與民用的超算架構帶領下,連續數年奪得榜單前兩位,對美國是個非常大的預警信號,代表美國在基礎科學的發展上已經有落後中國的跡象。

近年來中國 AI 風潮的興起,以及包含寒武紀、神威架構等多種計算核心的發展帶動之下,成功推動領先全球的超算架構發展,同時也代表算力核心的部分也逐漸擺脫美國供貨商的限制,走向自有化。

而寒武紀在 5 月發佈的 MLU100 及 MLU200 更可說是完全針對雲端 AI 計算的需求而推出,二者都基於 TSMC 16nm 工藝打造,以 PCIE 板卡形式呈現,這是寒武紀推出的雲端市場的專用產品。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

這兩顆芯片都同時支持推理和訓練,其中 MLU100 偏重推理,將面向數據中心和中小型服務器,而 MLU200 偏重訓練,將面向企業級人工智能研發中心。而隨著這兩個全新架構的推出,寒武紀也宣示通過其與中科曙光的合作,正式在國家級超算計算中推動真正自有的 AI 計算核心,而不是像過去必須依靠外來架構。

美國在相關技術發展的壓力之下,雖然也同步推動更先進超算中心的建立,每年花費大筆預算在發展超算相關技術,但總是被中國和日本等國家領先一步。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

圖丨IBM Power 9處理器

Summit 中採用的 IBM Power 9 架構,可以說是完全針對 NVIDIA 的 GPU 架構優化而來,其採用的 NVLINK 2.0 規格可帶來高達 300GB/s 的帶寬表現,很大程度上解決了數據傳輸過程的瓶頸,且因為 NVLIN 支持了緩存一致性設計,也同時能夠有效提升 GPU 的計算性能。

然而 Power 架構的優勢還不止於此,

根據官方資料,IBM Power 9 的最大 I/O 帶寬是 Intel x86 處理器的 9.5 倍,可支持內存容量是 2.6 倍,高效能核心數量為 x86 的 2 倍,內存帶寬則是 x86 的 1.8 倍。更重要的是,通過 NVLINK 2.0,CPU 與 GPU 之間的互連帶寬達到 X86 服務器目前使用的 PCIe 3.0 的 9 倍,大大舒緩了 GPU 等待數據傳輸所造成的計算能力浪費。

Power 9 也不是指針對了 NVIDIA 的計算架構作優化,事實上,它針對的是所有平臺,包括 AMD、Xilinx,以及其他 AI 計算方案:IBM 與 AMD、ARM、華為等公司合作組件 CCIX 聯盟,推出集成了 CCIX 技術,為 Power 9 提供帶寬更高的總線加速器,就架構定義上來看,可以當作開放規格的 NVLINK,其最高帶寬表現也相近,IBM 也為此總線技術取名為 BlueLINK,以作為和 NVLINK 的區分。

美國重返全球超算“霸主”之位:IBM助力超級計算機超越中國神威

另外,IBM 也針對 Power 9 環境推出了分佈式深度學習軟件 (Distributed Deep Learning;DDL),可以讓處理器的 100% 擴容得到 95% 的效率增長,相較起一般公司,比如說 Facebook 的 89% 擴容效率明顯高出不少。

IBM Power 計算架構向世界展示了它的強大,而相較英特爾為主的 X86 體系逐漸走向封閉,其在支持 NVLINK 之類的獨家規格的同時,也和其他計算架構供貨商合作推出了基於 CCIX 界面的 BlueLINK 開放架構,其欲取代 X86 成為 AI 計算領域通用平臺的的意圖非常明顯。

另一方面,雖然面對寒武紀等專用 AI 計算芯片在超算領域的挑戰,NVIDIA 也藉此宣示 GPU 計算仍有其優勢存在。

Summit 不僅代表美國重奪超算話語權的決心,也成功讓 IBM Power 架構取代英特爾的 Xeon,重回超算領頭地位,同時通過 IBM Power 9 的架構優勢,讓 GPU 計算的性能表現得以再往上提升。

不過美國雖然借 Summit 重回超算榜首地位,但這個寶座恐怕坐不了多久,畢竟在 Summit 推出的同時,中國和日本等國家的超算計劃也都分別往前推進了不少,下半年恐怕就會被取而代之。

雖然Summit把算力推向另一個高峰,但接下來的幾年才是超算領域真正的重頭戲,全球的科技強國都會開始向號稱“超級計算機界的下一頂皇冠”的 E 級超算全力進攻。E級超算是指每秒可進行百億億次數學運算的超級計算機,它在解決能源危機、汙染和氣候變化等人類共同面臨的重大問題上將發揮超越以往的巨大作用。

就目前的發展情況來看,2020年或許將會成為這一重大突破實現的關鍵節點。例如在中國,就有中科曙光、國防科技大學以及江南計算技術研究所齊頭並進,同時獲批牽頭E級超算的原型系統研製項目。今年 5 月 17 日在天津舉辦的第二屆世界智能大會上,國家超算天津中心就對外首次展示了可以達到“E級超算”水平的“天河三號”的原型機。

而在其他國家,E 級超算也都有相應進展,美國阿貢國家實驗室計劃在 2021 年完成美國首臺 E 級超級計算機 A21 的建設,Intel 和 Cray 公司也會參與到 A21 的研製之中。而日本的E級超算可能會在 2021 或 2022 年發佈,歐盟也計劃在2021 年實現 E 級計算的突破。


分享到:


相關文章: