九州連線專訪丨張雲泉:如何讓超算走下「神壇」爲大衆服務?

聚焦信息技術領域 為產業發聲

導讀

2017年,根據國際TOP500組織發佈的新一期全球超級計算機500強榜單,中國超算“神威·太湖之光”與“天河二號”連續四次佔據榜單前兩位,更值得驕傲的是,“神威太湖之光”實現了核心部件的完全自主研發。但是,與國家綜合實力息息相關的超算,同我們的生活有何關聯?我國超算目前佔據全球超級計算機500強榜單前兩位,是否說明我們的超算實力已經趕超美國......九州連線特此連線了中科院計算所計算機體系結構國家重點實驗室研究員,國家超算濟南中心主任張雲泉,並對以上問題進行了訪談,以下為採訪實錄:

超算與我們的民生國計息息相關

1.九州連線:能否用通俗的語言解釋下什麼是超級計算?超級計算有哪些和我們日常生活中密切相關的應用?

張雲泉:超級計算,簡稱超算,也叫高性能計算。高性能計算機顧名思義是一種性能比普通計算機高的計算機,它內部配置了多個處理器共同組成高性能計算機的一部分,通過多臺計算機也可以實現高性能計算操作,高性能計算機需要在相應的高性能計算系統或者環境當中運行。

而高性能計算則是指通常使用很多處理器(作為單個機器的一部分)或者某一集群中組織的幾臺計算機(作為單個計算資源操作)的計算系統和環境。

超算與國民經濟、工業企業創新、國防科技、國家安全等國計民生的方方面面都息息相關。

整體而言,我國超算領域正處於高速發展的上升階段,汽車製造、航天、發動機、地質勘探等各個行業已經開始廣泛使用超算技術,通過超算設計、改善國產企業的產品模型。

同時,超算作為人工智能的重要支持平臺,其能力也在一定程度上決定著國家人工智能的綜合表現和長久發展。

在只考慮語音識別、計算機視覺的情況下,BBC 預計全球人工智能總體市場規模 2020 年將達到1190 億元;預測國內人工智能市場規模2020 年將達到91 億。因此,超算的落後,將不利於在人工智能上的取勝。

同時,對於情報信息的蒐集和處理方面,超算能力的落後也會導致情報信息獲取的延後,在軍事高科技化的今天,對於國家安全來說,也會有很大的負面影響。

2.九州連線:為何世界各國如此重視超級計算機的研發?我國的超級計算機近年來在國際超級計算機TOP500榜單中多次奪冠,是否意味著我們國家在超算方面的核心技術水平和自主可控能力已達到國際先進水平?

張雲泉:因為超算和國家的創新能力、綜合國力直接相關,對國家轉型發展有重要意義。超算採用的計算機技術是計算機技術中的火車頭,最新技術一般都最先在超算採用,成功後才會普及到個人計算機上,所以對技術的推動作用毋庸置疑。

另外超算對於企業創新、國家安全的貢獻也很大。最重要的是,超算水平的高低意味著一個國家的綜合實力,尤其體現在國防軍工上,比如核武器都要靠超算模擬,核禁試會禁止所有地下核實驗,只能用超級計算機模擬,如果沒有這個能力意味著核武器的落後,落後就要捱打。

在轉型發展上,需要很大的程度依賴計算科學。基於超算的計算科學、計算模擬的設計、模擬、優化,對工業界提高競爭力有很大的幫助,所以很多企業和單位都在持續投入。

目前國際上對高性能計算機的最為權威的評測是世界計算機排名(即TOP500),通過測評的計算機是目前世界上運算速度和處理能力均堪稱一流的計算機。

根據國際TOP500組織發佈的新一期全球超級計算機500強榜單,中國超算“神威·太湖之光”與“天河二號”連續第四次佔據榜單前兩位,而美國超算“泰坦”則排名第四。

整體而言,我國超算領域正處於高速發展的上升階段,未來前景十分看好。

我國自主研發的超算已達世界頂尖水平

3.九州連線:在國際超級計算機TOP500榜單中多次奪冠的神威·太湖之光和天河超級計算機有什麼本質區別和突破?

張雲泉:據國際TOP500組織發佈的榜單,“神威太湖之光”峰值計算速度達每秒12.54億億次,持續計算速度每秒9.3億億次,性能功耗比為每瓦60.51億次,三項關鍵指標均排名世界第一。其浮點運算速度比第二名“天河二號”快出近兩倍,效率提高3倍,功耗也比“天河二號”低。

更重要的是,與“天河二號”使用英特爾芯片不一樣,“神威太湖之光”使用的是中國自主知識產權的“申威”處理器,實現了從CPU、操作系統、互聯網絡等核心部件的完全自主研發。

“神威·太湖之光”之所以強大,還要歸功於其背後的硬件支持。

超級計算機主要是依靠提高並行度和設備的規模來提升計算速度,“神威·太湖之光”擁有超過1000萬個處理器核,遠遠超過天河二號的300多萬個,從而極大地提升了其運算規模和並行度。

其次,“神威·太湖之光”首次完全採用“中國芯”——“申威26010”眾核處理器,這個只有5釐米見方的小小薄塊,它集成了260個運算核心,數十億晶體管,達到了每秒3萬多億次計算能力,單芯片計算能力相當於3臺2000年全球排名第一的超級計算機。40960個“中國芯”同時工作,讓“神威·太湖之光”登上了世界計算巔峰。

4.九州連線:這能否說明中國在超算領域已經趕超美國?

張雲泉:中國超算能力增長如此迅猛,與中國計算機專家長期努力的結果分不開,更是中國近年來經濟高速發展的體現,這表明中國與美國在綜合國力上的差距越來越小。但這並不意味著美國在這個領域開始衰落。

中國超算髮展最好的時期,正好恰逢美國超算髮展的低谷,這兩個疊加在一塊。顯得中國很強,美國很弱。

這是中國超算這幾年發展較快的一個延續,中國最好的機器剛好在這個時間段。美國的機器佈局太晚了,打了一個時間差。這也是國際超算髮展經常出現的現象。

“超算實力等於國力”,美國在超算競賽上絕不會輕易放棄。全球超級計算機排行榜TOP500發起人,美國工程院院士、橡樹嶺國家實驗室及田納西大學Jack Dongarra教授近期提出,美國Summit超級計算機已基本完成建造,預計今年6月在橡樹嶺國家實驗室正式投入使用。這套最新的超算系統將擁有4600個節點,峰值運算能力突破每秒20億億次,比當前最快的超級計算機“神威·太湖之光“性能提升60%。

而中國將來要超越美國的這臺機器,也要一個週期。

不僅要速度超快,還要重在應用

5.九州連線:“超算實力等於國力”,目前我國的超算達到了世界頂尖水平,想要在下一個週期中繼續保持領先,您覺得我國在超算領域還有哪些亟待解決哪些的問題?

張雲泉:雖然我國超算近兩年在國際上取得了不錯的名次,但是我國的超算仍然存在一些亟待解決的問題。

首先,我國超算利用效率低。

由於應用發展相對滯後,國內用於科學計算研究的超級計算機不到40%,用於金融業和製造業的比例也偏低。我國應用軟件仍處於初級階段,應用領域與軟件研發存在脫軌現象。

其次,受制於國外壟斷,目前超算應用發展滯後。

在超算應用比較多的製造業和基礎科研等關鍵領域,大部分應用軟件都被國外壟斷。我國不僅支出鉅額軟件採購費用,軟件升級還受制於外方。比如,航空系統一年花費兩億多元進口應用軟件,有的軟件只是在原軟件的基礎上“改一改、升升級”,就得花費幾千萬元。

6.九州連線:聽您講了我國超算目前存在的問題,深感超算髮展的弦一刻也不能停歇,那您對我國超算目前存在的問題有沒有建議和意見?

張雲泉:對此,我覺得可以引用九三學社在全國政協十三屆一次會議上的提案中的解決辦法:

一是成立若干國家級超級計算並行應用軟件行業工程中心。

制定我國超級計算機應用中長期研究規劃和路線圖;當前應著力開展艾級應用相關的基礎問題和關鍵共性技術研究。此外,中心應以重大專項為牽引,集中多學科人才和資源,穩定研發方向和人才隊伍。

二是轉變“重硬輕軟”思維,持續穩定支持超算應用軟件研發。

調整財政支出結構,統籌協調全國超算研製計劃和經費安排,軟硬件經費投入比儘量做到1:1。

三是鼓勵超算中心聯合應用部門組建聯合實驗室。

實驗室主任由應用方的學科帶頭人擔任,超算中心提供高性能運算支持並指導或協助進行程序移植,自主研發大型並行應用軟件,並通過應用在用戶中培養人才。

四是重視計算科學學科建設和人才激勵機制。

推廣“超算理論+多學科應用”課程,促進超算領域多學科交叉融合。對高水平軟件科研人員實行兼職兼薪、協議薪酬等模式;採取內外部結合的評價機制,給予軟件研發人員公平公正的評價和職務晉升通道。

7.九州連線:您剛才提到需要“通過應用在用戶中培養人才”,未來對高性能計算人才的需求有多大?

張雲泉:目前國家對這塊的人才需求很大,但是人才遠遠跟不上。

因為超算是一個交叉學科,由計算機科學、計算數學、行業應用領域應用知識三方面構成,對人才要求非常高,儘量掌握三個領域的知識,才能把一件事情做好,開發出對一個領域有用的超級計算應用軟件,這個事情對一個人來說很難達到。

往往很多人掌握一個方面,最多掌握兩個方面已經很了不起了,能夠掌握三個方面知識的人極其稀缺。

現在的大規模並行軟件開發通常是在模型、並行算法設計和並行軟件實現三個層面進行,三個層面互相配合才能解決問題。所以軟件開發、工程推進都受到很大的影響,需要的資金也相應提高,開發週期也很長。

現在的問題是要重視計算科學方向,我們呼籲專門設立計算科學方向研究中心、研究所、專業。從培養人才之初,就讓他能夠跨多個領域,以此解決短板,這也是我們多年、多次向中科院領導、國務院領導寫報告提出的意見。

超算的發展與我們的國家實力息息相關,同時與我們的生活休慼與共。雖然我國超算目前處於國際領先地位,但是各國部署超算的節奏不一,因此,一時的領先並不代表永遠的領先,想要繼續在超算甚至是超算支撐下的人工智能上遙遙領先,就要時刻繃緊超算的弦。在注重超算研發的同時,也要注重其應用,更要抓緊這方面人才的投入。

九州連線記者孫中嬋與張雲泉合影