06.13 美国超级计算机“顶点”跑第一,意料之中?

美国超级计算机“顶点”跑第一,意料之中?

文|李佳师

美国能源部下属橡树岭国家实验室8日宣布,造出一台名为“顶点”(Summit)的超级计算机,其浮点运算速度峰值可达每秒20亿亿次,比中国的超级计算机神威·太湖之光要快60%,成为世界上最快的计算机。这是美国自2012年以来首次在运算速度上跃居第一位,此前的5年,世界最快计算机的宝座被中国连续保持。 “顶点”取代中国“神威·太湖之光”之光,是否意味着中国的超级计算能力的被颠覆?目前全球超级计算机格局如何?全球的超级计算机技术发展有什么趋势?下一步中国应该如何发展超级计算机技术和产业?日前《中国电子报》记者独家采访了中科院计算所研究员、国家超算济南中心主任张云泉。

“顶点”是意料之中?

“‘顶点’实现浮点运算速度峰值最快,并不是意料之外的事情。” 张云泉表示,几年前,美国发布加速超级计算机研发的“珊瑚计划”,布局三大国家实验室分别研发超级计算机系统。当时的计划是在2018年,研制出运算能力达到百PFlop的三台超级计算机系统Summit、Sierra、Aurora。其中Summit由IBM研制部署在美国能源部橡树岭国家实验室,Sierra超级计算机将安装在劳伦斯•利弗莫尔国家实验室,Aurora 由克雷和英特尔联合研发部署在阿尔贡国家实验室。同时计划到2021年前后推出100亿亿次超级计算机系统。所以这次“顶点”浮点运算速度峰值达每秒20亿亿次,只是比原计划提前了半年左右实现。不过从全球超级计算机500强排行榜来看,看重的不仅仅是浮点运算的峰值,更重要是LinPACK值。

全球超级计算机500强排行榜每年6月和11月各公布一次。6月下旬将公布今年的第一次榜单排行情况,根据张云泉的预测,这次全球超级计算机的前三名排名可能是第一名为美国的“顶点”,第二名是中国的“神威·太湖之光”,第三名是中国的“天河二号”,从计算性能上看,这次“天河二号”也完成了它的升级换代,峰值达到100PFlops。

张云泉同时表示,超级计算机是国之重器,是一个国家创新能力乃至综合国力的象征,夺冠、拥有世界上跑得最快的计算机,能够在科研以及重大项目的研发上比别人更快、更早发现一些东西,拥有一定的话语权,全球超级计算机500强排行榜只是它的附带价值,并没有大家想象的那么重要。事实上全球在超级计算机排名座次基本上是交替轮换的格局,而且通常可预期,因为每一代超级计算机的问世都是需要经过几年的研发,进行提前布局。美国曾长期垄断该榜单榜首位置。2010年,中国“天河一号”首次在该榜单登顶,但半年后即被日本的“京”拉下马。不过,“京”也只支撑了一年,榜首位置又被美国夺了回去,并一直保持到2013年。其后是中国的“神威·太湖之光”保持了几年,今年是美国的“顶点”。

“顶点”透露什么趋势?

从介绍来看,Summit其5600平方英尺的机柜空间大约相当于2个网球场Summit的重量大约相当于一架商用喷气式飞机。Summi它在高精度科学仿真方面可达到200 petaflops的性能,美国国家能源局橡树岭国家实验室已经给它定下来要做的事情,助力科学家在高能物理、材料发现、医疗保健等领域的研究探索。其中在癌症研究方面将用于名为“CANcer分布式学习环境(CANDLE)”的项目。其目标是开发能够自动提取、分析和整理现有健康数据的工具,以揭示致病因素(如基因、生物标记物和环境)之间一直以来不为人知的关系。在聚变能源方面,将用来模拟聚变反应堆及其磁约束等离子体,加速商业开发。在疾病和成瘾方面:研究人员将使用AI来识别人类蛋白质和细胞系统的功能和进化模式。这些模式能帮助人类更好地了解阿尔茨海默病、心脏病或成瘾,进而助力药物发现过程。

从计算的体系架构来看,它是CPU+GPU的典型架构,CPU采用IBM的Power9 ,GPU采用英伟达Volta GPU,以及英伟达的高速互联技术NVLink。其中使用了4608个计算服务器,每个计算服务器中又含有两个IBM生产的22核Power9处理器和6个英伟达公司生产的Tesla V100图形处理单元加速器。张云泉表示,目前全球百亿亿次超级计算机的体系结构主要采用三种模式,其一是Summit的这种CPU+GPU架构,中国曙光的E级超级计算机也会采用这一架构。其二是中国神威·太湖之光采用的主从众核的模式,若干大核运行OS和控制,几百个小核进行计算加速。其三是釆用ARM处理器授权的同构众核模式,中国的天河三号,欧洲和日本的E级超级计算机都是这个技术路线。

张云泉介绍,目前全球的超级计算机发展主要面临三大挑战。一是亿级并行可扩展的并行墙挑战,如何为百亿亿次超级计算机设计可扩展的并行算法和软件是一个巨大的挑战。二是功耗墙,如何在三十兆瓦功耗的限制下,实现百亿亿次的计算速度。三是可靠性墙的挑战。百亿亿次超级计算机有上亿的并发计算部件,不允许任何一个部件出错,一旦出错,就会牵一发而动全身,引起停机、算法错误等故障。

全球超级计算的下一个里程碑是100亿亿次的超级计算机,究竟谁能够最先做出来,是中国还是美国或是日本或者欧洲?备受关注。从张云泉的判断来看,目前主要的竞争对手是中国和美国,目前中美两国都对100亿亿次超级计算机的研发做了布局,都预计是在2021年左右实现。

中国应该如何推动?

张云泉表示,从超级计算的综合竞争力来看,是美国强于中国,中国之所以这几年连续保持领先,一方面是我们确实整个产业都在不断努力,另一方面,中国在超级计算领域没有太多的历史包袱,无须考虑兼容原来的应用等,轻装上阵。而美国事实上不仅仅是在硬件计算能力强,他们在应用与软件编程等方面也非常强,而且处于兼容原来资产的考虑,他们在设计上需要考虑的维度比中国的要多。

中国超级计算在并行软件研发与应用产业化上远远落后于美国。这次美国的 “顶点”在研发的同时,主要为哪些应用提供服务与计算目标任务已经非常明确,是研以致用。中国对于超级计算的推动,应该“软件”和“硬件”两手都得硬,才能够让超级计算更好地服务于国家的重大科研工程,服务于国民经济的发展。对于超级计算的硬件与软件的发展国家至少要拿出1:1相同的资源投入,才有可能加速中国超级计算软件与应用的发展,才能够让超计算“硬实力”有更大的用武之地。张云泉表示,国家应该成立十几个行业并行软件国家工程中心,来进行软件应用开发,另外还应在大学开设相应的课程,加速这个领域的人才培养。“中国超级计算发展的路线,应该由原来的机器拉动,改为软件拉动。”张云泉说。

关于超级计算机的国产芯片是国人普遍关心的问题。张云泉表示,2015年美国对中国超级计算机实施芯片禁运,所以加速了中国的高端芯片的研发,让中国在超级计算机的芯片供应上没有后顾之忧。目前“神威·太湖之光”与 天河二号分别采用国产的“神威”芯片和“飞腾”芯片,其中飞腾芯片是基于ARM架构。曙光公司的E级机计划采用海光处理器,购买自AMD,是X86处理器。

对于超级计算与云计算的不同定位,张云泉认为,云计算服务的是大众市场,而超级计算服务于大科学工程、宇宙探索以及大的AI项目,他们之间是互补的,并不冲突,现在超级计算与云计算也出现了一些交叉融合的趋势。



分享到:


相關文章: