七年磨一剑,华为如何定义 AI 时代的数据中心网络?

七年前,华为以一场主题为「云引擎、承未来」的发布会,发布了面向云计算时代的数据中心核心交换机 CloudEngine 12800。这个产品不仅满足了企业数据中心业务弹性伸缩与自动化部署的需求,也造就了一个年复合增长率 82%、连续 6 年增速全球第一的「爆款产品」。

七年后的 2019 年,当人工智能的浪潮势不可挡席卷而来,企业数据中心网络何去何从、如何面对 AI 带来的机遇和挑战以及下一代数据中心网络应该是个什么样子......作为全球数据中心交换机领域的重要玩家,这一次华为也给出了他们的答案。

在上周名为「网络新引擎,AI 赢未来」的大会上,华为正式发布了面向 AI 时代的数据中心交互机 CloudEngine 16800。正如华为网络产品线总裁胡克文对这款产品的定义:「华为率先将AI技术引入数据中心交换机,引领数据中心网络从云时代迈入 AI 时代」。

七年磨一剑,华为如何定义 AI 时代的数据中心网络?

作为业界首款面向AI时代的数据中心交换机 CloudEngine 16800,也定义了 AI 时代数据中心交换机的三大特征。那么,AI 到底给企业数据中心网络带来哪些压力和挑战?华为又是如何思考面向 AI 时代的数据中心网络?

<strong>01 AI 对于数据中心网络的新要求

企业的数据中心是企业业务和技术创新的重要载体。这其中,交换机通过对业务识别与控制,实现网络的快速响应与零丢包,从而保证业务的连续性。

而随着企业步入 AI 时代,数据中心网络也迎来一系列新挑战。

首先,为了更好地应用机器学习以及深度学习算法,必须提升数据中心的数据处理效率。

一方面,存储介质演进到闪存盘,时延降低了不止100倍。计算通过采用 GPU 以及其他专用的 AI 芯片,可以将处理数据的能力提升了100倍以上。

但另一方面,网络处理协议由 TCP/IP 演进到 RDMA(Remote Direct Memory Access的) 后,网络通信时延反而成为AI 算法部署的关键短板,也严重制约了 AI 算力的完整输出。

七年磨一剑,华为如何定义 AI 时代的数据中心网络?

第二,作为业务流量的汇聚点, 数据中心所承载的数据流量越来越大。

而随着企业AI 等新型业务的不断出现,也驱动了数据中服务器从 10G 到 25G 甚至 100G 的切换,这就必然要求交换机支持 400G接口,这是应对 AI 是到数据流量的必然要求。

第三,在数据中心内部计算和存储正在融合的大背景下,企业数据中心服务器集群规模越来越大。

与此同时,快速增长的数据中心分析流量、毫秒级的信息上报机制,不断考验着网络运维的处理能力,比如当问题出现时,如何快速定位问题所在。这些需求也迫使企业投入更多人力、财力到运维团队,极大增加了企业成本。

上述三点构成了 AI 时代企业数据中心网络所面临的困境。根据华为 GIV 2025(Global Industry Vision)的预测,到 2025年,新增数据量达到 180ZB,95%的非结构化数据(语音/视频等)依赖AI处理,企业对AI的采用率将达到86%。

这也意味着,随着越来越多的企业将利用AI助力决策、重塑商业模式与生态系统、重建客户体验,数据中心从云时代迈向AI时代是一个必然趋势。

<strong>02 华为定义了 AI 时代数据中心网络的三大特征

在华为看来,AI 时代数据中心交换机应有三大特征:

1. AI 芯片加持

2. 配备高密度 400 G 接口

3. 网络运维自动化

那么,具备上述三大特征的 CloudEngine 16800,能否有效解决前文提到的 AI 时代数据中心网络难题呢?

首先,<strong>通过 AI 芯片的加持,CloudEngine 16800 能给有效实现对网络需求的自动调优,实现 0 丢包低时延高吞吐的无损数据中心网络。

七年磨一剑,华为如何定义 AI 时代的数据中心网络?

一方面是单流局部调优,类似于物理世界里的城市十字路口智能红绿灯调节,根据本路口的行人和车辆情况动态调整红绿灯时间,从而使得该十字路口通行效率最高。

另一方面则是整网全局调优,类似于物理世界里的城市大脑调节机制,通过分析所有道路的行人和车辆情况,动态关联的调整的所有红绿灯,使得整个城市的道路通行情况最优。

值得一提的是,由于配备了 AI 芯片,其独创的iLossLess 智能无损交换算法,能够对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数,更精准地控制流量,这样的智能无损数据中心网络克服传统以太网丢包导致的算力损失,将AI算力从 50% 提升到 100%,数据存储 IOPS(Input/Output Operations Per Second)性能提升30%。

第二,<strong>CloudEngine 16800 支持10G→40G→100G→400G端口平滑演进能力,能够提供业界最高密度的单槽48个/整机768个400GE端口,交换容量是业界的五倍。

要实现如此超高密度及其演进能力,还需要在板材、工艺、散热,供电等多方面都进行了革命性的技术改进和创新。

以工艺为例,传统的电路板由于采用的普通铜箔材料及制造工艺问题,当信号传输速率提升的时候,损耗和高频干扰非常严重,存在速率极限。 华为采用新型亚微米无损材料及高分子键合技术的制作工艺,将电信号的传输效率提升30%,满足100G到400G全生命周期兼容和能力演进。

而在能效和散热方面,此次 CloudEngine 16800 也有诸多创新。利用双路输入智能切换的电源模块,可以让电源空间节省50%;采用独有的碳纳米导热垫和VC相变散热技术,散热效率提升4倍;独有的磁导率马达,静音导流环噪音降低6dB。

第三,如何减轻智能运维平台的压力呢?答案也不负责,只需在最靠近服务器,最靠近数据的网络设备里具备智能分析和决策功能即可。

<strong>CloudEngine 16800 的 AI 芯片,使得交换机具备本地推理和实时快速决策的能力。而通过本地智能结合集中的FabricInsight网络分析器提供分布式 AI 运维架构,可实现秒级故障识别和分钟级故障自动定位,让网络运维实现自动化。

<strong>03 写在最后:助力企业赢在 AI 时代

自 2018 年开始,整个行业对于 AI 已经有了明确的共识:AI 不是未来,而是现在。

这是企业的机会,也是华为的机会。

2018年,在华为的全连接大会上,华为将人工智能定位为新的通用技术,并发布了人工智能发展战略,全面将人工智能技术引入到智能终端、云和网络等各个领域。此次发布的业界首款面向AI时代数据中心交换机CloudEngine 16800,也正是其在网络领域持续践行AI战略的体现。

自 2012 年华为进入数据中心网络市场以来,已经服务了全球 6400+ 客户,七年前面向云时代的 CloudEngine 12800,已帮助全球众多企业实现了云时代的业务转型与创新。

如今,CloudEngine 16800 成为华为赋能各行各业数据中心网络的新武器,内嵌 AI 芯片、单槽48 x 400GE高密端口、自动驾驶网络等三大特征,也将帮助更多客户加速智能化转型,实现普惠AI。最终的落脚点,就是构建一个万物互联的智能世界。(完)


分享到:


相關文章: