NVIDIA推出图灵架构GPU:加快AI运算

NVIDIA数据中心业务最近一直处于亏损状态,在过去的几年中,每年的亏损额都会比上年翻一番。在2018财年第一季度,该公司获得了19.3亿美元的收益,同比增长了将近130%。这一增长很大程度上是由于在HPC(高性能计算)和训练AI研究以及开发的神经网络上普遍使用了NVIDIA GPU。

但是在通常情况下,运行AI应用程序的需求要高于开发这些应用程序的需求(假设这些AI工具确实很有用)。为此,有很多大小型企业都为推理处理设计芯片,这些公司包括谷歌、Intel、Wave Computing和GraphCore(很多公司将于今年9月18日-19日在硅谷举办的首届AI高峰论坛上展示这一技术)。

图灵架构的Tesla T4和TensorRT 5软件

当NVIDIA宣布推出旨在可以实现可视化和实时渲染的Turing GPU时,还做了一些有趣的说明,表明该公司可以制造出更好的推理引擎。行业观察者在考虑NVIDIA GPU是否适合实现到“Production AI”的过渡,因此对于NVIDIA的首席执行官Jensen Huang来说,展示公司在推理处理方面的地位至关重要。没有让我们失望的是,Huang在本周的GPU技术大会(日本)上宣布了全新的图灵架构的Tesla T4,这是该公司首款专门针对数据中心推理处理的GPU。

NVIDIA的推理平台一直专注于机器人和自动驾驶汽车,如在自动驾驶汽车的DrivePX系统上使用Xavier SOC以及在机器人中使用了嵌入式开发组件Jetson。就数据中心的推理处理而言,NVIDIA表示他们的P4和P40 GPU在AI云服务上很受欢迎,能够提供图像识别技术、声音处理、运行推荐引擎、以及将语音分析和翻译成文本的自然语言处理。NVIDIA举了一个微软必应(Bing)的例子,该搜索引擎使用了这些GPU用于驱动视觉搜索能力,并且要比使用CPU快60倍。此外,每一个P4 GPU都能够处理每秒30帧的30个同步的视频流。

这款全新的NVIDIA Tesla T4 GPU将能够有效替代P4,并采用图1所示的薄型PCIe进行封装。这款新型芯片消耗的电力仅为75瓦,并且有320个经过优化的“图灵Tensor Cores”用于推理任务的整数运算。它能够每秒产生130万亿次的8位证书和260万亿次的4位整数运算。如果你需要浮点运算,例如在神经网络训练时使用的运算方法,T4能够处理65 TFLOPS(每秒浮点运算次数)进行16位计算——其性能约为NVIDIA Volta GPU的一半,但是功耗却只占其1/4。最终的结果是,在处理视频流时的速度会提高2倍,P4每秒可以处理30个视频,而T4每秒可以处理60个。

NVIDIA推出图灵架构GPU:加快AI运算

图1:图灵架构的NVIDIA T4 GPU

在软件方面,该GPU是基于第五代的NVIDIA TensorRT,提供了神经网络的预处理功能来优化新设备的执行能力,如分支修复和稀疏矩阵优化等,以及运行库来支持其处理功能。TensorRT 5也支持了 Kubernetes容器化、负载平衡、动态批处理和一站式资源管理,以帮助云服务提供商将这些新款GPU安装到他们的基础架构中。TensorRT 5也支持了GNMT(谷歌神经机器翻译)。

总结

NVIDIA一直努力在数据中心AI推理处理方面确立其地位,原因有两个:

1.大规模的推理技术还处于起步阶段,但是大多数的推理都可以通过Intel Xeon(英特尔至强处理器)或者AMD EPYC来解决。主要用例就是低分辨率的禁止图片,如Facebook用户上传的图片,因此在推理处理中几乎不需要GPU的强大能力。

2.NVIDIA并没有通过AI、HPC和Virtual Desktop Infrastructure(虚拟桌面基础架构)分解其数据中心的业务,更不用说AI训练和推理。它并不能也不会说出在推理过程中需要多少个GPU。

由于越来越多用于品牌、安全和营销的处理流视频应用程序被开发出来,意味着我们遇到第一个挑战会逐渐消失。此外,既然NVIDIA有了一个完美的推理GPU,所以我们可以期待更多的使用案例。甚至可以了解公司能够具备的推理处理能力。

最后,笔者想要指出的是,很多初创公司都在专注于推理,他们的性能和效率有潜力和Tesla T4媲美,甚至是超过Tesla T4。不同于AI训练的是,这并不是一家独大的竞争。但就目前而言,大多数的企业也只是做出来了PPT,而NVIDIA已经拥有可以出售的推理引擎。

编 译:信软网

声 明:本文系信软网编译文章,转载请注明出处、作者和本文链接。若违规转载使用,本网站将保留追究的权利。


分享到:


相關文章: