NVIDIA推出图灵架构GPU：加快AI运算科技頭條網

2018-09-14 11:51:53 信軟網

NVIDIA数据中心业务最近一直处于亏损状态，在过去的几年中，每年的亏损额都会比上年翻一番。在2018财年第一季度，该公司获得了19.3亿美元的收益，同比增长了将近130%。这一增长很大程度上是由于在HPC（高性能计算）和训练AI研究以及开发的神经网络上普遍使用了NVIDIA GPU。

但是在通常情况下，运行AI应用程序的需求要高于开发这些应用程序的需求（假设这些AI工具确实很有用）。为此，有很多大小型企业都为推理处理设计芯片，这些公司包括谷歌、Intel、Wave Computing和GraphCore（很多公司将于今年9月18日-19日在硅谷举办的首届AI高峰论坛上展示这一技术）。

图灵架构的Tesla T4和TensorRT 5软件

当NVIDIA宣布推出旨在可以实现可视化和实时渲染的Turing GPU时，还做了一些有趣的说明，表明该公司可以制造出更好的推理引擎。行业观察者在考虑NVIDIA GPU是否适合实现到“Production AI”的过渡，因此对于NVIDIA的首席执行官Jensen Huang来说，展示公司在推理处理方面的地位至关重要。没有让我们失望的是，Huang在本周的GPU技术大会（日本）上宣布了全新的图灵架构的Tesla T4，这是该公司首款专门针对数据中心推理处理的GPU。

NVIDIA的推理平台一直专注于机器人和自动驾驶汽车，如在自动驾驶汽车的DrivePX系统上使用Xavier SOC以及在机器人中使用了嵌入式开发组件Jetson。就数据中心的推理处理而言，NVIDIA表示他们的P4和P40 GPU在AI云服务上很受欢迎，能够提供图像识别技术、声音处理、运行推荐引擎、以及将语音分析和翻译成文本的自然语言处理。NVIDIA举了一个微软必应（Bing）的例子，该搜索引擎使用了这些GPU用于驱动视觉搜索能力，并且要比使用CPU快60倍。此外，每一个P4 GPU都能够处理每秒30帧的30个同步的视频流。

这款全新的NVIDIA Tesla T4 GPU将能够有效替代P4，并采用图1所示的薄型PCIe进行封装。这款新型芯片消耗的电力仅为75瓦，并且有320个经过优化的“图灵Tensor Cores”用于推理任务的整数运算。它能够每秒产生130万亿次的8位证书和260万亿次的4位整数运算。如果你需要浮点运算，例如在神经网络训练时使用的运算方法，T4能够处理65 TFLOPS（每秒浮点运算次数）进行16位计算——其性能约为NVIDIA Volta GPU的一半，但是功耗却只占其1/4。最终的结果是，在处理视频流时的速度会提高2倍，P4每秒可以处理30个视频，而T4每秒可以处理60个。

图1：图灵架构的NVIDIA T4 GPU

在软件方面，该GPU是基于第五代的NVIDIA TensorRT，提供了神经网络的预处理功能来优化新设备的执行能力，如分支修复和稀疏矩阵优化等，以及运行库来支持其处理功能。TensorRT 5也支持了 Kubernetes容器化、负载平衡、动态批处理和一站式资源管理，以帮助云服务提供商将这些新款GPU安装到他们的基础架构中。TensorRT 5也支持了GNMT（谷歌神经机器翻译）。

总结

NVIDIA一直努力在数据中心AI推理处理方面确立其地位，原因有两个：

1.大规模的推理技术还处于起步阶段，但是大多数的推理都可以通过Intel Xeon（英特尔至强处理器）或者AMD EPYC来解决。主要用例就是低分辨率的禁止图片，如Facebook用户上传的图片，因此在推理处理中几乎不需要GPU的强大能力。

2.NVIDIA并没有通过AI、HPC和Virtual Desktop Infrastructure（虚拟桌面基础架构）分解其数据中心的业务，更不用说AI训练和推理。它并不能也不会说出在推理过程中需要多少个GPU。

由于越来越多用于品牌、安全和营销的处理流视频应用程序被开发出来，意味着我们遇到第一个挑战会逐渐消失。此外，既然NVIDIA有了一个完美的推理GPU，所以我们可以期待更多的使用案例。甚至可以了解公司能够具备的推理处理能力。

最后，笔者想要指出的是，很多初创公司都在专注于推理，他们的性能和效率有潜力和Tesla T4媲美，甚至是超过Tesla T4。不同于AI训练的是，这并不是一家独大的竞争。但就目前而言，大多数的企业也只是做出来了PPT，而NVIDIA已经拥有可以出售的推理引擎。

编译：信软网

声明：本文系信软网编译文章，转载请注明出处、作者和本文链接。若违规转载使用，本网站将保留追究的权利。

分享到:

閱讀更多 信軟網 的文章

關鍵字: 数据中心人工智能英伟达