被特斯拉嘲笑,英伟达放狠话要造超级AI芯片!

NVIDIA的数据中心业务最近一直处于亏损状态,过去几年每年大约翻一番。 它在2018财年达到了19.3亿美元,比上一年增长了近130%。 这种增长主要是由于HPC中普遍使用NVIDIA GPU以及人工智能研究和开发的神经网络培训。

然而,常识说,在某些时候,运行AI应用程序的需求将变得比构建它们的需求更大(假设这些AI工具确实有用)。 考虑到这一点,现在有很多公司,无论大小,都在为推理处理设计芯片,包括Google,Intel,Wave Computing和Graph Core。

进入基于图灵的Tesla T4和TensorRT 5软件

当NVIDIA宣布图灵GPU,定位可视化和实时渲染时,它包含了一些非常有趣的规格,表明它可以成为一个很好的推理引擎。行业观察家们想知道NVIDIA GPU是否是引领这种向“生产AI”过渡的合适技术,因此对NVIDIA首席执行官Jensen Huang来说,展示公司在推理处理中的地位至关重要。令人失望的是,黄先生在GTC-Japan主题演讲中宣布推出基于Turing的全新Tesla T4,这是该公司首款专门针对数据中心推理处理的GPU。

迄今为止,NVIDIA的推理平台一直专注于机器人和自动驾驶,例如用于汽车的DrivePX中的Xavier SOC和用于机器人的Jetson。就数据中心的推理处理而言,NVIDIA表示其P4和P40 GPU在云中非常受AI欢迎 - 提供视频,语音处理,运行电子商务推荐引擎的图像识别,以及用于分析和翻译的自然语言处理演讲成文。NVIDIA共享的一个例子是微软Bing,它使用这些GPU为其视觉搜索功能提供了比使用CPU快60倍的能力。此外,每个P4 GPU可以处理30个同步的视频流,以每秒30帧的速度运行。

全新的NVIDIA Tesla T4 GPU将有效取代P4,并采用图1所示的薄型PCIe封装。新型芯片仅耗电75瓦,具有针对推理作业中流行的整数计算优化的320“Turing Tensorcores”。 它可以产生每秒130万亿的8位整数和260万亿次4位整数运算(或TOPS)。 如果您需要浮点运算,例如神经网络训练所需的,T4可以处理65 TFLOPS进行16位计算 - 大约是NVIDIA Volta GPU性能的一半,而功耗仅为1/4。 最终结果是处理前面提到的视频流的速度提高了2倍; 虽然P4可以处理30,但T4可以处理60。

该故事的软件方面基于NVIDIA TensorRT的第5版,它提供神经网络的预处理,以优化其在新设备上的执行(分支修整,稀疏矩阵优化等),以及运行时 库来支持执行。 TensorRT 5还支持Kubernetes容器化,负载平衡,动态批处理和交钥匙资源管理,以帮助云服务提供商将这些新GPU放入其基础架构中。 TensorRT 5还支持Google神经机器翻译(GNMT)。

NVIDIA一直在努力在数据中心的AI推理处理中建立自己的位置,原因有两个:

大规模推断刚刚开始,今天大部分或大部分处理都可以通过Intel Xeon(或AMD EPYC)CPU来处理。主要用例是低分辨率静止图像,例如Facebook用户上传的图像,因此在推理处理中几乎不需要GPU的强大功能。

NVIDIA没有通过AI与HPC与虚拟桌面基础架构分解其数据中心业务,更不用说AI培训与推理。它不能或不会说已经有多少GPU用于推断。

随着越来越多的应用程序处理流媒体视频的品牌,安全性和营销,第一个挑战应该消失。此外,既然NVIDIA拥有专用的推理GPU,我们可以期待用例。也许我们甚至可以了解公司能够捕获的推理处理量。

最后,我要指出的是,有数十家创业公司针对推理,有可能匹配(甚至可能超过)特斯拉T4的性能和效率。与人工智能训练不同,这不可能是一匹马。但就目前而言,大多数创业公司只有PowerPoint。 NVIDIA现在有一个真正的专用推理引擎可供出售。

再来看看其他正在做AI芯片的公司。

Facebook也在探索芯片开发,说不定哪天它就可以开发出AI芯片。这并不令人意外,因为去年英特尔表示,它正在与Facebook合作开发一种新的AI芯片。就在最近,Facebook才刚刚从谷歌挖来一员大将——谷歌前芯片产品开发部门负责人Shahriar Rabii跳槽,担任Facebook副总监及芯片部分负责人一职。

在收购了一家名为Nervana的创业公司之后,英特尔正在构建专门用于机器学习的芯片。IBM也是如此,创建了一个反映神经网络设计的硬件架构。LeCun表示,最近,高通公司已开始专门为执行神经网络构建芯片。

正如Google的TPU所示,专用的AI芯片可以为数据中心带来全新的效率,特别是随着对图像识别服务需求的增加。毕竟,谁比谷歌本身更了解谷歌的人工智能处理需求?从最开始使用 CPU 跑 AI,到用 NVIDIA GPU 跑 AI,再到如今专有的 TPU AI 芯片跑 AI,就是专用场景优化的结果。随着虚拟和增强现实变得越来越普遍,手机和耳机将需要类似的芯片。

此外,谷歌还发布了Edge TPU,特定用途 ASIC 芯片,专为在设备上运行 TensorFlow Lite ML 模型而设计。针对Edge TPU的新设备是:AIY Edge TPU Dev 开发板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。

针对Edge TPU的新设备是:AIY Edge TPU Dev 开发板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。