VR、机器人、语音交互等都少不了AI芯片产业

原题:VR、机器人、语音交互等都少不了的芯片发展趋势分析——AI芯片产业及趋势

中创产业研究院

VR、机器人、语音交互等都少不了AI芯片产业

导语

随着人工智能芯片的持续发展,应用领域会随时间推移而不断向多维方向发展,以下分析目前发展比较集中的几个行业。

01 AI芯片应用领域

VR、机器人、语音交互等都少不了AI芯片产业

AI芯片目前比较集中的应用领域

(1)智能手机

2017 年 9 月,华为在德国柏林消费电子展发布了麒麟 970 芯片,该芯片搭载了寒武纪的 NPU,成为“全球首款智能手机移动端 AI 芯片” ;2017 年 10 月中旬 Mate10 系列新品(该系列手机的处理器为麒麟 970)上市。搭载了 NPU 的华为 Mate10 系列智能手机具备了较强的深度学习、本地端推断能力,让各类基于深度神经网络的摄影、图像处理应用能够为用户提供更加完美的体验。

而苹果发布以 iPhone X 为代表的手机及它们内置的 A11 Bionic 芯片。A11 Bionic 中自主研发的双核架构 Neural Engine(神经网络处理引擎),它每秒处理相应神经网络计算需求的次数可达 6000 亿次。这个 Neural Engine 的出现,让 A11 Bionic 成为一块真正的 AI 芯片。A11 Bionic 大大提升了 iPhone X 在拍照方面的使用体验,并提供了一些富有创意的新用法。

(2)ADAS(高级辅助驾驶系统)

ADAS 是最吸引大众眼球的人工智能应用之一, 它需要处理海量的由激光雷达、毫米波雷达、摄像头等传感器采集的实时数据。相对于传统的车辆控制方法,智能控制方法主要体现在对控制对象模型的运用和综合信息学习运用上,包括神经网络控制和深度学习方法等,得益于 AI 芯片的飞速发展, 这些算法已逐步在车辆控制中得到应用。

(3)CV(计算机视觉(Computer Vision) 设备

需要使用计算机视觉技术的设备,如智能摄像头、无人机、 行车记录仪、人脸识别迎宾机器人以及智能手写板等设备, 往往都具有本地端推断的需要,如果仅能在联网下工作,无疑将带来糟糕的体验。而计算机视觉技术目前看来将会成为人工智能应用的沃土之一,计算机视觉芯片将拥有广阔的市场前景。

(4) VR 设备

VR 设备芯片的代表为 HPU 芯片, 是微软为自身 VR 设备 Hololens 研发定制的。这颗由台积电代工的芯片能同时处理来自 5个摄像头、 1个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和 CNN 运算的加速功能。这使得 VR 设备可重建高质量的人像 3D 影像,并实时传送到任何地方。

(5)语音交互设备

语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别。稳定的识别能力为语音技术的落地提供了可能;与此同时,语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解有了重大突破,呈现出一种整体的交互方案。

(6)机器人

无论是家居机器人还是商用服务机器人均需要专用软件+芯片的人工智能解决方案,这方面典型公司有由前百度深度学习实验室负责人余凯创办的地平线机器人,当然地平线机器人除此之外,还提供 ADAS、智能家居等其他嵌入式人工智能解决方案。

02 AI芯片国内外代表性企业

本篇将介绍目前人工智能芯片技术领域的国内外代表性企业。文中排名不分先后。人工智能芯片技术领域的国内代表性企业包括中科寒武纪、中星微、地平线机器人、深鉴科技、 灵汐科技、 启英泰伦、百度、华为等,国外包括英伟达、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、苹果、三星等。

中科寒武纪。寒武纪科技成立于 2016 年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,公司致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,为全球 AI芯片领域第一个独角兽初创公司。

寒武纪是全球第一个成功流片并拥有成熟产品的 AI 芯片公司,拥有终端 AI 处理器 IP和云端高性能 AI 芯片两条产品线。2016 年发布的寒武纪 1A 处理器(Cambricon-1A) 是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。

中星微。1999 年, 由多位来自硅谷的博士企业家在北京中关村科技园区创建了中星微电子有限公司, 启动并承担了国家战略项目——“星光中国芯工程”,致力于数字多媒体芯片的开发、设计和产业化。

2016 年初,中星微推出了全球首款集成了神经网络处理器(NPU)的 SVAC 视频编解码 SoC,使得智能分析结果可以与视频数据同时编码,形成结构化的视频码流。该技术被广泛应用于视频监控摄像头,开启了安防监控智能化的新时代。自主设计的嵌入式神经网络处理器(NPU)采用了“数据驱动并行计算” 架构,专门针对深度学习算法进行了优化,具备高性能、低功耗、高集成度、小尺寸等特点,特别适合物联网前端智能的需求。

VR、机器人、语音交互等都少不了AI芯片产业

集成了 NPU 的神经网络处理器 VC0616 的内部结构

地平线机器人(Horizon Robotics)。地平线机器人成立于 2015 年,总部在北京,创始人是前百度深度学习研究院负责人余凯。BPU(BrainProcessing Unit) 是地平线机器人自主设计研发的高效人工智能处理器架构IP,支持 ARM/GPU/FPGA/ASIC 实现,专注于自动驾驶、人脸图像辨识等专用领域。

2017年,地平线发布基于高斯架构的嵌入式人工智能解决方案,将在智能驾驶、智能生活、公共安防三个领域进行应用,第一代 BPU芯片“盘古” 目前已进入流片阶段,预计在 2018年下半年推出,能支持 1080P 的高清图像输入,每秒钟处理 30 帧,检测跟踪数百个目标。地平线的第一代 BPU 采用 TSMC 的 40nm工艺,相对于传统 CPU/GPU, 能效可以提升 2~3 个数量级(100~1,000 倍左右)。

深鉴科技。深鉴科技成立于 2016 年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立。深鉴科技于 2018 年 7 月被赛灵思收购。深鉴科技将其开发的基于 FPGA 的神经网络处理器称为 DPU。

到目前为止,深鉴公开发布了两款 DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络 CNN 而设计;笛卡尔架构专为处理 DNN/RNN 网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于 Intel XeonCPU 与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高 189 倍与 13 倍,具有 24,000 倍与 3,000 倍的更高能效。

灵汐科技。灵汐科技于 2018 年 1 月在北京成立,联合创始人包括清华大学的世界顶尖类脑计算研究者。公司致力于新一代神经网络处理器(Tianjic) 开发, 特点在于既能够高效支撑现有流行的机器学习算法(包括 CNN, MLP, LSTM 等网络架构),也能够支撑更仿脑的、更具成长潜力的脉冲神经网络算法;使芯片具有高计算力、高多任务并行度和较低功耗等优点。

软件工具链方面支持由 Caffe、 TensorFlow 等算法平台直接进行神经网络的映射编译,开发友善的用户交互界面。Tianjic 可用于云端计算和终端应用场景,助力人工智能的落地和推广。

启英泰伦。启英泰伦于2015年 11月在成都成立,是一家语音识别芯片研发商。启英泰伦的 CI1006是基于 ASIC 架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持 DNN 运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。

百度。百度 2017 年 8 月 Hot Chips 大会上发布了 XPU,这是一款 256 核、基于 FPGA 的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU 采用新一代 AI 处理架构,拥有 GPU 的通用性和 FPGA 的高效率和低能耗,对百度的深度学习平台 PaddlePaddle 做了高度的优化和加速。据介绍, XPU 关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似 CPU 的灵活性。

华为。麒麟 970 搭载的神经网络处理器 NPU 采用了寒武纪 IP,如图 12 所示。麒麟 970 采用了 TSMC 10nm 工艺制程,拥有 55 亿个晶体管,功耗相比上一代芯片降低 20%。CPU 架构方面为 4 核 A73+4 核 A53 组成 8 核心,能耗同比上一代芯片得到 20%的提升;GPU 方面采用了 12 核 Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升 20%和50%;NPU 采用 HiAI移动计算架构,在 FP16 下提供的运算性能可以达到 1.92 TFLOPs,相比四个 Cortex-A73 核心,处理同样的 AI 任务,有大约具备 50 倍能效和 25 倍性能优势。

英伟达(Nvidia)。英伟达创立于 1993 年,总部位于美国加利福尼亚州圣克拉拉市。早在 1999 年, 英伟达发明了 GPU,重新定义了现代计算机图形技术,彻底改变了并行计算。深度学习对计算速度有非常苛刻的要求, 而英伟达的 GPU 芯片可以让大量处理器并行运算,速度比 CPU 快十倍甚至几十倍,因而成为绝大部分人工智能研究者和开发者的首选。自从 Google Brain 采用 1.6 万个 GPU 核训练 DNN 模型, 并在语音和图像识别等领域获得巨大成功以来, 英伟达已成为 AI 芯片市场中无可争议的领导者。

AMD。美国 AMD 半导体公司专门为计算机、 通信和消费电子行业设计和制造各种创新的微处理器(CPU、 GPU、 APU、 主板芯片组、 电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于 1969 年。AMD 致力为技术用户——从企业、 政府机构到个人消费者——提供基于标准的、 以客户为中心的解决方案。

2017 年 12 月 Intel 和 AMD 宣布将联手推出一款结合英特尔处理器和 AMD 图形单元的笔记本电脑芯片。目前 AMD 拥有针对 AI 和机器学习的高性能 Radeon Instinc 加速卡,开放式软件平台 ROCm 等。

Google

。Google 在 2016 年宣布独立开发一种名为 TPU 的全新的处理系统。TPU 是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需晶体管数量的方式,让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。在 2016 年 3 月打败了李世石和 2017 年 5 月打败了柯杰的阿尔法狗,就是采用了谷歌的 TPU 系列芯片。

Google I/O-2018 开发者大会期间,正式发布了第三代人工智能学习专用处理器 TPU 3.0。TPU3.0 采用 8 位低精度计算以节省晶体管数量, 对精度影响很小但可以大幅节约功耗、加快速度,同时还有脉动阵列设计,优化矩阵乘法与卷积运算, 并使用更大的片上内存,减少对系统内存的依赖。速度能加快到最高 100PFlops(每秒 1000 万亿次浮点计算)。

高通。在智能手机芯片市场占据绝对优势的高通公司,也在人工智能芯片方面积极布局。据高通提供的资料显示,其在人工智能方面已投资了 Clarifai 公司和中国“专注于物联网人工智能服务” 的云知声。而早在 2015 年 CES 上,高通就已推出了一款搭载骁龙 SoC 的飞行机器人——Snapdragon Cargo。高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,公司恰好可以发挥其在计算机视觉领域的能力。此外,高通的骁龙 820 芯片也被应用于 VR头盔中。事实上,高通已经在研发可以在本地完成深度学习的移动端设备芯片。

Nervana Systems。Nervana 创立于 2014 年, 公司推出的 The Nervana Engine 是一个为深度学习专门定制和优化的 ASIC 芯片。这个方案的实现得益于一项叫做 High Bandwidth Memory 的新型内存技术, 这项技术同时拥有高容量和高速度,提供 32GB 的片上储存和 8TB 每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud” ,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务。他们的新型芯片将会保证 Nervana 云平台在未来的几年内仍保持最快的速度。

Movidius(被 Intel 收购)。2016 年 9 月, Intel 发表声明收购了 Movidius。Movidius 专注于研发高性能视觉处理芯片。其最新一代的 Myriad2 视觉处理器主要由 SPARC 处理器作为主控制器,加上专门的DSP 处理器和硬件加速电路来处理专门的视觉和图像信号。这是一款以 DSP 架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。

该芯片已被大量应用在 Google 3D 项目的 Tango 手机、大疆无人机、 FLIR 智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。

IBM。

IBM 很早以前就发布过 watson,投入了很多的实际应用。除此之外,还启动了类脑芯片的研发, 即 TrueNorth。TrueNorth 是 IBM 参与 DARPA 的研究项目 SyNapse 的最新成果。SyNapse 全称是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而 SyNapse 正好是突触的意思),其终极目标是开发出打破冯·诺依曼体系结构的计算机体系结构。

ARM。ARM 推出全新芯片架构 DynamIQ,通过这项技术, AI 芯片的性能有望在未来三到五年内提升 50 倍。

ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为 AI 算法设计的处理器。芯片厂商将可以为新处理器配置最多 8 个核心。同时为了能让主流 AI 在自己的处理器上更好地运行, ARM 还将推出一系列软件库。

CEVA。CEVA 是专注于 DSP 的 IP 供应商,拥有众多的产品线。其中,图像和计算机视觉 DSP产品 CEVA-XM4是第一个支持深度学习的可编程 DSP,而其发布的新一代型号 CEVA-XM6,具有更优的性能、更强大的计算能力以及更低的能耗。CEVA 指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是其业务开展的主要目标。

MIT/Eyeriss。Eyeriss 事实上是 MIT 的一个项目,还不是一个公司, 从长远来看,如果进展顺利,很可能孵化出一个新的公司。Eyeriss 是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建 168 个核心,专门用来部署神经网路(neural network),效能为一般 GPU 的 10 倍。其技术关键在于最小化 GPU 核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般 GPU 内的核心通常共享单一记忆体,但 Eyeriss 的每个核心拥有属于自己的记忆体。

目前, Eyeriss 主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。

苹果。在 iPhone 8 和 iPhone X 的发布会上,苹果明确表示其中所使用的 A11 处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine) ”, 每秒运算次数最高可达6000 亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。

三星。2017 年,华为海思推出了麒麟 970 芯片,据知情人士透露,为了对标华为,三星已经研发了许多种类的人工智能芯片。三星计划在未来三年内新上市的智能手机中都采用人工智能芯片,并且他们还将为人工智能设备建立新的组件业务。三星还投资了Graphcore、深鉴科技等人工智能芯片企业。

VR、机器人、语音交互等都少不了AI芯片产业

03 技术趋势

目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加计算) 加速阵列来实现对 CNN(卷积神经网络)中最主要的卷积运算的加速。这一代 AI 芯片主要有如下 3 个方面的问题。

(1)深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memory wall” 问题。

(2)与第一个问题相关, 内存大量访问和 MAC阵列的大量运算,造成 AI芯片整体功耗的增加。

(3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。

因此可以预见下一代 AI 芯片将有如下的五个发展趋势。

(1)更高效的大卷积解构/复用

在标准 SIMD 的基础上, CNN 由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。如何合理地分解、 映射这些超大卷积到有效的硬件上成为了一个值得研究的方向。

(2)更低的 Inference 计算/存储位宽

AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到 16 位浮点/定点、 8 位定点,甚至是 4 位定点。在理论计算领域, 2 位甚至 1 位参数位宽,都已经逐渐进入实践领域。

(3)更多样的存储器定制设计

当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。

(4)更稀疏的大规模向量实现

神经网络虽然大,但是,实际上有很多以零为输入的情况, 此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结,在最后一级输出了触发信号。在 Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发 SKIP 信号,避免乘法运算的功耗,以达到减少无用功耗的目的。

(5)计算和存储一体化

计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如 ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。


分享到:


相關文章: