AI芯片產業

一、 人工智能芯片發展現狀及趨勢

1、深度學習作為機器學習的分支,是當前人工智能研究和運用的主流方式。機器學習是人工智能的分支,指的是使機器利用統計模型對歷史大量輸入輸出數據進行學習(訓練,Training),在此基礎上對新輸入的變量做出智能推斷(Inference)。而深度學習是當前最受關注的 AI 實現方式,指的是利用深度神經網絡(DeepNeural Network)進行機器學習。

AI芯片產業

機器學習運用的統計模型使用需要訓練(Training)和推理(Inference)。

深度學習(Deep Learning)執行訓練和推斷時,都需要對海量數據進行大規模並行計算。深度學習採用的深層神經網絡模型參數和數據量眾多,執行訓練和推斷的計算任務時,都需要進行海量大規模計算,其中訓練任務需要的計算量更大。

AI芯片產業

2、深度學習算法對芯片要求更為苛刻,通用 CPU 性價比相對較差

深度學習算法對芯片性能需求主要表現在三個方面:

一、海量數據在計算和存儲單元之間的高速通信需求。這不但需要芯片具備強大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬。

二、專用計算能力需求高。深度學習算法中有大量卷積、殘差網絡、全連接等特殊計算需要處理,還需要提升運算速度,降低功耗。

三、海量數據自身處理同樣也對芯片提出了新的要求,尤其是非結構化數據的增多,對傳統芯片結構造成了較大的壓力。

通用 CPU 在深度學習中可用但效率較低。比如在圖像處理領域,主要用到的是 CNN(卷積神經網絡),在自然語言識別、語音處理等領域,主要用到的是 RNN(循環神經網絡),雖然這兩種算法模型有著較大的區別,但本質上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數運算。

傳統 CPU 可用於做上述運算,但是 CPU 還有大量的計算邏輯控制單元,這些單元在 AI 計算中是用不上的,造成了 CPU 在 AI 計算中的性價比較低。

AI芯片產業

3、CPU+AI 芯片的異構計算是完整 AI 計算實現的主流途徑

當前實現完整人工智能計算的方式為 CPU+AI 芯片的異構計算,AI 芯片也被稱為 AI 加速器或計算卡。

異構計算指的是採用不同架構的處理器協同計算。人工智能芯片(CPU、ASIC、FPGA 等)主要用來處理人工智能應用中的大量計算任務(其大規模並行計算能力優於 CPU),其他非計算任務仍由 CPU 負責,因此 AI芯片也被稱為 AI 加速器或計算卡。

AI芯片產業

4、GPU、FPGA 以及 ASIC 各有優劣,成為當前 AI 芯片行業的主流

正因為 CPU 在 AI 計算上的弱點,給了可以實現海量並行計算且能夠對進行計算加速的 AI 芯片留下了市場空間。從廣義上講,面向 AI 計算的芯片都可以稱為 AI 芯片,包括基於傳統架構的 GPU、FPGA以及 ASIC(專用芯片),也包括正在研究但離商用還有較大差距的類腦芯片、可重構 AI 芯片等。

AI 芯片三條技術路徑:GPU、FPGA、ASIC

代表分別為 NVIDIA Tesla系列 GPU、

Google 的 TPU、Xilinx 的 FPGA。

此外,Intel 還推出了融核芯片 XeonPhi,適用於包括深度學習在內的高性能計算,但目前根據公開消息來看在深度學習方面業內較少使用。

人工智能芯片的使用不斷普及。過去一個財年,NVIDIA 的數據中心業務(數據中心將 NVIDI GPU 用於 AI 計算等 HPC 應用)收入翻倍。2016 年底 Xilinx 推出支持深度學習的 reVision 堆棧後,已有超過 40 家合作客戶使用其芯片進行機器學習設計。

GPU

2000 年以後,GPU 被廣泛應用於高性能運算,“GPGPU”概念誕生。高性能計算(HPC,High Performance Computing)包括科學計算、數值分析、金融分析、密碼破解等,在 2000 年以後較快發展。HPC 中需要處理大量單指令多數據流(Single Instruction Multiple Data,SIMD),並且數據的運算遠多於數據的調度和傳輸,GPU 因此被用來代替 CPU 進行通用計算,GPGPU(General PurposeComputing on GPU,GPU 的通用計算)的概念也因此誕生。

全球數據中心(AWS、Microsoft Azure、阿里雲)廣泛採用 NVIDIA GPU 用於深度學習、數據分析等海量計算任務。

IBM 的數據中心 2015 年採購了 NVIDIA 的 K80 GPU,2016 年採購了NVIDIA 的 Tesla M60,2017 年年採購了 NVIDIA 的 Tesla P100

微軟雲平臺 Azure 的 N-系列虛擬機產品於 2015 年底開始部署了 NVIDIA的 GPU 加速雲計算平臺 NVIDIA GRID2.0,該平臺採用了 Tesla K80 GPU

2017 年 Google 將 NVIDIA 的 Tesla P100 和 K80 GPU 添加到其雲平臺

2017 年 3 月,NVIDIA 宣佈騰訊雲也將採用其芯片, 包括最新的 TeslaP100、Tesla P40、Tesla M40 等

2017 年 3 月,阿里雲發佈高性能計算實例 GN4,適用於深度學習和高性能計算,最多可提供 2 個 NVIDIA M40 GPU、56 個 vCPU 和 96GB 主機內存

中外 IT 巨頭採用 NVIDA 的 GPU 進行 AI 計算。

據媒體報道,谷歌旗下 DeepMind 的 AlphaGo 最早採用 GPU 進行深度學習計算(谷歌開發出第一代 TPU 後,其推斷任務的計算由 TPU 代替)

2015 年底,Facebook 的開源 AI 計算平臺 Big Sur 打在了 NVDIA 的 TeslaM40 GPU;2017 年初,雙方合作推進 Caffe2 的發展;2017 年 3 月,

Facebook 新一代 GPU 服務器 Big Basin 採用 NVIDIA P100 等 GPU 硬件及技術,可以更快地處理 Facebook 的文字、照片和視頻需求

2017 年 7 月,NVIDIA 與百度宣佈建立廣泛的合作關係,百度 Apollo 開放平臺從數據中心到自動駕駛都將使用 NVIDIA 技術,包括 Tesla GPU 和NVIDIA DRIVE PX 2,以及 CUDA 和 TensorRT 在內的 NVIDIA 軟件。而在此之前,百度的 AI 研究已經採用了 NVIDIA 的 GPU

科大訊飛在 GTC 2017 大會上宣佈採用 NVIDIA Tesla P4、Tesla P40 用於深度學習推斷

FPGA

芯片算力強、靈活度高,但技術難度大國內差距較為明顯

FPGA(Field Programmable Gate Array,現場可編程邏輯陣列)具有硬件可編程的特點,可針對 AI 計算進行二次硬件開發。

FPGA 是一種半定製電路,具備硬件可編程的特性。實現同樣的功能時,硬件編程特性使得 FPGA 的速度快於在通用電路 CPU 或 GPU 上執行軟件程序。

(1)算力強勁。由於 FPGA 可以同時進行數據並行和任務並行計算,在處理特定應用時效果更加明顯,對於某一個特定的運算,FPGA 可以通過編輯重組電路,生成專用電路,大幅壓縮計算週期。從賽靈思推出的 FPGA 產品看,其吞吐量和時延指標都好於 CPU 和 GPU 產品。

(2)功耗優勢明顯。FPGA 能耗比是CPU的10倍以上、GPU的3倍。由於在 FPGA 中沒有取指令與指令譯碼操作,沒有這部分功耗;而在複雜指令集(X86)的 CPU 中僅僅譯碼就佔整個芯片能耗的約 50%,在 GPU 裡取指與譯碼也會消耗 10%至 20%的能耗。

(3)靈活性好。使用通用處理器或 ASIC 難以實現的下層硬件控制操作技術,利用 FPGA 可以很方便的實現,從而為算法的功能實現和優化留出了更大空間。

(4)成本相對 ASIC 具備一定優勢。FPGA 一次性成本(光刻掩模製作成本)遠低於 ASIC,在芯片需求還未成規模、深度學習算法暫未穩定需要不斷迭代改進的情況下,利用具備可重構特性的FPGA 芯片來實現半定製的人工智能芯片是最佳選擇。

正因為存在上述優勢,FPGA 被廣泛用於 AI 雲端和終端的推理。

FPGA 被用於機器翻譯等人工智能計算,同樣展現出良好的性能。2013 年微軟正式開始了 Project Catapult 的研究,探討將 FPGA 應用於其 Bing 搜索、Office365 和雲計算服務平臺 Azure 當中。微軟在 2014 年的試運行中發現,採用 Altera公司 FPGA 使採用決策樹模型的 Bing 搜索計算時間縮短了 30%。2016 年微軟在gnite 2016 大會上展示了搭載 FPGA 的 Azure 雲平臺的機器翻譯案例——將 60萬字的《戰爭與和平》,從俄文原文翻成英文只需要 2.6 秒。

包括亞馬遜、微軟都推出了基於 FPGA 的雲計算服務,而國內包括騰訊雲、阿里雲均在 2017 年推出了基於 FPGA 的服務,百度大腦也使用了 FPGA 芯片。

從市場格局上看,全球 FPGA 長期被 Xilinx(賽靈思)、Intel(英特爾)、Lattice(萊迪思)、Microsemi(美高森美)四大巨頭壟斷。其中,賽靈思和英特爾合計佔到市場的 90%左右,賽靈思的市場份額超過 50%,國內廠商剛剛起步,差距較大。

專用芯片(ASIC)

深度學習算法加速應用增多,可提供更高能效表現和計算效率

ASIC(Application Specific Integrated Circuits),即專用芯片,是一種為特定目的、面向特定用戶需求設計的定製芯片,具備性能更強、體積小、功耗低、可靠性更高等優點。在大規模量產的情況下,還具備成本低的特點。

ASIC 與 GPU、FPGA 不同,GPU、FPGA 除了是一種技術路線之外,還是實實在在的確定產品,而 ASIC 只是一種技術路線或者方案,其呈現出的最終形態與功能也是多種多樣的。近年來,越來越多的公司開始採用 ASIC 芯片進行深度學習算法加速,其中表現最為突出的 ASIC 就是 Google 的TPU(張量處理芯片)。該芯片可以在相同時間內處理更復雜、更強大的機器學習模型。谷歌通過數據中心測試顯示,TPU 平均比當時的 GPU 或 CPU 快 15-30 倍,性能功耗(TFOPS/Watt)高出約 30-80 倍。

谷歌雲端的張量處理器 TPU、應用於大疆無人機和海康威視智能攝像頭的Movidius Myriad 芯片、曾用於 Tesla 汽車自動駕駛和 ADAS 的 Mobileye 芯片等都屬於 ASIC。

但是,ASIC 一旦製造完成以後就不能修改了,且研發週期較長、商業應用風險較大,目前只有大企業或背靠大企業的團隊願意投入到它的完整開發中。國外主要是谷歌在主導,國內企業寒武紀開發的 Cambricon 系列處理器也廣泛受到關注。其中,華為海思的麒麟 980 處理器所搭載的 NPU 就是寒武紀的處理器 IP。

AI芯片產業

3、短期內 GPU 仍將是 AI 芯片主導,長期看三大技術路線將呈現並行態勢

GPU 主要方向是高級複雜算法和通用型人工智能平臺。

(1)高端複雜算法實現方向。由於 GPU 本身就具備高性能計算優勢,同時對於指令的邏輯控制上可以做的更復雜,在面向複雜 AI 計算的應用方面具有較大優勢。(2)通用型的人工智能平臺方向。GPU 由於通用性強,性能較高,可以應用於大型人工智能平臺夠高效地完成不同種類的調用需求。

FPGA 未來在垂直行業有著較大的空間。

由於在靈活性方面的優勢,FPGA 對於部分市場變化迅速的行業最為實用。同時,FPGA 的高端器件中也可以逐漸增加 DSP、ARM 核等高級模塊,以實現較為複雜的算法。隨著 FPGA 應用生態的逐步成熟,FPGA 的優勢也會逐漸為更多用戶所認可,並得以廣泛應用。

ASIC 長遠來看非常適用於人工智能,

尤其是應對未來爆發的面向應用場景的定製化芯片需求。

ASIC的潛力體現在,AI 算法廠商有望通過算法嵌入切入該領域,以進入如安防、智能駕駛等場景。由於其具備高性能低消耗的特點,可以基於多個人工智能算法進行定製,以應對不同的場景,未來在訓練和推理市場上都有較大空間。

4,國內外 AI 芯片市場需求將保持較快增長勢頭,雲端、邊緣均具備潛力

近年來,伴隨著全球 AI 產業的快速增長,AI 芯片需求大幅上升。按照 Gartner 最新數據,2018 年全球 AI 芯片市場規模達到 42.7 億美元。未來幾年,全球各大芯片企業、互聯網巨頭、初創企業都將在該市場上進行角逐,預計到 2023 年全球市場規模將達到 323 億美元。未來五年(2019-2023年)平均增速約為 50%,其中數據中心、個人終端、物聯網芯片均是增長的重點。

二、 AI 芯片主要應用場景

1、數據中心(雲端)

根據承擔的任務和部署位置,大致可以將 AI 芯片分為雲端訓練芯片、雲端推斷芯片和終端推斷芯片三種。

深度學習算法與傳統算法不同,其參數的形成依賴於在大量數據中不斷訓練,這種訓練目前只能在雲端完成;算法形成後則可以用於推斷,即輸入新數據並獲得相應的智能輸出,推斷既可以在雲端完成,也可以在終端完成。

訓練芯片對算力、精度要求非常之高,而且還需要具備一定的通用性,以適應多種算法的訓練;推理芯片更加註重綜合能力,包括算力能耗、時延、成本等因素。

綜合來看,訓練芯片由於對算力的特殊要求,只適合在雲端部署,而且多采用的是“CPU+加速芯片”類似的異構模式,加速芯片可以是 GPU,也可以是 FPGA 或者是 ASIC 專用芯片。AI 訓練芯片市場集中度高,英偉達和谷歌領先,英特爾和 AMD 正在積極切入。

推理在雲端和終端都可進行,市場門檻相對較低,市場參與者較多。

AI芯片產業

雲端 AI 計算 GPU 是主流,FPGA 和 ASIC 也存在機會

AI芯片產業

雲端的應用重點包括神經網絡的訓練和推斷,數據量大、要求高。

人工智能模型訓練方面,,,,GPU 因其通用性、強大的浮點數處理能力優於其他芯片。主要原因為:

人工智能的實現,除神經網絡之外還需要其他算法和人工經驗的補充

神經網絡本身不斷升級,新的模型會不斷出現

人工智能模型推斷方面,,,,,對浮點數的處理要求較低,FPGA 和 ASIC 等已經可以較好地滿足需求,因此在雲端同樣存在機會。Google 和 Xilinx 的研究均可證明採用 INT8(8 位整數)運算器,可以在保證準確度的前提下加快模型推斷的速度、降低芯片功耗。

GPU 在人工智能模型推斷方面仍有很強的競爭實力,GPU 在雲端當前為 AI計算的主流芯片,未來的競爭力仍然不容小覷。由於NVIDIA較早地佈局人工智能,提供了豐富的 GPU 產品線及 CUDA 編程架構,有利於開發人員迅速使用,因此GPU 仍然具有強勁的競爭力。當前,越來越多的初創 AI 公司出現,而由於成本等方面的原因,部分 AI 初創公司或許難以研製用於 AI 計算的 ASIC 和 FPGA,這也是 GPU 競爭力強的原因之一。

終端應用要求低功耗,FPGA 和 ASIC 機會並存,ASIC 或是最佳選擇

終端設備的模型推斷方面,由於低功耗、便攜等要求,FPGA 和 ASIC 的機會優於 GPU。人工智能芯片將更多地應用於視覺類、語言類終端設備。其中,圖像視頻處理方面,由於設備需要面對大量圖像和視頻,計算量高於語音和文字處理。

主要的應用場景包括安防、消費電子、汽車、工業和醫療診斷等。

AI芯片產業

2、移動終端

移動端AI芯片市場不止於智能手機,潛在市場還包括:智能手環/手錶、VR/AR眼鏡等市場。

消費電子和可穿戴設備通常需要低功耗,ASIC 和 FPGA 的前景廣闊。AI 消費電子領域應用廣泛,AI 芯片將提高圖像處理、視頻處理、語音處理、語言處理的智能化水平。華為近期已經發布了全球首款手機端 AI 芯片。據今年 5 月媒體披露,蘋果目前也在研發搭載於手機端的 AI 芯片,可增強計算機視覺、語音識別、面部識別方面的性能。

AI芯片產業

3、自動駕駛終端

在雲端方面一般搭載 NVIDIA 的超級計算機 DG-X1(採用 Intel XeonCPU+NVIDIA Tesla GPU 的異構計算)

在終端方面一般採用 NVIDIA 的 Drive PX 系列(搭載 GPU 核的 arm 架構SoC)

目前,自動駕駛所使用的芯片主要基於 GPU、FPGA 和 ASIC 三條技術路線。但由於自動駕駛算法仍在快速更迭和進化,因此大多自動駕駛芯片使用 GPU+FPGA 的解決方案。未來算法穩定後,ASIC將成為主流。

伴隨人工智能技術在視覺領域的應用,基於視覺技術的自動駕駛方案逐漸變為可能,這需要在傳統行車電腦平臺上添加用於視覺算法處理的AI芯片。自動駕駛汽車計算單元設計需要考慮算力、功耗體積等問題,出於硬件資源最優化應用,往往採取異構計算平臺設計方案,及“CPU+XPU”(XPU包括:DSP/GPU/FPGA/ASIC),其中可採取DSP用於圖像特徵提取任務、GPU/FPGA/ASIC等計算單元用於目標識別、追蹤任務等,而CPU則會用於定位、決策等邏輯運算任務。

DSP芯片

DSP(digital signal processor)是一種獨特的微處理器,是以數字信號來處理大量信息的器件。其工作原理是接收模擬信號,轉換為0或1的數字信號,再對數字信號進行修改、刪除、強化,並在其他系統芯片中把數字數據解譯回模擬數據或實際環境格式。它不僅具有可編程性,而且其實時運行速度可達每秒數以千萬條複雜指令程序,遠遠超過通用微處理器,是數字化電子世界中日益重要的電腦芯片。它的強大數據處理能力和高運行速度,是最值得稱道的兩大特色。

即指能夠實現數字信號處理技術的芯片。DSP芯片是一種快速強大的微處理器,獨特之處在於它能即時處理資料。DSP芯片的內部採用程序和數據分開的哈佛結構,具有專門的硬件乘法器,可以用來快速的實現各種數字信號處理算法。在當今的數字化時代背景下, DSP己成為通信、計算機、消費類電子產品等領域的基礎器件。

目前, 世界上 DSP 芯片製造商主要有 3 家德州儀器(TI)、 模擬器件公司(ADI)和摩托羅拉(Motorola) 公司,其中 TI 公司獨佔鰲頭, 佔據絕大部分的國際市場份額, ADI 和摩托羅拉公司也有一定市場。

國產:

中電科 14 所承擔起研發 DSP 芯片的任務。

10 年磨一劍, 14 所跟龍芯公司、清華大學合作開發國產 DSP 芯片華睿 1 號在 2012 年通過核高基專項組驗收。華睿 1 號成功應用於 14 所十多型雷達產品中,創造了國產多核 DSP 芯片產品應用的“三個之最”: 雷達裝備應用型號最多、單臺套應用數量最多和總應用數量最多。 目前, 華睿 2 號已成功研製出,並已經通過所內測試,並將很快推向市場。 下一步, 14 所計劃將在華睿 3 號上採用更為先進的製造工藝,進一步提高主頻, 提高通用性能, 在專用性能方面採用流處理器方式,提高專用計算的性能,同時降低功耗。

“華睿 1 號”代表國內 DSP 芯片工藝最高水平。

在處理系統設計方面採用了 DSP 和 CPU 多核架構設計技術, 實測表明, “華睿 1 號”的處理能力和能耗具有明顯優勢,運行多任務實時操作系統十分穩定,芯片的整體技術指標達到或優於國際同類產品水平。華睿 1 號填補了我國在多核 DSP 領域的空白,對提高我國高端芯片的自主研發能力、提升我國電子整機裝備研製水平、保障國家信息安全等方面具有重大意義與影響。

魂芯 1 號是由中國電子科技集團第 38 所吳曼青團隊研製成功的, 2012 年完成測試。 魂芯一號(BWDSP100) 是一款 32 位靜態超標量處理器, 屬於 DSP 第二發展階段的產品。該芯片基於 55nm 製作工藝實現的,具有完全自主知識主權。

魂芯 1 號達到國際主流 DSP 芯片水平,與美國模擬器件公司(ADI) TS201 芯片新能相近。 TS201 是 ADI 公司的一款主流 DSP 芯片, 它集成了定點和浮點計算功能的高速 DSP。該處理器廣泛應用於視頻、通信市場和國防軍事裝備中,適合於大數據量實時處理的應用領域。

魂芯 2 號 A 剛剛發佈, 單核性能超過當前國際同類芯片性能 4 倍。 2018 年 4 月 23 日, 中國電科 38 所發佈了 魂芯 2 號 A, 該芯片採用全自主體系架構,研發歷時 6 年, 相對於魂芯 1 號,魂芯 2 號 A 性能提升了 6 倍,通過單核變多核、擴展運算部件、升級指令系統等手段,使器件性能千億次浮點運算同時,具有相對良好的應用環境和調試手段;單核實現 1024 浮點 FFT (快速傅里葉變換)運算僅需 1.6 微秒,運算效能比德州儀器公司 TMS320C6678 高 3 倍,實際性能為其 1.7 倍,器件數據吞吐率達每秒 240Gb。

AI芯片

目前最典型的產品如英偉達的DRIVE PX系列及後續的Xavier、Pegasus等。除硬件計算平臺外,英偉達為客戶提供配套的軟件平臺及開放的上層傳感器佈局和自定義模塊使得客戶能夠根據自身需要進行二次開發,其還為客戶提供感知、製圖以及行駛策略等解決方案。目前其產品已經被包括ZF、Bosch、Audi、Benz以及Tesla等Tier1s、OEMs廠商及諸多自動駕駛創業公司採用作為其處理器方案所使用。

英特爾進入自動駕駛芯片市場雖然較晚,但通過一系列大手筆收購確立了其在自動駕駛市場上的龍頭地位。2016 年,公司出資 167 億美元收購了 FPGA 龍頭 Altera;2017 年 3 月以 153 億美元天價收購以色列 ADAS 公司 Mobileye,該公司憑藉著 EyeQ 系列芯片佔據了全球 ADAS 70%左右的市場,為英特爾切入自動駕駛市場創造了條件。收購完成之後,英特爾形成了完整的自動駕駛雲到端的算力方案——英特爾凌動/至強+Mobileye EyeQ+Altera FPGA。英特爾收購 Mobileye 之後,後者也直接推出了 EyeQ5,支持 L4-L5 自動駕駛,預計在 2020 年量產。

AI芯片產業

4、安防

當前 AI 芯片在安防行業的雲端 GPU 是主流,終端 ASIC 是主流。

在雲端方面 GPU 是主流,AI 芯片可助力安防企業實現神經網絡訓練,有效提升人臉識別、人車識別和行為分析的智能化水平

在終端方面,AI 芯片與攝像頭設備結合,可實現快速的本地化識別,ASIC片目前已開始被主流安防巨頭應用,海康威視在攝像頭的嵌入式芯片方面選擇與 Nvidia(Jetson TX2,arm 架構的 ASIC)和 Movidius(主要芯片為 ASIC 類型的 VPU)合作

安防 AI 芯片市場上,除了傳統芯片以及安防廠商,還有大量的創業企業在湧入。國外芯片廠商主要有英偉達、英特爾、安霸、TI、索尼、特威、三星、谷歌等;

5、智能家居

人類 90%的信息輸出是通過語音,80%的是通過視覺,智能家居領域應用最多的就是智能語音交互技術。

家居電子ASIC 和 FPGA 的前景廣闊。AI 消費電子領域應用廣泛,AI 芯片將提高圖像處理、視頻處理、語音處理、語言處理的智能化水平。

雲知聲在 2018 年 5 月,推出語音 AI 芯片雨燕,並在研發多模態芯片,以適應物聯網場景,目前公司芯片產品已經廣泛用於智能家電如空調之中;

出門問問也在 2018 年推出了 AI 語音芯片模組“問芯”MobvoiA1;

Rokid 也發在 2018 年發佈了 AI 語音芯片 KAMINO18;

思必馳利用其聲紋識別等技術優勢,2019 年初推出基於雙 DSP 架構的語音處理專用芯片 TH1520,具有完整語音交互功能,能實現語音處理、語音識別、語音播報等功能。

AI芯片產業

6、機器人

機器人尤其是國內產業規模的快速擴大,將大幅帶動國內機器人相關智能芯片產業的發展。機器人由控制、傳感、驅動和電源四大裝置構成其中控制裝置是機器人的“大腦”,核心是 AI 芯片。

機器人芯片需要具備強大的數據計算、自主判斷思考和執行能力,國外廠商如高通、英特爾、英偉達都在積極部署該領域,國內企業目前處於追趕狀態,相關企業包括瑞芯微、珠海全志、炬力等。

三、國內外 AI 芯片廠商概覽

1、整體排名

近年來,各類勢力均在發力 AI 芯片,參與者包括傳統芯片設計、IT 廠商、技術公司、互聯網以及初創企業等,產品覆蓋了 CPU、GPU、FPGA 、ASIC 等。在市場調研機構 Compass Intelligence 2018年發佈的 AI Chipset Index TOP24 榜單中,前十依然是歐美韓日企業,

國內芯片企業如華為海思、聯發科、Imagination(2017 年被中國資本收購)、寒武紀、地平線機器人等企業進入該榜單,其中華為海思排 12 位,寒武紀排 23 位,地平線機器人排 24 位。

AI芯片產業

AI芯片產業

競爭格局以及產品:

英偉達GPU ,市場佔有率超過 80%

NVIDIA 產品向雲端和終端全覆蓋

GPU 因其通用性好,性能強大,良好的編程環境和成熟的生態而佔據了 AI 雲端市場絕大部分的份額。2017 年,GPU 在雲端訓練市場上佔比 90%,雲端推斷市場達到 60%。

在 FPGA 和 ASIC 等芯片的競爭下,GPU 的市場份額將逐漸下降,IDC 預計到 2022 年,GPU 在雲端訓練市場的佔比將下降至 60%,雲端推斷 市場則只剩下 30%。

產品:

AI芯片產業

得益於出色的開發環境搭建,NVDIA 在 AI 芯片的市場大幅領先 AMD 是最好的例證。NVIDIA 於 2006 年就推出了針對自家芯片的硬件編程架構 CUDA(Compute Unified Device Architecture)。除 arm 架構的芯片外,NVIDIA 的所有芯片滿足 CUDA 架構,允許被用來進行高性能計算。CUDA 提供了豐富的工具庫,方便用戶調用 GPU 進行高性能計算。由於缺乏有效的硬件變成庫,直到 2015 年底 Tensorflow 等深度學習平臺還不支持基於 AMD GPU 的計算。

AI芯片產業

AMD

在 AI 芯片佈局方面快速追趕 NVIDIA

早先由於不夠重視 AI 環境搭建,AMD 在 AI 芯片方面落後於 NVIDIA。AMD早先沒有推出全面的發力人工智能戰略,

一方面沒有像 NVIDI 一樣使主流 GPU 全部適用高性能計算,

一方面其GPU編程框架OpenCL的功能不如NVIDIA的CUDA平臺功能強大。

AMD 和 NVIDIA 的頂尖 GPU 性能不分伯仲,但其 GPU 在人工智能的應用上遠落後於 NVIDIA。

重視並正式推出硬件編程架構ROCm,Google和阿里雲開始使用AMD GPU ,AMD 在 AI 芯片方面獲得追趕 NVIDIA 的機會。2015 年底 AMD 宣佈 BoltzmannInitiative 計劃,之後推出了針對自家芯片的 GPU 編程架構 ROCm(Radeon OpenCompute Platform)。2016 年下半年,AMD 通過與 Google 和阿里雲的合作,正式追趕 NVIDIA 在深度學習的腳步。NVIDIA 的 GPU 在雲計算市場的壟斷顯然不利於 IT 企業控制成本,預計未來會有更多的雲計算等 IT 巨頭採用 AMD 的芯片。

谷歌TPU 推斷+訓練能力兼備

AI芯片產業

AI芯片產業

2016年穀歌對外公佈自主研發的第一代TPU已廣泛用於自家的深度學習推斷

(Inference),標誌 ASIC 首次作為 AI 芯片並大規模應用。2013 年 Google 因認識到神經網絡在未來的重要性,開始自主研發用於神經網絡模型的 ASIC 芯片(Application Specific Integrated Circuit,專用集成電路)——TPU(張量處理器)。2016 年,Google 在 IO 開發者大會上公開了此項目,並披露 TPU 被用廣泛於機器學習系統RankBrain、圖像搜索、Google翻譯、語音識別、Google 街景以及AlphaGo等。

Google第一代TPU展示出 ASIC芯片在神經網絡推斷方面優秀的性能和節能實力。由於神經網絡推斷(Inference)中對高精度浮點數的計算要求不高,Google設計的 TPU 不再對浮點數計算,而突出了其整數處理能力(INT8,8 位整數)。Google 公佈的文章顯示,TPU 的模型推斷速度是 NVIDIA K80 的 13 倍,而功耗卻只有其 10.6%,性能功(TOPS/Watt)比 CPU 和 GPU 高出約 30 至 80 倍。

脈動陣列(systolic array)乘法單元是 Google 第一代 TPU 的核心, 專門針對深度學習需要大量矩陣乘法的特點設計。在神經網絡推斷中,每個神經元需要接受輸入數據與權重相乘,再累加,在應用到激活函數中,矩陣乘法計算量極大。脈動陣列的計算方式不同於傳統 CPU 和 GPU。最大特點在於 TPU 的數據流通過寄存器(Register)後,一波一波地經過計算單元(ALU),而後者的每次計算都需要從數據寄存器流入計算單元 ALU,如此往復。正因為專注於矩陣乘法計算的特點,

Google 內部的文章也指出,TPU 不適用於通用計算。

AI芯片產業

由於使用了專用架構,Google TPU 實現了比同時期 CPU 和 GPU 更高的效率,目前已經發展到第三代。第一代的 TPU 僅能用於推斷,面對被英偉達 GPU 賺得盆滿缽滿的深度學習訓練市場,Google 在 2017年又發佈了第二代 TPU,除了推斷以外,還能高效支持訓練環節的加速。Google 目前已經通過雲服務把TPU 開放商用,處理能力達到 180 TFLOP,提供 64GB 的高帶寬內存(HBM),2400GB/s 的存儲帶寬

2018年,Google 發佈 TPU 第三代,其處理能力是第二代的 8 倍,顯示了 Google 快速的芯片迭代能力。

Intel 內生+併購打造 AI 芯片產品組合

Intel 內生方面的芯片融核芯片 Xeon Phi 架構兼具 CPU 和 GPU 的特性,可於 AI 計算。

Xeon Phi 脫胎於 Intel 的 Larrabee,是 Intel 推出的用於高性能計算(HPC)的融核芯片。Xeon Phi 不同於 CPU,也與 GPU 有一定差異(核數為數十個,而 GPU 的核則有成百上千),更多地被稱為加速卡或加速器。2015 年的TOP500 世界超級計算機排名獲得第二的天河二號就採用了 Intel 的 Xeon 和 XeonPhi 芯片。目前將 Phi 用於 AI 計算的企業較少。

Intel收購 Nervana並將生產人工智能 ASIC——Lake Crest。2014年NaveenRao離開高通神經網絡部門,並創建了Nervana。2016年8月,Intel收購了Nervana,後者目前已經成為 Intel 的人工智能事業部,負責整合 Intel 的整體 AI 業務,Rao擔任 Intel 數據中心事業部副總裁、人工智能解決方案部門總經理。Nervana 準備於 2017 年推出其自主研發設計的 ASIC 神經網絡芯片 Lake Crest。

2015 年 Intel 以 167 億美元收購了 FPGA 雙巨頭之一的 Altera。

目前全球的FPGA 市場規模約 60 億元。Xilinx 和 Altera 分別是市場份額排名第一、第二的企業,兩者的全球市場份額之和高達 90%,其產品廣泛應用於通信、網絡、雲計算和存儲、工業、汽車和國防等領域。2015 年 Intel 收購 Altera 時,業界對其解讀主要是 Intel 意圖佈局物聯網,而 2016 年之後人們越發意識到 Intel 收購 Altera 還可以幫助其開拓機器學習的市場。

Intel 於 2016 年 9 月收購了專注於低功耗機器視覺的 Movidius,其芯片主要應用於智能手機、無人機等移動設備中。其主要產品為 Myriad 系列 VPU (VisionProcessing Unit)芯片。

Google 的智能手機 Tango 即採用了 Movidius 的第一代芯片。Movidius 國內合作伙伴海康威視,被佈局 VR 的聯想選為合作伙伴,同時也是大疆無人機的芯片供應商。

Mobileye 的芯片被應用於汽車的計算機視覺和智能駕駛中(被 Intel2017 年 8月以 153 億美元估值完成對 Mobileye 收購)。特斯拉汽車曾採用其產品用於智能駕駛。據媒體消息,Intel 的自動駕駛事業部將併入 Mobileye 中。

Xilinx 的 FPGA 被應用到雲端和終端

低功耗、可編程的優勢使 IT 巨頭採用 Xilinx 的 FPGA 用於人工智能領域的應用。其中雲端部署的案例有:

2016 年 10 月,百度宣佈採用 Xilinx 的 FPGA 芯片加速機器學習,用於語音識別和汽車自動駕駛

2016 年 11 月,亞馬遜 AWS 宣佈採用 Xilinx 的 FPGA 芯片開發 F1 計算實例服務,用於大數據分析、機器學習等應用除了雲端的部署外,由於 FPGA 的高性能、低功耗等特點,國內外眾多廠商也不斷將 Xilinx 的 FPGA 用於終端應用的深度學習中。

AI芯片產業

其它

AI芯片產業

國內

寒武紀科技,華為第一款手機端 AI 芯片採用寒武紀 IP

寒武紀系列包含三種原型處理器結構,其三中原型分別為:

AI芯片產業

自 16 年成立至今,已經推出了面向終端市場的 1A/1H/1M 產品及針對雲端推斷的 MLU100 產品,並且開發了針對於 NN 運算的通用 ISA 和針對於自家芯片的 SDK。1A 和 1H 產品已經被華為麒麟系列芯片 SoC 所採納,此外,公司與多家服務器廠商推出針對雲端推理場景的智能服務器產品。

寒武紀的發展方向包括智能終端和雲端:

其中智能終端機方面,以 IP 技術授權為主,採用其 IP 華為的麒麟 970 即將跟隨 MATE 10 面世(新智元報道)。雲端推出專用加速卡,將與中科曙光開展合作(Digitimes 報道)。2016 年,寒武紀的“寒武紀 1A”深度學習專用處理器發佈,可用於手機、安防設備、可穿戴設備等終端。據媒體報道,2016 年寒武紀已獲得了 1 億元的訂單。


分享到:


相關文章: