AI芯片行業發展的來龍去脈

AI芯片行業發展的來龍去脈

作者 | 清華大學微電子學研究所尹首一

來源 | 《微納電子與智能製造》期刊

引言

人 工 智 能( aritificial intelligence ,AI )是 一 門融合了數學 、計算機科學 、統計學 、腦神經學和社會科學 的前沿綜合性技術。它的目標是希望計算機可以像 人一樣思考 ,替代人類完成識別 、分類和決策等多種 功能。在 2016 年 AlphaGo 擊敗李世石贏得人機圍棋 大戰後 ,人工智能引發了全球熱潮。與此同時 , Google、FaceBook、Amazon、Intel等巨頭紛紛成立AI團隊 ,促進人工智能技術的進一步發展。

在國內 ,國務院發佈了人工智能發展規劃 ,從國家層面對人工智能加以支持[1] ,各類互聯網公司和初創公司紛紛投入到人工智能產業。今天,海量數據的形成 、深度學習算法的革新 、硬件技術的變革、互聯網生態的完善助力人工智能產業呈現爆發式發展 ,而其中以核心人工智能芯片為基礎的強大計算力發揮著至關重要的作用[2] 。

一、人工智能芯片概況

當前人工智能的主流技術深度神經網絡概念早在20世紀40年代就已經被提出,然而幾經起落,甚 至被 90 年代中期出現的支持向量機所全面壓制。主 要原因就是當時沒有可以用於大規模並行計算的諸 如圖形處理器(graphics processing unit,GPU)等芯片的硬件條件 ,神經網絡的訓練仍然耗時太久 ,訓練成本過於高昂。隨著摩爾定律的不斷演進發展 ,高性能芯片大幅降低了深度學習算法所需的計算時間和成本 ,人工智能技術終於在語音識別 、計算機視覺等領域取得了重大突破。

然而 ,深度神經網絡的計算量在不斷膨脹 ,讀寫的數據量日趨龐大,網絡結構也越來越多樣化,這就要求作為硬件基礎的人工智能 芯片必須不斷進行相應的發展,以應對性能、功耗、靈活性這 3 個方面的挑戰 。

當前實現人工智能計算的技術路線可概括為 3 類:第 1 類是基於馮 · 諾依曼體系結構的通用處理器 ,諸如大家所知的CPU 、GPU 、DSP 等都屬於這一 類型。它以算術邏輯單元為計算核心 ,由於其通用性需要應對包括分支跳轉、中斷等複雜的指令處 理 ,需要消耗很多片上資源。

因此 CPU 的並行計算處理能力並不高,此外處理器本身頻繁的讀取操作會帶來大量的訪存功耗問題;第 2 類則是專用集成 電路(application specific integrated circuit,ASIC)。它針對特定的計算網絡結構採用了硬件電路實現 的方式,能夠在很低的功耗下實現非常高的能效比。

在網絡模型算法和應用需求固定的情況下, ASIC 是一個不錯的選擇。但 ASIC 本身研發的週期 很長 ,通常在 1~2 年 ,這就使得 ASIC 本身存在對算 法迭代跟進的風險性問題;第 3 類是基於可重構架 構實現的處理器 ,該技術是將計算部分設計為可配 置的處理單元 ,並且通過相應的配置信息來改變存儲器與處理單元之間的連接 ,從而達到硬件結構的 動態配置目標。

深度神經網絡因為計算量大 、數據量大 、結構特點多樣 ,基於馮 · 諾依曼結構的通用處理器以及專用處理器很難在這樣的算法上同時展 現出靈活性和高能效 ,可重構處理器在通用處理器 和專用處理器之間做了一定的折中和權衡 ,可以兼顧智能應用算法中的高性能 、低功耗 、高靈活度的特點。

二、人工智能芯片發展階段

近幾年來,人工智能技術的熱潮如火如荼,隨著人工智能產品的大規模落地應用 ,面向不同場景的各類算法紛紛湧現 ,計算數據呈爆炸式增長 ,芯片作為人工智能技術的硬件基礎和產業落地的必然載體 ,吸引了眾多巨頭和初創公司紛紛入局 ,各類人工 智能芯片陸續面世。針對不同應用場景 ,不同芯片的處理速度 、能耗 、支持的算法也各有優勢。根據人工智能產業的發展狀況和技術成熟度劃分 ,可以分 為4個階段[3] 。

2.1 人工智能芯片初級階段

第一個階段 ,人工智能芯片從 2016 年開始爆發 ,到目前在架構設計上已經比較穩定 ,相關的編譯器 的技術越來越成熟 ,整個產業格局基本成型。可以說 ,目前的人工智能芯片軟硬件技術已經為大規模 商用做好了準備。這類芯片主要採用現有的以 CPU 、GPU 、DSP 、FPGA 為代表的傳統芯片架構來運 行深度學習算法,主要部署在雲端。

在雲端訓練環節 ,深度神經網絡的計算量極大 , 而且數據和運算是可以高度並行的,GPU具備進行 海量數據並行運算的能力 ,並且為浮點矢量運算配 備了大量計算資源,與深度學習的需求不謀而合,成 為雲端訓練的主力芯片,以70%以上的市場佔有率 傲視群雄。但由於 GPU 不能支持複雜程序邏輯控 制 ,仍然需要使用高性能 CPU 配合來構成完整的計算系統 。

在雲端推理環節 ,計算量相比訓練環節少 ,但仍 然涉及大量的矩陣運算。雖然 GPU 仍有應用 ,但並 不是最優選擇 ,更多的是採用異構計算架構來完成 雲端推理任務。FPGA 提高了芯片應用的靈活性和 可編程性 ,與 GPU 相比具備更強的計算能力和更低 的功耗 ,在雲端加速領域優勢明顯。在產業應用沒 有大規模興起之時 ,使用這類已有的通用芯片可以 避免專門研發 ASIC 的高投入和高風險 ,但是 ,由於 這類通用芯片的設計初衷並非專門針對深度學習任 務,因而天然存在性能、功耗等方面的瓶頸,隨著人 工智能應用規模的擴大,這類問題日益突出[4] 。

2.2 人工智能芯片發展階段

新的計算模式往往會催生出新的專用計算芯片 ,面對人工智能時代對算力的強大需求 ,學術界和 產 業 界 紛 紛 提 出 了 自 己 的 解 決 方 案 ,谷 歌 (Google)的TPU、麻省理工學院(MIT)的Eyeriss、韓 國科學技術院(KAIST)的 UNPU 和寒武紀的 1A 則 是其中具有代表性的芯片 ,這類芯片在大規模量產 的情況下具備性能更強 、體積更小 、功耗更低 、成本 更低等優點。目前一部分通過採用語音識別 、圖像識別 、自動駕駛等算法切入人工智能領域的公司 , 也希望通過打造匹配算法的定製芯片和產品來實現 盈利。

當前深度學習部署呈現出從雲到端,賦能邊緣的趨勢 ,但應用於雲端的人工智能芯片普遍存在功 耗高 、實時性低 、帶寬不足 、數據傳輸延遲等問題,難以滿足邊緣計算的需求。在邊緣端進行推理的應用場景較之雲端更為多樣化,智能手機、可穿戴設備、ADAS、智能攝像頭、語音交互、VR/AR 、智能製造等 邊緣智能設備需求各異 ,需要更為定製化、低功耗、 低成本的嵌入式解決方案 ,這就給了初創公司更多機會 ,針對不同的細分市場來設計差異化產品。就未來整體市場規模來說 ,邊緣計算芯片在智能終端的帶動下將是雲端數據中心芯片市場的 5 倍以上。

未來幾年 ,我們應該可以看到“無芯片不 AI”的景象 , 隨著人工智能應用場景的逐漸落地 ,底層技術和硬件方向也更加清晰 ,隨之而來的是各類芯片公司的 白熱化競爭[5] 。

2.3 人工智能芯片進階階段

在這一階段 ,隨著深度學習算法的不斷演進 ,當 前的芯片架構難以滿足越來越高的算力支持 、越來 越低的功耗需求和層出不窮的各類算法 ,架構創新 是人工智能芯片的必由之路 ,而可重構計算架構則 是其中最具代表性的技術之一。可重構計算架構是 一種介於通用處理芯片和專用集成電路之間的 、利 用可配置的硬件資源 ,根據不同的應用需求靈活重 構自身的新型體系結構 ,同時具備通用計算芯片兼 容性和專用集成電路高效性的優點 ,被《國際半導體 技術路線圖》(2015 版)評為“後摩爾”時代最具發展 前景的未來通用計算架構技術。

該技術也被美國國防部推動的“ 電子復興計劃 ”( ERI )列 為 未 來 芯 片 的 核心支柱性體系結構技術之一。可重構計算架構天 然契合各類人工智能算法對專用計算芯片的需求, 同時也能保證算法和硬件的持續演進性 ,非常適合 應用於人工智能芯片的設計當中。採用可重構計算架構之後 ,軟件定義的層面不僅僅侷限於功能這一層面 ,算法的計算精度 、性能和能效等都可以納入軟 件定義的範疇。可重構計算技術藉助自身實時動態配置的特點 ,實現軟硬件協同設計 ,為人工智能芯片 帶來了極高的靈活度和適用範圍 。

美國 Wave Computing 公司推出的 DPU 芯片[6]和清華大學微電子學研究所設計的 Thinker 系列芯片[7] 是採用可重構計算架構的代表性工作 ,相比傳統架 構 ,它們具備較強的靈活性和計算能效,同時也具備處理器的通用性和ASIC的高性能和低能耗。

2.4 人工智能芯片未來階段

斷給人工智能芯片提出新的要求 ,加上底層半導體技術的進步 ,我們可以期待在 3~5 年內看到第二次 人工智能芯片技術創新的高潮 ,諸如存內計算芯片 、 類腦仿生芯片 、光子芯片等前沿技術將會從實驗室 走向產業應用[8] 。在更遠的未來 ,隨著算法演進 ,應用落地 ,會不

現有的人工智能芯片主要採用“存、算分離”的計算架構 ,即內存訪問和計算是分開的 ,而神經網絡 同時具有計算密集和訪存密集的特點 ,內存訪問的功耗和延遲等問題突出 ,因此內存成為了處理器性能和功耗的瓶頸。為了解決“存儲牆”問題 ,不少學者提出了存內計算的概念,在內存內直接採用模擬電路實現模擬計算 ,從而不再需要在處理器和內存之間耗費大量時間和能量移動數據。相比傳統的數字電路人工智能芯片 ,使用存內計算加模擬計算的電路能效比將大幅提高 。

類美國的腦計劃 、歐洲的人腦項目 ,以及最近中國提出的類腦計算計劃等。受到腦結構研究的成果啟發 , 複雜神經網絡在計算上具有低功耗 、低延遲 、高速處 理以及時空聯合等特點[9] 。腦仿生芯片的主流理念是採用神經擬態工程 設計的神經擬態芯片。神經擬態芯片採用電子技術 模擬已經被證明的生物腦的運作規則 ,從而構建類 似於生物腦的電子芯片。神經擬態研究陸續在全世界範圍內開展 ,並且受到了各國政府的重視和支持,

硅光子技術目前在數據中心和 5G 的高速數據傳輸中獲得了越來越多的應用。除此之外 ,硅光子 還可以用來以超低功耗直接加速深度學習計算 ,把深度學習的兩個輸入調製到兩束光上面 ,然後讓兩 束光在光子芯片的器件上完成 SVD 分解和干涉相乘 ,最後再把光信號轉化為數字信號讀出結果。最後,這些光器件都可以集成到同一塊硅光子芯片上 , 從而實現高性能光計算模組。

三、人工智能芯片未來趨勢

目前全球人工智能產業還處在高速變化發展 中 ,廣泛的行業分佈為人工智能的應用提供了廣闊的市場前景 ,快速迭代的算法推動人工智能技術快 速走向商用 ,人工智能芯片是算法實現的硬件基礎 , 也是未來人工智能時代的戰略制高點 ,但由於目前 的 AI 算法往往都各具優劣,只有給它們設定一個合 適的場景才能最好地發揮它們的作用,因此 ,確定應用領域就成為發展人工智能芯片的重要前提。但遺憾的是 ,當前尚不存在適應多種應用的通用算法 ,因此哪家芯片公司能夠抓住市場痛點 ,最先實現應用落地 ,就可以在人工智能芯片的賽道上取得較大優勢。

架構創新是人工智能芯片面臨的一個不可迴避的課題。從芯片發展的大趨勢來看 ,現在還是人工智能芯片的初級階段。無論是科研還是產業應用都 有巨大的創新空間。從確定算法 、應用場景的人工 智能加速芯片向具備更高靈活性、適應性的通用智 能芯片發展是技術發展的必然方向 ,弱監督 、自我監督 、多任務學習 、對大型神經網絡表現更好的智慧型 芯片將成為學術界和產業界研究的重要目標。計算 架構的高度並行和動態可變性 ,適應算法演進和應 用多樣性的可編程性 ,更高效的大卷積解構與複用 , 更少的神經網絡參數計算位寬 ,更多樣的分佈式存儲器定製設計 ,更稀疏的大規模向量實現 ,複雜異構環境下更高的計算效率 ,更小的體積和更高的能量效率 ,計算和存儲一體化將成為未來人工智能芯片的主要特徵[10]。

站在 2019 年的起點 ,人工智能芯片的架構創新除了關注神經網絡計算 ,更要關注全芯片的架構創 新。以安防智能芯片為例 ,這是一個典型的系統級問題,除了需要解決神經網絡加速問題 ,還需要處理曝光 、白平衡 、視頻編解碼等 ,並不僅僅是做好一個 神經網絡加速器就能解決的問題。除了神經網絡計 算還需要很多計算密集型的模塊 ,這些模塊採用什麼計算架構,也是整個智能芯片的核心問題。因此,人工智能芯片的架構創新就不能只是神經網絡計算架構創新 ,傳統計算架構也必須創新 ,這將是人工智能芯片架構創新的真正內涵 。

參考文獻

[ 1 ] 中華人民共和國國務院 . 新一代人工智能發展規劃 [Z]. 2017-07-20.

The State Council of the PRC. A new generation of artificial intelligence development planning[Z]. 2017-07-20.

[ 2 ] 人工智能產業發展研究課題組 . 北京人工智能產業發展白皮書(2018 年)[R/OL]. (2018-06-30)[2019-02- 28]. http://jxj.beijing.gov.cn/docs/2018-07/20180704102639512942.pdf.

Artificial Intelligence Industry Development Research Group. Beijing artificial intelligence industry develop ment white pape(r 2018 )[R/OL]. (2018-06-30)[2019-02- 28]. http://jxj.beijing.gov.cn/docs/2018-07/201807041026 39512942.pdf.

[ 3 ] YANN L C. Deep learning hardware: past, present, and future[C]// 2019 IEEE International Solid- State Circuits Conference - (ISSCC). IEEE, 2019:12-19.

[ 4 ] 朱海鵬. 深度學習硬件:FPGA vs GPU vs ASIC[EB/ OL]. (2017-11-07)[2019-02-30]. https://www.jianshu.com/p/74792ad68a2a.

[ 5 ] 魏少軍 . AI 芯片發展需要應用和架構創新雙輪驅動

[C]. GTIC 2018 全球 AI 芯片創新峰會 . 上海, 2018. WEI S J. AI chip developing requirement application and architecture innovation two- wheel drive[C]. GTIC 2018 Global AI Chip Innovation Summit. Shanghai, 2018.

[6 ] HEMSOTH N. First in-depth view of wave computing’s DPU architecture, systems[EB/OL]. (2017- 08- 23) [2019- 03- 12]. https://www.nextplatform.com/2017/08/23/first- depth-view-wave-computings-dpu-architecture-systems/.

[7 ] YIN S Y, YANG P O, TANG S B, et al. A high energy efficient reconfigurable hybrid neural network processor for deep learning applications[J]. IEEE Journal of Solid- State Circuits, 2018, 53(4): 968-982.

[ 8 ] 唐杉. AI 芯片 0.5 與 2.0[EB/OL]. (2019-02-25) [2019- 03-12]. https://mp.weixin.qq.com/s/jpgTCY3cC_AQhBxKznLaOw.

TANG S. AI chip 0.5 and 2.0[EB/OL]. (2019-02-25) [2019-03-12]. https://mp.weixin.qq.com/s/jpgTCY3cC_A

QhBxKznLaOw.

[ 9 ] 清華大學, 北京未來芯片技術高精尖創新中心 . 人工 智能芯片技術白皮書[R]. 北京:北京未來芯片技術 高精尖創新中心, 2018.

Tsinghua University, Beijing Innovation Center for Fu- ture Chips. Artificial intelligence chip technology white paper[R]. Beijing: Beijing Innovation Center for Future Chips, 2018.

[10] 尹首一, 郭珩, 魏少軍 . 人工智能芯片發展的現狀及 趨勢[J]. 科技導報, 2018, 36(17):45-51.

YIN S Y, GUO H, WEI S J. Present situation and future trend of artificial intelligence chips[J]. Science and Tech- nology Guide, 2018, 36(17): 45-51.

來源:尹首一. 人工智能芯片概述[J]. 微納電子與智能製造, 2019, 1 (2): 7-11.

YIN Shouyi. Artificial intelligence chips review[J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 7-11.

《微納電子與智能製造》刊號:CN10-1594/TN

主管單位:北京電子控股有限責任公司

主辦單位:北京市電子科技科技情報研究所 北京方略信息科技有限公司

(*本文由AI科技大本營整理,轉載請聯繫原作者)

福利直達!CSDN技術公開課評選進行中,參與投票即有機會參與抽獎!大獎福利請見下方海報,承擔你的2020全年技術乾貨!


分享到:


相關文章: