AI晶片黑科技盤點|半導體行業觀察

AI芯片黑科技盤點|半導體行業觀察

隨著大數據和深度學習得到越來越多應用,對於底層硬件和芯片也提出了新的要求。與傳統的處理器強調“處理能力”不同,大數據和深度學習應用強調的往往是“算力”以及“能效比”。由於大數據和深度學習應用算法中的特徵提取和處理使用的都往往是實打實的計算,因此需要高算力的芯片以期在儘可能短的時間裡完成計算。另一方面,能效比也是重要指標。能效比指的是完成計算所需要的能量,能效比越好則完成相同計算消耗的能量越小。

對於終端芯片, 越來越多的數據由於數據隱私、網絡傳輸帶寬和處理延遲的問題無法傳到雲端數據中心完成計算,這也就需要終端芯片能在終端完成計算;同時終端設備的電池容量往往有限,因此終端芯片在完成計算的同時不能消耗太大能量,也就是需要很好的能效比。對於雲端數據中心的芯片,同樣也需要很好的能效比,因為散熱成本是數據中心的重要開銷,因此需要芯片散熱不能太大。

在大數據和深度學習應用中,數據間往往都是獨立的,因此可以並行計算。傳統的CPU並行計算能力有限,因此難以實現算力的需求。GPU雖然有很高的算力(10TOPS數量級)而且在數據中心已經得到了應用,但是其功耗也很大(幾百瓦),而且其架構決定了它無法做到終端需要較低功耗(如100mW以下)的場景。同時,即使在數據中心領域,因為GPU設計的初衷是為了圖像渲染而並非大數據運算,因此也存在很大的改善空間。

因此,我們看到了許多在AI芯片領域來自學術界和來自工業界的項目,試圖挑戰CPU和GPU。這些項目大體可以分為兩類,一類是基於傳統的數字處理器模型,但是在處理器架構上加以改良,以提高算力以及能效比;第二類則是另闢蹊徑,使用了與傳統處理器完全不一樣的方法來執行計算,從而在一些領域中獲得遠高於傳統處理器的性能。今天我們為大家帶來的是第二類技術的總結,我們預期在第二類技術中會有一些能經歷時間的考驗,最終成為主流技術。

神經擬態計算

神經擬態技術(neuromorphic)事實上源遠流長,上世紀八九十年代就由加州理工的電路大師Carver Mead提出。當時Mead教授注意到MOS器件中電荷流動的現象和人體神經元的放電現象有類似的地方,因此提出了用MOS管模擬神經元以組成神經網絡進行計算,稱之為“神經擬態”。

需要注意的是,神經擬態中的神經網絡和現在深度學習算法中的神經網絡略有不同。神經擬態電路中的神經網絡是對於生物神經元和突觸的高度模擬,包括了神經電位改變、發射脈衝等過程,該過程既可以用異步數字電路實現,又可以用混合信號電路實現;而深度學習中的神經網絡是對於生物學中神經組織的抽象數學模擬,僅僅描繪了其電位變化的統計學特性而不會去具體描繪其充放電過程。然而,這個充放電過程卻可能是為什麼人腦如此節省能量的一個關鍵。人腦中複雜的神經網絡能實現極其複雜的推理認知過程,然而其功耗卻遠小於一個GPU。

2017年5月美國橡樹嶺國家實驗室發表了一篇重要的神經擬態研究綜述,應當說目前人們對於神經擬態的研究還處於初步階段,許多神經擬態架構的潛力還沒有被人們發現,同時如何訓練神經擬態電路也是一個重要的挑戰。從現在的研究來看,人們發現神經擬態的神經元在不被激活的情況下功耗較低,因此可以實現較低的平均功耗,這是一個重要的優勢。

舉例來說,當我們部署一套攝像頭加人工智能系統來識別是否有人進入攝像頭視野時,往往很多時間並沒有人出現在視野內。在這種情況下,使用傳統的深度學習算法無論攝像頭事業內情況如何都需要完成同樣的計算,因此功耗保持恆定;而如果使用神經擬態芯片則神經元僅僅在有人進入攝像頭事業時被激活,而在平時沒有人進入視野時神經元處於待機狀態功耗很低,因此其平均功耗可以遠低於傳統深度學習芯片。

換句話說,神經擬態電路的能效比可以遠高於傳統GPU/CPU芯片。除此之外,使用在終端的低功耗神經擬態芯片還能完成在線學習,而使用在終端的傳統深度學習推理加速芯片往往沒有在線學習的能力。這僅僅是神經擬態電路的一些好處,神經擬態電路的其他潛力還等待人們去挖掘。

神經擬態電路芯片的潛力也是一些大公司開始佈局的原因。IBM和Intel都推出了自己的神經擬態芯片(IBM和TrueNorth和Intel的Loihi),可以實現非常高的能效比。我們預期在未來看到更多的神經擬態電路芯片發佈,能更多挖掘神經擬態的潛力。

AI芯片黑科技盤點|半導體行業觀察

AI芯片黑科技盤點|半導體行業觀察

光電計算

硅光子技術目前在數據中心和5G的高速數據傳輸中獲得了越來越多的應用。除此之外,硅光子還可以用來以超低功耗直接加速深度學習計算。

2017年,MIT的Marin Solijacic教授和其研究組在《自然·光子學》期刊上發表了一篇使用光學器件加速深度學習計算的論文。在深度學習中,絕大部分計算都可以歸化為矩陣運算(這也是GPU用來做深度學習的原理),而實際應用中的矩陣都可以用SVD分解分解成幾個特徵矩陣的乘積。一旦使用SVD分解,則兩個矩陣相乘可以使用光學器件(相移器,分光器,衰減器和馬赫-曾德干涉儀)來實現。

更重要的是, 兩個矩陣相乘的過程可以轉化為兩束光的干涉,因此深度學習的計算可以以光速完成而且理論功耗為零!該論文提出的設計就是首先把深度學習的兩個輸入調製到兩束光上面,然後讓兩束光在光子芯片的器件上完成SVD分解和干涉相乘,最後再把光信號轉化為數字信號讀出結果。最後,這些光器件都可以集成到同一塊硅光子芯片上,從而實現高性能光計算模組。

AI芯片黑科技盤點|半導體行業觀察

MIT的光模塊用於計算深度學習

如前所述,一旦使用光干涉來實現深度學習計算,其計算速度就變成了光速,此外矩陣計算的功耗就變成了0,因此一旦能把光調製、光信號讀出等光信號處理和接口模塊的性能和功耗做好,整體系統的性能和能效比就能快速提升。 MIT的光計算團隊孵化出了 初創公司Lightelligence,目前已經完成A輪融資,光電子用於深度學習的前景讓我們共同拭目以待。

內存內計算

傳統的AI加速器幾乎都是基於馮諾伊曼架構,即內存訪問和計算是分開的。馮諾伊曼架構的問題是內存訪問,因為內存訪問的功耗和延遲等問題都很難降下來,因此內存成為了處理器性能和功耗的瓶頸,也即所謂的“內存牆”。

為了解決內存牆問題,不少學者提出了內存內計算的概念,這種概念在今年ISSCC上更是擁有了一個專門的session,可見學界對於這個方向還是很認可的。最著名的研究當屬MIT Anantha Chandrakasan組。Anantha Chandrakasan在芯片領域可謂是鼎鼎大名,是數字電路經典教科書《Digital Integrated Circuits: A Design Perspective》的作者之一,同時也是低功耗數字電路設計、UWB系統等多個領域的先驅者,基本每年Chandrakasan組在ISSCC都會至少有一篇論文發表。今年ISSCC上Chandrakasan組發表的內存內計算論文針對的是權重壓縮至1-bit的神經網絡,當權重僅僅為1-bit的時候,卷積就可以約化成多個數據的平均,而求平均值使用經典的DAC中常用的電荷平均方法可以輕易實現。

因此,該內存中計算的論文實質上是在片上SRAM上接了一個類似DAC中電荷平均的電路,在內存內直接實現模擬計算來求卷積,從而不用再需要處理器和內存之間耗費大量時間和能量移動數據。計算後的結果使用ADC可以再次轉化為數字信號。

AI芯片黑科技盤點|半導體行業觀察

相比傳統的數字電路AI加速器,使用內存內計算加模擬計算的電路可以把能效比提高60倍以上,顯示出了極大的潛力。當然,現在該電路還只能針對1-bit權重的網絡,未來如何把內存內計算推廣到更多應用場景,讓我們拭目以待。

量子計算

量子計算是真正顛覆性的範式——當然前提是需要先能把量子計算機制造出來!

量子計算和經典計算最大的不同在於,量子計算使用的是量子態。不同的量子態之間是可以互相線性疊加的,因此一個量子比特在測量前可以同時處於多個態的疊加中。而量子計算可以同時對多個疊加態進行操作,因此相當於做大量平行計算。

現在量子計算還處於非常早期研究階段,目前只有少數量子算法可以利用量子特性實現指數級的加速,所謂“量子霸權”就是指在某個特定算法可以製造出相應的量子計算機使運行速度超過經典計算機。那麼,量子計算如何加速人工智能呢?首先,目前正在積極研究量子版本的線性代數算法,有望實現指數級加速,而AI算法中許多計算的基礎正是線性代數,因此一旦線性代數的量子版算法開發完成就可以大大加速人工智能計算。另外,以D-Wave為代表的量子退火算法有望能加速最優化問題,而人工智能訓練的一個最重要問題其實就是求最優化解。因此,量子計算有望能加速人工智能。

AI芯片黑科技盤點|半導體行業觀察

目前量子計算芯片有許多實現方式,包括工作在超低溫下的離子阱和超導電路以及工作在常溫的非線性光器件。應該說這些芯片目前還在很初期的階段,雖然有些芯片已經能實現很多量子比特,但是量子退相干時間和量子門保真度仍然是性能的瓶頸。量子計算進入實用還有很長的路要走,但是一旦成功將會成為顛覆式的發展,這也是谷歌、IBM和微軟等巨頭都在積極佈局量子計算的原因。

結語

本文介紹了一些全新的人工智能芯片技術,包括神經擬態、光電計算、內存內計算和量子計算。傳統基於馮諾伊曼架構的人工智能加速器芯片存在內存牆等各種限制,我們有望看到這些新技術能在幾年後正式登上舞臺得到廣泛應用。讓我們拭目以待!


分享到:


相關文章: