谷歌爸爸放大招:如何追趕人工智慧硬體的浪潮

在今年的谷歌I/O大會上,除了安卓P之外,谷歌還發布了非常重要的硬件:TPU3.0。這是這家科技巨頭第三次發佈新版本的機器學習專用處理器。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

AI開銷大,谷歌已Allin

人工智能需要大量的計算資源進行訓練。但是這個規模有多大?很多人是沒概念的。對於大公司來說,對資源的要求非常高,尤其是神經網絡,比如谷歌I/O大會大放異彩的安卓電池節約模式和自動亮度調整,就是Deepmind的產品,Deepmind在官方新聞並未透露讓手機學習這些行為需要多少資源,但是在圍棋項目上可以窺探一下。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

2000個P100運行兩三週才能訓練出強大的圍棋程序Deepmind訓練AlphaGoZero的時候,2000個TPU跑了40天。AlphaZero訓練則是調用了5000個TPU。寫成論文之後,Facebook在重現論文的時候,則是使用了2000個GPU運行了兩三週的時間,這個GPU都是英偉達的P100,一個8GPU的學習服務器英偉達就要賣到上百萬人民幣。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

TPU:每小時6.5美元,訓練AlphaGo要數百萬美元

讓巨頭們狠下心來自己搞AI硬件的動力來自多個方面,一來谷歌自己做針對TensorFlow優化的TPU效果好,二來現在谷歌雲都可以租賃分時使用TPU資源了,對於擅長硬件或是雲計算的科技巨頭們來說,是時候發展自己的AI硬件了,這正在成為大公司的遊戲。

CPU在任務處理器裡出現兩個核心,可以追溯到十多年前的奔騰四時代,剛剛出現的HyperThreaing技術。不過很多年過去,由於CPU的單個核心任務繁重,所以就算是服務器的版本,核心數也不過20多個就基本到頭了。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

GPU更多的核更適合機器學習和AI在神經網絡出現之後,要用計算機系統去模擬更多的人大腦的神經元,這樣神經網絡在訓練的時候對資源的開銷非常大。因為神經網絡的特點是節點多,這對於核心不多的CPU來說就需要非常大的服務器集群。但是當時人們發現了顯卡,單個顯卡上面有很多個單元,正好適合訓練人工智能的神經網絡。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

在TitanV當中,英偉達加入了640個張量單元用來加速AI訓練速度

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

英偉達的股票過去幾年成為投資熱點,暴漲了數倍而神經網絡單個節點並不需要多高的計算能力,這讓顯卡企業英偉達迅速的推出了針對神經網絡、機器學習專用的GPU,過去幾年英偉達的股價暴漲數倍。科技巨頭們採購的GPU往往以萬計,只有這個規模才能滿足他們對於探索的需求。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

DGX-2可以支持單機16個V100GPU現在英偉達成為了業內最大的機器學習GPU的供應商,並且英偉達自己也提供DGX系列機器學習服務器,今年的新款可以單機支持16個GPU,過去是8個。可以說英偉達是AI時代最大硬件贏家也不為過。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

贏家自信的微笑這裡我們回到開頭,Facebook訓練圍棋程序ELF用了多少個GPU?2000個!英偉達總裁黃仁勳還可以笑很久很久。

谷歌最早的GoogleBrain搞機器識圖的時候,就是大規模的GPU集群。據說曾經用力上萬張GPU來進行學習訓練。因為GPU並沒有針對性的對谷歌的TensorFlow框架進行優化。而到了和李世石下圍棋的版本,則已經開始使用自己的TPU,但是多達50個。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

谷歌完整經歷了從CPU到GPU再到TPU的流程到了與柯潔下棋的時候,可以看到機器已經變成了只要一個4U左右的4TPU服務器就可以,這就是專用芯片的威力,對於AI和神經網絡,專用芯片的效率提升是指數式的,而不是線性的幾個機架縮小到1個。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

TPU2.0:四個一張PCB,算力可以達到180TFlops

谷歌的TPU全稱叫做TensorProcessingUnit,張量處理單元,它針對谷歌的深度學習框架TensorFlow定製開發,TPU推出只有8位的低精度計算,並且有不小的板載內存以減少對內存的訪問,但是優化後可以極大的提高機器學習的效率。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

TPU3.0的高功耗不得不用上水冷散熱

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

圖片下面8個互聯機架有每秒1000萬億次的能力與柯潔下棋的是TPU二代,四個TPU有180TFlops的計算能力。而這兩天的谷歌I/O上則推出了TPU3.0版本,功耗進一步加大,使用了水冷。根據谷歌CEOPichai的話說,要比過去快十倍以上:這其實說的是一整個集群模塊,可以達到100PFlops,也就是所說的每秒1000萬億次。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

TPU只是對TensorFlow優化

當然TPU不是萬能的,它針對的是谷歌的學習框架,而Facebook的學習PyTorch框架基本就沒法用,所以目前來說還只是針對性的硬件。

谷歌的TPU本質上是ASIC,當然機器學習不止一條路,微軟就在5月7日的Build2018大會上,宣佈了ProjectBrainwave的預覽版,這其實比谷歌的I/O還早了幾天。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

微軟押寶FPGA

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

微軟ProjectBrainwave團隊負責人DougBurger展示FPGA模塊微軟押寶的是FPGA(現場可編程門陣列FieldProgrammableGateArray,簡稱FPGA),微軟始終認為FPGA更靈活,可以適應多種機器學習的類型。微軟還聲稱,FPGA可以使用圖形識別模型每1.3毫秒就識別一張圖片,而根據微軟CEOSatyaNadella的演講,FPGA的延遲要比TPU低5倍。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

近看FPGA,可以插在全高的PCIE服務器模塊上加速AI和深度學習計算微軟的FPGA靈活性在於不僅僅支持TPU支持的TensorFlow,也支持微軟自己的人工智能認知工具包,前面說的識別圖片就是最基礎的人工智能應用之一。與谷歌雲支持TPU差不多,微軟也即將在Azure雲中支持FPGA的人工智能、機器學習加速。

最近關於國產半導體的事情鬧得沸沸揚揚。其實半導體這種成熟的工業,要追趕的路還很長,不要妄自菲薄,也不要有點成績就沾沾自喜嚷嚷趕英超美才是正確的態度,路是一步一步走出來的。最近國內的芯片領域的領軍企業、具有深厚中國科學院背景的寒武紀就推出了MLU。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

寒武紀的成品模塊與芯片MLU造型上和英偉達標準版的顯卡有點像,也是在PCB後部用一個渦輪風扇橫向吹風散熱的結構,這種結構成熟,可以很容易的放到機箱裡面。當然我們更關心的是性能。根據寒武紀官方公佈的數字,INT8模式下最高可以達到166.4TFLOPS,大概和谷歌的TPU2.0性能相當。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

寒武紀會成為中國的英偉達嗎?

MLU和GPU一樣,都相當靈活,可以容易的放到機箱、服務器裡面起到專門的AI加速作用,並且MLU的工藝是TSMC的16nm,估計未來國內很多AI領域的研究會圍繞MLU展開。

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

機器學習硬件的應用場景,分學習和應用推理兩部分

谷歌爸爸放大招:如何追趕人工智能硬件的浪潮

谷歌助手號稱已經通過了圖靈測試,分辨不出AI與真人的區別今天列舉的只是眾多的AI硬件當中的幾個,還有大量獲得千萬美元以上風投公司的AI硬件在路上,燒錢背後是人們意識到了AI同過圖靈測試之後展現的強大,尤其是谷歌I/O大會上的谷歌助手,讓人分辨不出就是是人還是機器。但無論如何,硬件越強大、AI越智能,越能解放我們的雙手和勞動力,讓真正的大腦投入到思考當中。


分享到:


相關文章: