百度歐陽劍:今年“崑崙”芯片在內部大規模使用!

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

3月15日,由智東西主辦,AWE和極果聯合主辦的AI芯片創新峰會,在上海成功舉辦!本次峰會報名參會的觀眾覆蓋了近4500家企業,到會觀眾極為專業,其中總監以上級別佔比超過62%,現場實際到會人數超過1800位。

大會現場,20位人工智能及AI芯片業界翹楚共聚一堂,系統的探討了AI芯片在架構創新、生態構建、場景落地等方面的技術前景和產業趨勢。

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

作為AI芯片的積極佈局者與應用者,百度在2018年7月發佈AI雲端芯片“崑崙”,備受行業關注。作為百度主任架構師,歐陽劍帶來主題為《百度崑崙讓計算更智能》的演講。

他從百度自身的業務需求和實踐經歷談道,百度內部有非常多的應用場景,包括AIoT、自動駕駛、智能雲等,不同場景對芯片的需求不同,這就意味著要走普適AI計算的道路。而通用靈活性、計算能力、能耗效率是普適AI計算的三大挑戰。

百度在過去7、8年時間裡已經做了很多AI架構的積累,最早在2010年就開始用FPGA做AI架構的研發,2011年開展小規模部署上線,2015年打破幾千片的部署規模,2017年部署超過了10000片FPGA,百度內部數據中心、自動駕駛系統等都在大規模使用。

而FPGA之後,專用芯片是繼續提升計算性能的必由之路。百度選擇自研AI芯片,並於2018年發佈了百度“崑崙”,它採用三星14m工藝的芯片,有很高的內存帶寬,算力更是達到260Tops。

歐陽劍稱,這個芯片是非常通用非常靈活的,芯片既可以做訓練也可以做推理,XPU的功能架構也在百度內部很多應用中得到驗證,相對而言,它是一款全功能的AI芯片。今年“崑崙”會在百度內部大規模使用。

大家都知道人工智能的發展離不開三要素:優秀算法、海量數據、超強計算。我們都知道計算是人工智能很重要的動力,過去很多年百度在計算方面做了很多工作,包括最早大規模部署了GPU、FPGA以及大規模開展AI芯片的工作。

人工智能正在變成非常“普適”的計算,從數據中心拓展到邊到端。像在自動駕駛領域,不能把數據只放在雲上,也不能把計算只放在雲上,智慧家居、智慧交通、智慧城市一樣如此。

過去的計算模式是有一個集群,幾萬臺機器,所有的機器、計算都放在那裡,儘管今天DataCenter的計算仍然很重要,但現在已經從DataCenter拓展到端,拓展到邊緣的地方,這是在新計算模式下對芯片架構、計算架構提出的不一樣的挑戰。

既然今天是普適AI計算的時代,挑戰在於通用靈活性、計算能力、能耗效率三方面達到非常好的平衡,任何一點不好,你的架構就只能用在某一場景,而非用在普適AI的計算上。把這三點做好以後,架構可以用在智能雲、智能駕駛、智慧交通、智能家居以及百度內部搜索、Feed流等很多場景上。百度有多樣化的場景,驅動著我們做芯片架構的時候做出普適AI芯片的架構。

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

“崑崙”的使命是讓“計算更加智能”,解決三個問題:1.高計算能力;2.高能耗效率;3.高靈活通用。高計算能力就是人工智能發展的驅動力;高能耗效率不論在數據中心、邊、端都是永恆關注的問題;同時人工智能算法在快速迭代,一定要保持芯片架構系統有非常高的靈活性和通用性,否則會“拖後腿”。

接下來我會給大家講一下三點:第一百度人工智能大業務介紹;第二百度人工智能芯片架構的積累和迭代;第三總結。

百度的業務包括雲和端,像智慧家居、智能駕駛、雲等,有兩個系統:1.百度大腦,為業務提供了強有力的算法、數據支持;2.百度智能雲ABC Cloud為業務提供了強大的雲服務、計算服務。

跟大家分享一下人工智能芯片的介紹,去年百度在開發者大會上分享了“崑崙”芯片,但實際上百度在過去7、8年時間裡已經做了很多AI架構的積累。百度有很多場景,包括AIoT、自動駕駛、智能雲,在這樣的場景下對芯片的需求是不一樣的。AIoT場景要求非常低功耗、場景分散零碎、芯片需要性價比高;汽車場景要求安全、高性能、複雜SoC;雲要求非常高性能以及高靈活度、高性價比。這是做普適AI芯片架構需要面臨非常大的挑戰。

根據過去幾年總結出來的經驗來看,大家都知道“摩爾定律”是一年半性能上一倍、成本下一倍,現在處理器的發展速度大家都在說像“擠牙膏”,每一年只提高10%或者20%,但AI時代的摩爾定律非常高,基本每兩年就有量子級的提高要求,包括數據的提高、模型複雜度的提高。

面臨這麼大的鴻溝,專用處理器是必經之路,過去很多年百度在探索一條適合百度發展的AI處理器之路。2011年左右在做基於FPGA的架構處理器器,Google和百度在同一時間投入AI架構器的研究,只不過大家的選擇路徑不一樣,我們選擇的是AI FPGA的方案,但在架構積累方面有很多共同的地方。基本上在2013年FPGA實現了性能AI處理器,2017年達到10 tops性能的AI處理器。2018年發佈了百度的“崑崙”,性能一下達到了260,比之前工作效率提高30倍。

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

百度是業界最早、規模最大用FPGA來做AI架構的公司,最早在2010年就開始研發,2011年開展小規模部署上線,2015年打破幾千片的部署規模,2017年部署超過了10000片FPGA,百度內部數據中心、自動駕駛系統等都在大規模使用。

百度跟Google都在2010、2011年的時候做AI處理器的研究和探索,儘管最開始選擇的路徑和Google不一樣,但在架構探索、架構理解上是異曲同工。百度作為互聯網公司在Hot Chips大會上發表過3篇論文,是國內在發表論文最多的單位。

百度跟Google的工作有些相似的地方,2014年提出了“SDA加速器”的概念(軟件定義的加速器),這也是比較常用的概念。加速器的架構跟Google TPU V1上所講的架構是比較相象,固定流水線,每一級都把任務固定好。在百度的架構裡會有一些數據緩存來提高數據的複用,會有比較大的計算陣列,也是大家常用的方法。

GoogleTPU的架構和我們差不多,有很大的片內Buffer來緩存數據,提高數據的複用,有很大的計算陣列,這是非常固定的流水線架構,很經典的方法。這個架構對訓練、多樣化端的場景遠遠不夠,因為缺點就是通用性、靈活性不夠。

2017年提出了XPU的架構,這個架構不一樣地方是極大地提高了編程的靈活性和通用性,分成兩部分,一部分是Customized Logic,其實就是可編程的編列加上可編程的向量計算。同時還增加了Many tiny cores,這是保持非常好編輯性的處理器,結合可以解決越來越複雜的需求。Google在2017年也分享了TPU2的架構,架構和XPU的架構也有很多異曲同工的地方,有M層很大的編列,這就是變量計算的小處理器。基本上XPU以及TPU2的理解都是類似的。XPU架構有很好的通用性、靈活性、高性能,在百度內部會用在智能雲、自動駕駛、AIoT等,證明在不同場景下都做的很好。

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

2017年底2018年初我們覺得要走上另一條路,要做芯片,出發點大家都能想的到,因為做FPGA的AI計算也做的不錯,但我們想再提高量級怎麼做?就是做芯片。

“崑崙”芯片是三星14m工藝的芯片,有很高的內存帶寬,達到了260tops性能,這個芯片是非常通用非常靈活的,芯片既可以做訓練也可以做推理。這是全功能的AI芯片,因為XPU的功能架構真正在內部很多應用裡都得到驗證,在線上部署過,包括圖像、語音、自然語言處理、自動駕駛、推薦等,我們有信心說這是比較全功能的架構。

百度歐陽劍:今年“崑崙”芯片在內部大規模使用!| GTIC2019

百度在自動駕駛上有很多業務,大家都知道自動駕駛是移動超級計算節點,我們會把“崑崙”放到自動駕駛領域進行應用,在自動駕駛方面還需要功能安全,我們會利用XPU強大的計算能力加上和車相關的東西,包括RTDS、高精地圖、感知、傳感器等。

給大家簡單總結一下,百度有超過8年AI加速器和處理器研發和大規模部署的經驗,上線部署了超過10000片基於FPGA的AI加速器,經過很多代的架構積累和探索,從最早的SDA到後來的XPU到崑崙我們有很多經驗。剛才我給大家分享了架構的積累、迭代和Google的架構有很多一致的地方,這說明互聯網公司在這一塊兒對架構的認知、芯片的認知都是有一致性的。

我們認為XPU是普適的AI計算架構,可以用在雲端、自動駕駛、邊緣計算,具有很高的計算能力、高通用性、靈活性。“崑崙”是基於XPU架構的AI處理器,去年發佈了“崑崙”消息,今年“崑崙”會在百度內部大規模使用。百度“崑崙”,讓計算更智能。謝謝大家!


分享到:


相關文章: