在硬件層面上,遠程的大型智能設備正變得越來越強大,為了滿足未來的計算需求,變革是絕對有必要的。
作者 | Jeffrey Burt
來源 | nextplatform
編譯 | Geek AI
有時候,如果你在某個商業領域堅持上足夠長的時間,市場就會自己來找你。
數十年來,Xilinx(賽靈思)一直是現場可編程門陣列(FPGA)的領導者,至今仍然佔有 60% 的市場份額。英特爾在大約三年前以 167 億美元的價格收購了 FPGA 領域的競爭對手 Altera,佔據了大部分市場份額。
儘管 Xilinx 在過去幾年中取得了穩定的增長,它在 2018 財年的收入比前一年增長了 8%,達到創紀錄的 25.4 億美元,但 FPGA 仍然剛剛開始在數據中心站穩自己作為計算機引擎的地位的腳跟。
而英特爾、AMD 和 IBM 的 CPU 仍然是計算的主要驅動力,在 Nvidia 和 AMD 的 GPU 加速器的幫助下,一些前景光明的 Arm 陣營的公司希望希望能夠在 Cavium 的領導下參與到這場變革中來。
於是,越來越多像 FPGA 以及定製化 ASIC——這些 CPU 之外的加速器被人們所使用,但是目前大部分的數據中心中佔據主導地位的處理器仍然是 CPU。
儘管如此,Victor Peng 這位在 Xilinx 工作了 10 年的老員工(自從今年 1 月份起擔任該公司 CEO),也看到了這種轉變,想著有朝一日可編程硅芯片會成為大型數據中心用戶、雲平臺建設者使用的高性能計算中心,以及常規企業的數據中心中的計算驅動力。
計算機領域正經歷著重要的變革,這導致人們對異構計算的需求與日俱增,從而在不用改變任何底層架構的情況下能夠適應手頭的工作量。特別是目前越來越多從核心到網絡邊緣再接入雲端的終端正在被連接起來,並通過傳感器、攝像頭和其他設備被賦予了智能,它們創造了大量的非結構化數據。
這些數據推動了對更強的計算能力和更大的存儲空間、使用人工智能 (AI) 和機器學習等技術的需求,從而使人們對這些數據有更好的感知和決策的能力。
正如我們在「The Next Platform」中談到的,FPGA 引起了人們對機器學習和深度學習領域的興趣,Xilinx 今年夏天則收購了以神經網絡和 FPGA 為業務核心的初創公司 DeePhi。
Victor Peng 在硅谷舉行的 Hot Chips 2018 上發表的主旨演講中提到:「這種形式的智能化中的各個組成部分是完全相互聯繫在一起的。這種情況切切實實地發生了,而且尚處於早期起步階段。」
尤其是從今天的角度來看,智能化意味著在某種程度上我們不僅僅擁有某種智能處理器(例如,系統級芯片,SOC),還要求所有的應用都擁有某種形式的人工智能,這通常會融入某種形式的機器學習技術。
「這種情況之所以讓人如此興奮,是因為它不僅已經對人們的日常生活產生了影響,而且由於其剛剛興起,並且這個領域的變革正在以指數級的速度發生著,它對人們日常生活的影響會越來越深遠。」
Peng 指出,有人預測在不久的將來每年的數據量將超過 10ZB,而且「從中獲得某種價值通常意味著對數據進行處理,並以某種形式從原始數據中提取這些信息,這大大推動了大型數據中心中服務器數量的增長。數據中心的規模擴展地比我們以前所見到的要大得多,計算、存儲空間和內存都在不斷增加。
你可以看到,目前機器性能的增長也已經跟上了數據處理和總的存儲空間那種指數級的增長速率。」
有趣的事,人們認為這一切都是通過各種各樣的大型數據中心用戶的廣告收入以及從雲平臺構建者的基礎設施服務獲利的。
然而,在這種情況下,仍然存在一個很大的問題,那就是摩爾定律,Peng 將其稱為「一個巨大的挑戰」。
摩爾定律告訴我們晶體管的尺寸會縮小,並且我們可以將更多的晶體管集成在一個特定的區域中,從而具備更強的處理能力以及更低的成本。50 年來,摩爾定律在這個行業中一直都十分有效,但如今這條定律已經很難再維持下去了。
他說:「我們每個人都根深蒂固地認為,即使是對於科技產品來說,日常消費者也希望能夠獲得處理速度更快、更便宜的產品」。
「實際上,我們每年都希望電子產品都能遵循這樣的物理定律:人們可以以同樣的價格得到能力更強的更好的產品。因此,當我們說摩爾定律不再適用於我們今天的產業發展時,這種影響是十分深遠的」。
多年來,芯片製造商已經使用了各種手段來跟上摩爾定律的步伐,包括增加更多的核心,驅動芯片內部的線程,以及利用各種加速器。
然而,Peng 認為更快更好的系統不僅需要通過處理器技術實現,還需要通過架構來實現。系統架構本身也面臨著諸多挑戰,特別是功率和密度,這也限制了性能。
「過去的 40 年中,計算主要集中在 CPU 和微處理器上。」Peng 說,
「在本世紀的頭十年,這種狀況漸漸走到了盡頭。從 2010 年起,計算環境開始向異構系統發展,這時我們的計算機所使用的處理器可以被分為通用處理器以及那些你可以廣泛稱之為固有硬件加速器的處理器。這樣的處理器可能是一個 CPU 或一個 MPU,當然,在機器學習領域 ASIC 也漸漸復興起來。」
機器學習和其他現代計算工作,以及激增的連接起來的智能設備(數百億),正推動新一輪的對硅技術的投資和對可配置和適應性強的硬件平臺的需求。異構結構設計將是推動性能提升的關鍵。
通過機器學習和所有這些相連的設備和系統,「你不能把它們固定下來,因為你無法預測當你部署這些設備時全部的需求將會是什麼。而且你不會想要通過改變物理設備來為這些基礎設施賦予相應的能力」。
「這種觀念不僅能夠在軟件層面上改變。在硬件層面上,遠程的大型智能設備正變得越來越強大,而且為了滿足未來的計算需求,這種變革是絕對有必要的。」
異構計算架構
在 Hot Chips 上,Peng 和其他 Xilinx 的官員在演講中談到了該公司接下來的戰略,包括即將推出的自適應計算加速平臺 (ACAP) 和 7 納米工藝的「Everest」系統級芯片。
Xilinx 在三月份第一次談到 ACAP,雖然那時他們並沒有就此平臺深入介紹,但是 Peng 的確在這個項目上傾注了經歷,在十月份 Xilinx 的開發者論壇上,他們很可能對這個平臺進行深度展示。
Xilinx 表示,ACAP 將在機器學習推理方面為該公司現有的 16 納米 FPGA 提供 20 倍的性能提升,並且在 5G 網絡方面提供 4 北的性能提升。今年晚些時候,「Everest」將在臺灣半導體制造公司的 7 納米工藝平臺上被生產出來。
Everest 框架圖
ACAP 是針對適應性和可編程性進行設計的。該平臺的可編程引擎將從源頭解決機器學習推理和 5G 網絡工作的問題。
體系結構的核心是一系列 Tile 單元,每個 Tile 單元都會表示一個互聯資源結構以及可以針對特定應用的可擴展本地內存的特徵。Xilinx 將提供一系列針對廣泛市場的 SKU(庫存量單位)。
可編程邏輯器件包含 DSP、LUT、URAM 以及 BRAM。按照 Peng 的設想,這個架構將允許用戶為該架構編寫程序,以最好地滿足應用需求。這使得他們能夠為不同的工作部署相同的硅芯片。
Peng 說:「這將使交換內核和 DSA 的輸入輸出能夠更快地進行,同時減少設計的限制」。
「這是一個多元化的市場。目前有許多關於數據中心和雲計算的討論,但是由於 AXAP 的靈活性和處理深度,它將服務於所有的市場。這個架構師可擴展的,所以他可以在汽車中、在雲應用程序、通信間的設備上、基礎設施上被應用。這種架構從一開始就是軟件可編程的,但歸根到底它還是可編程硬件。」
這也會讓我們得到更高的吞吐量、更低的延遲和更低的功耗。當我們談論現在的計算工作時,這些參數都和頻率一樣重要。
Peng 說:「這些天來,特別是由於我們著眼於機器學習領域,我們正熱衷於提高 TOPS(評價指標)」。
「這讓我想起了 1990 年代的 Megahertz Wars。然而,真正重要的並不是這種指標,重要的是應用程序的速度提升。我們通常以幾百兆赫或者大約千兆赫的頻率運行這些程序,而不是幾千兆赫。
這很大程度上是因為,由於我們的架構需要有普適性,我們使用了很多分佈時板載內存及其互聯結構,甚至還有一些端口的配置都是可以自定義的。你不僅可以優化數據通路和數據流,還可以優化內存的層次結構和帶寬,而板載內存的帶寬是很大的」。
閱讀更多 機器之能 的文章