誰是當今存儲資源最豐富,接口速率最快的FPGA?

來源:內容由「網絡交換FPGA」編譯自「eejournal」,作者:Kevin Morris,謝謝。

在本系列的第1部分中,我們研究了Achronix,Intel和Xilinx的新型高端FPGA系列。我們比較了底層半導體工藝,可編程邏輯LUT架構的類型和數量,DSP /算術資源的類型和數量以及它們在AI推理加速任務中的適用性,聲稱的TOPS / FLOPS性能能力以及片上互連(例如FPGA路由資源和片上網絡(NOC)。從這些比較中可以明顯看出,這些供應商提供的每項產品都具有獨特而有趣的功能,這些功能將使它們在特定的應用領域脫穎而出。我們也無意中強調了對這種複雜的半導體器件進行有意義的分析有多麼困難。

Xilinx,Intel和Achronix這三個供應商都與我們討論了我們的假設和分析,並提供了對該系列的寶貴見解。

本週,我們將討論存儲器架構、封裝內集成架構和高速串行IO能力。在這裡,我們將再次看到,這一代FPGA遠遠超過了它們的前輩,我們將進一步證明這些可能是有史以來最複雜的芯片。我們正處於半導體演進史上一個迷人的時代,摩爾定律即將結束,新一代的人工智能技術和應用需要一種全新的計算方式,而巨大的競爭態勢也在為這些驚人的器件打開了巨大的新市場。

FPGA的實際性能與計算資源和內部帶寬一樣,都取決於內存架構。在今天的計算環境中,數據就是東西--而在計算流中有效地移動、處理和存儲這些數據是關鍵。今天,全球的數據基礎設施描繪出一幅壯觀的願景,從充滿傳感器的小型端點到網絡邊緣、本地存儲和計算,再回到擁有龐大計算和存儲資源的雲數據中心,然後再通過整個事情再回到邊緣。FPGA在這一環中的作用是巨大的--FPGA在存儲、網絡、內存和計算方面貢獻巨大。

ACAP不是FPGA

我們應該指出的是,Xilinx堅持認為他們的Versal ACAP系列器件是一個獨立於FPGA的類別--他們將其命名為 "ACAP",意為 "自適應計算加速平臺"。根據我們的理解,這一說法的關鍵在於Versal針對的是不同於傳統FPGA的受眾---應用開發人員可能不具備FPGA專業知識,他們需要的交互模型並不是從配置FPGA結構的bit流開始。事實上,他們指出,Versal可以在完全不配置FPGA結構的情況下啟動和操作。這一點,加上矢量處理引擎和片上網絡(NoC)等特性,是他們認為Versal器件是 "ACAP "而不是 "FPGA "的論點的基礎。

但是,出於本文的目的,我們將繼續針對這些其他非常相似的FPGA系列評估Versal ACAP。我們相信這三種產品將經常爭奪相同的插座。此外,我們的讀者總是有一大批FPGA設計專家,這些專家可以追溯到2009年之前,當時我們被稱為“FPGA Journal”。我們瞭解Xilinx的市場地位背後的動機。他們想吸引一個新的市場,對於客戶,“ FPGA”可能是一個令人生畏或令人困惑的標籤。賽靈思針對其“ Zynq”系列設備採取了類似的策略-將其稱為“ SoC”而不是“FPGA”。但是,“ ACAP”很難銷售,因為SoC類別已經存在,並且具有大量競爭產品。創建一個新的類別是一項艱鉅的任務。我們將看看它是否流行起來。

這些競爭產品家族中的每一個在針對他們設想的目標應用程序優化內存體系結構方面都採取了不同而有趣的嘗試。與傳統的CPU或GPU架構不同,FPGA獨特地允許重新配置存儲器層次結構以匹配手頭的任務。這可能對最終應用程序的吞吐量,延遲和功率效率產生巨大影響。FPGA存儲器架構使我們能夠劃分應用程序,以便每次使用存儲器時都可以在局部性/帶寬和密度之間取得最佳平衡。

FPGA的存儲資源

從密度最低但帶寬最高的是LUT本身內部的內存資源開始。在那裡,邏輯可以直接以硬接線方式訪問少量的存儲數據,為數據流創造了最有效的路徑。所有的FPGA架構都有基於LUT的存儲器作為核心特性。LUT存儲器的數量與LUT計數大致成正比,這一點我們在上週討論過。雖然這種存儲是超本地存儲,併為相關邏輯提供了基本上最佳的帶寬,但大多數應用的內存需求遠遠超過了微薄但寶貴的LUT內存資源。(LUT資源也是另外一種形式的存儲資源,在極端情況下也可以作為存儲資源來使用。SLICEM的LUT可以被配置為位寬為1bit、深度為64bit的RAM。可參看本公眾號之前文章《手把手教你動態編輯Xilinx FPGA內LUT內容》)

在密度上提高一級而在帶寬上降低一級,那麼,我們就有各種架構可用於FPGA架構中的“塊”存儲器。顧名思義,塊結構是FPGA架構內專用的硬化存儲區,需要數據路徑來跨越更多FPGA互連。每個供應商都有自己的策略來劃分這些片上存儲器資源。他們對各種類型的應用程序及其內存需求進行了詳盡的建模,權衡了分佈和密度之間的折中,並提出了一種分層的方法,使他們覺得最能解決最廣泛的問題,尤其是針對主要目標應用程序類型。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

從Achronix開始,Speedster 7t提供高達385Mb的嵌入式內存,分為LRAM2k,BRAM72k和MLP模塊。英特爾Agilex在三種類型的塊式嵌入式存儲器(MLAB,M20K塊和eSRAM存儲器塊)之間提供了300 Mb的嵌入式RAM。Xilinx Versal提供塊RAM,“ UltraRAM”和Accelerator RAM –在其最大的“ AI Core”設備中,總容量高達294 Mb。這些架構中的每一種都是供應商的最佳選擇,它認為在各種目標應用程序中,什麼大小的塊以及與其他資源的接近程度將提供最佳性能。

FPGA採用多芯片封裝技術

再往上一層,我們就有了包含在FPGA封裝中的存儲器。這一般是在高密度、高帶寬、高帶寬、高成本的技術中實現,比如HBM。由於我們是通過芯片外的方式來實現(通過互插器或EMIB或其他封裝鏈路),所以延遲和帶寬比嵌入式存儲器要低,但比通過傳統的存儲器接口(我們稍後會講到)在PCB上的芯片外實現要好。

然而,在討論封裝內存儲器之前,我們應該先談談三家廠商在封裝層面的集成方式的根本區別。在這裡,我們將以最小的終端用戶投資獲得英特爾Agilex的最大靈活性。英特爾的Agilex從一開始就為封裝內集成的靈活性而設計。英特爾使用了一種名為EMIB(嵌入式多模互連橋)的專有技術來連接封裝內的芯片組。FPGA結構本身是一個芯片組,SerDes收發器是另一個芯片組,封裝內存儲器(如HBM等)是另一個芯片組,還有其他可選的外設。這些外設都可以用不同的工藝技術來實現,這意味著英特爾可以隨時更新或刷新任何芯片組,而無需重新設計整個FPGA(就像他們用單片機方法一樣)。

英特爾在這裡的額外優勢是他們能夠基於最近獲得的eASIC技術夾帶定製芯片組。這意味著用戶的定製邏輯可以添加到FPGA的封裝中,只需最小的NRE和設計開銷就可以實現。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

Achronix已經宣佈了Speedster 7t作為一個獨立的芯片系列,但也有一個Speedcore嵌入式FPGA版本,它包含了與Speedster7t相同的資源,但也可以包含自定義指令,以進一步優化特定類別的應用;這些可能是專用的數據包處理、TCAM或信號處理功能。在這種情況下,在芯片與封裝之間的集成決定,以及在FPGA結構的同一塊硅片中包含哪些硬化IP,完全由客戶的設計團隊決定。這種方法為最終用戶提供了最大的靈活性和控制權,但對客戶端的成本、風險和設計專業技術要求更高。

誰是當今存儲資源最豐富,接口速率最快的FPGA?


Achronix也從事Chiplet(芯粒)業務,並參與開放計算項目(OCP)的開放域專用架構(ODSA)計劃。ODSA正在努力建立標準,以驅動開放的Chiplet(芯粒)生態系統,這將有助於創建混合並匹配來自多個供應商的小芯片的SiP。這將允許與英特爾類似的封裝級定製,但不能使用英特爾專有的EMIB互連技術。Achronix的觀點是,設計團隊通常最初會使用獨立的FPGA解決方案,一旦設計通過驗證,便會進行降低成本的回合,其中可能包括將一些邏輯強化到也包含可編程FPGA IP模塊的標準單元ASIC設計中,或者使用Chiplet(芯粒)構建自定義SiP。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

Xilinx在這三種設備中提供最少的設備自定義靈活性,但迄今為止卻提供了最多的“開箱即用”選項。賽靈思(Xilinx)是FPGA多管芯集成的先驅,它使用插入器將多個小芯片拼接在一起,形成了三代產品。有趣的是,Xilinx在其他人推動該戰略的同時也放棄了該戰略。Xilinx現在將其設備的更多功能構建到一個整體式芯片中。這帶來了速度,成本和可靠性方面的優勢,但降低了混合匹配Chiplet(芯粒)以定製封裝內集成的能力。為此,Xilinx正在計劃提供大量的Versal系列產品,以期提供具有適當資源集以匹配各種類型應用程序的現成設備。

說回內置內存,那麼,據我們所知,Xilinx和Intel都提供了類似的內置HBM堆棧。Xilinx表示會有Versal HBM系列,但還沒有正式公佈具體的細節,但我們可以根據他們在其他系列的支持來推測。通過Agilex,英特爾提供了最大16GB的HBM2,以及其他類型的內存資源放入包內的能力。Achronix 並沒有提供內置內存選項,而是聲稱他們使用了8個GDDR6內存控制器,每個控制器可以支持512Gbps的帶寬,給他們的設備提供了4Tbps的GDDR6帶寬,這與其他廠商提供的HBM選項相當,但成本更低。與HBM相比,其代價是更多的功耗和PCB設計的複雜性。GDDR6的出現可能會更直接(考慮到圖形子系統的目標市場),而HBM2還需要一些時間來實現量產。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

尋找對板載內存的支持,所有供應商都支持DDR4,並將支持DDR5。

英特爾Agilex繼續他們的方法,即提供帶有加固的DDRx內存控制器(HMC,但不提供“混合內存立方體”)的加固的內存控制器。英特爾進入HMC已有多年曆史,其歷史可追溯至28納米的Altera Arria 5系列。英特爾表示,他們的FPGA集成式硬存儲器控制器有助於在硬PHY中實現從內核到外圍的緊密傳輸以及從外圍到內核的時序傳輸,有效地保證了時序收斂並減少了編譯時間,並減少了半速率模式下的讀寫存儲器延遲。英特爾還支持其非易失性Optane持久性內存,該內存通過非易失性技術提供類似於RAM的性能。

Xilinx Versal AI Core系列(也使用加固的內存控制器)可提供高達1.2 Tbps的DDR4帶寬和高達1.6 Tbps的LPDDR4帶寬,並支持CCIX。(緩存一致性的加速器互聯,即CCIX™(讀成“see 6”)是一種能夠將兩個或兩個以上器件通過緩存一致性的方式來共享數據的片間互聯。CCIX規範的最大優勢之一是它建立在PCI Express規範的基礎之上。CCIX的一致性協議只需很少修改或者無需修改就可以通過PCI Express鏈路傳遞。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

有趣的是,英特爾還通過UPI / CXL協議支持對英特爾至強可擴展處理器的低延遲/一致性存儲器層次結構訪問。在以後的部分中,我們將與其他供應商討論更多有關集成到異構計算環境中的問題,並與其他供應商進行討論。

如上所述,Achronix(還利用了硬化的內存控制器)還支持GDDR6。在外部存儲器中,端口數量是許多應用程序的關鍵考慮因素,因為能夠從共享內存資源同時執行多個讀/寫操作的能力可以消除與內存帶寬相關的性能瓶頸。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

FPGA的高速I/O

當然,除非能夠有效地將數據移入或移出,否則出色的芯片就無法完成出色的工作。在數據移動方面,FPGA是無可爭議的王者-數十年來,他們憑藉靈活的邏輯和高速IO功能在不同的系統和協議之間橋接,移動和路由大量數據,從而生存了數十年。現在,所有這些供應商已將其最快的高速串行IO收發器轉移到更高吞吐量的PAM4技術。PAM4為邏輯定義了四個電壓電平,而不是通常的兩個電壓電平,在每個時鐘週期中將數據打包兩次。

誰是當今存儲資源最豐富,接口速率最快的FPGA?


Xilinx Versal ACAP支持多達44個GTY收發器(32.75Gb / s),以及多達52個GTM收發器(58Gb / s),總IO帶寬總計高達約1.31 Tbps。英特爾的Agilex系列產品可以包含一系列令人困惑的選項,因為SerDes收發器包含在不同的“ Tile”小芯片中,這些小芯片隨應用領域的不同而變化,最高可達8x PAM4 112 Gbps,最高48x PAM4 58 Gpbs。Achronix Speedster 7t提供了驚人的72x PAM4 112 Gbps收發器。所有這些都是令人印象深刻的數字,但請記住,SerDes收發器帶來了一些最艱鉅的設計挑戰,包括板級和系統級信號完整性。它們也是芯片成本的巨大貢獻者,因此選擇帶有一組能夠滿足您的應用需求的收發器的設備值得仔細考慮。(可參考文章:Xilinx公司發佈了單通道112Gbps的高速串口

誰是當今存儲資源最豐富,接口速率最快的FPGA?

對於瘋狂的快速以太網,Xilinx Versal ACAP首次推出了該公司內部開發的新型多速率MAC,該MAC可處理多種配置,包括4x10GE,1x40GE,4x25GE,2x50GE或1x100GE。Versal Prime ACAP設備最多包括這些多速率MAC中的四個。英特爾Agilex包括具有PCS的硬以太網MAC和支持16 x 10 / 25GE,8 x 50GE,4 x 100GE,2 x 200GE,1 x 400GE的FEC。這樣最多可實現4 x 400Gb以太網網絡接口連接。Achronix Speedster 7t在其7t1500中具有16個以太網通道,在7t6000中具有32個以太網通道。這分別提供了四個和八個400Gb以太網連接,並支持較低的速率。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

對於PCIe,Xilinx Versal ACAP提供了1個用於加速器(CCIX)的Gen4 x16高速緩存一致性互連,該互連通過標準PCIe鏈路,最多4個Gen4 x8 PCIe和最多2個多速率以太網MAC進行操作。英特爾的Agilex提供PCIe Gen4 x16(每通道最高16 Gbps)和Gen5 x16(每通道最高32 Gbps)。Achronix Speedster最多支持2個PCIe Gen5 x16。

誰是當今存儲資源最豐富,接口速率最快的FPGA?

簡而言之,所有這些系列都繼承了FPGA的傳統,即大規模、靈活的IO----而這個討論僅僅是蜻蜓點水。我們可以用幾篇文章來討論這些器件上的高速接口的微妙但關鍵的細微差別,因此,請花點時間來了解你打算根據你的應用需求使用的任何系列的細節。考慮一下整體解決方案中哪些是硬性的,哪些需要在LUT結構中實現或支持。只購買你實際需要的帶寬,因為如果你的應用不需要,就沒有理由支付昂貴的高性能收發器。

一般來說,法拉利跑車不是用來閒逛超市的。


在本系列的下一期中,我們將討論處理子系統和與外部處理器的集成、使用這些設備的加速器卡等硬件生態系統,以及--也許最重要的是--設計和應用開發工具的支持,讓我們從目標應用開發者的世界--無論是C/C++代碼、TensorFlow、OpenCL、SystemVerilog還是其他語言或方言--變成能夠利用這些設備的驚人力量的東西。

原文鏈接:https://www.eejournal.com/article/high-end-fpga-showdown-part-2/。


全文完。


分享到:


相關文章: