智能網卡SmartNIC:“大”x86 Server中的“小”arm Server

智能網卡SmartNIC:“大”x86 Server中的“小”arm Server


Version 2.1, Winnie Shao, 2020 Mar

免責聲明:個人觀點,不代表任何公司。文章中列舉的數據,皆來自於公開新聞和會議。看文要打賞,但是大家也別太多了,請按覺得有用的程度打賞1-5塊錢,就當我做市場調查了。(在文末打賞的朋友,將直接支持給作者Winnie shao博士)

這文章我三個月的時間反反覆覆寫了4,5次,寫到2月底,放棄了。而且因為我放棄了,沒好好保留資料,因此這篇撿回來的文章,就沒有資料列表了。

這個週末朋友圈裡有又相關話題的討論,我覺得,還是應該發一下。

其實我的朋友圈,談這個話題是蠻危險的,容易被內行打臉,這是我折騰三個月,從熱情洋溢,到糾結卡文,最後放棄的主要原因。當初的動機是讀了一個heavy reading的智能網卡的報告,據說那個報告市價2850刀,我覺得吧,照那個標準,我寫一個值5000刀的報告簡直是分分秒秒的事情:)

什麼是SmartNIC ?按照產業慣例,一般新產品的定義都是由市場的老大確定。

Mellanox佔了10G速率以上網卡的70%市場份額(Crehan Research ),它對SmartNIC的定義是一個可以卸載通常由系統CPU處理的任務的網絡接口卡。智能網卡利用其板上的處理器,能夠完成加密/解密,防火牆,TCP/IP,HTTP等任何處理任務的組合。

下圖來自微軟舉辦的雲網絡大會的材料,展示了從卸載功能的⻆度看,一個傳統網卡與智能網卡的區別。


智能網卡SmartNIC:“大”x86 Server中的“小”arm Server

但是如我取的標題,來自於Broadcom的BD的演化,我覺得一個插在標準服務器中的小服務器,更合適描述SmartNIC的未來發展趨勢。

關於這篇文章的邏輯順序,我返工過幾次。

第一次,先講智能網卡的分類,LOM, FPGA-based,ASIC-based,然後按照分類與主要供應商,分析細分市場的發展與份額預測,這是按照市場分析報告的思路來寫。這種報告,多半是給投資者看的。其實heavy reading的報告就是這種給股市/公司投資者的市場分析報告。

第二次,我試圖先講智能網卡的三個主要部分:NIC,控制層面,數據層面。然後,按照25G/40G/50G/100G的規格,分析一下各個模塊的主要供應商和關鍵性能參數,並附上主要供應商的產品明細,這是按照專業技術報告來寫,給行內的採購者和應用者看的。

第三次,我試圖按照我個人的理解順序,先講why SmartNIC,SDN與I/O-offload關係,然後從大廠的發展策略,預測一下未來發展趨勢。然後就因為規劃太大,寫不下去了。

看SmartNIC的發展起因,主要是為了預測一下這個產品的發展方向。

按照Patty Kummrow,Intel的以太網部⻔GM&VP,在一次會議上的話,就是“我們賣網卡賣了30多年”,怎麼就出了新概念呢? 在Mellanox給的智能網卡定義中,有兩個關鍵詞,一個是卸載,一個是處理器。一個網卡明明不過是IO設備,怎麼就和處理器強關係起來了呢?而且如果是簡單的IO+CPU的組合,Intel明明有先機的,回頭看Intel在10Gbps網卡市場那是壓倒性的市場份額,又是CPU的大廠,怎麼可能被Mellanox拿一個網卡+CPU的東西翻盤?

簡單說,兩個因素:SDN與25Gpbs + IO接口的需求

市面上討論智能網卡SmartNIC的時候,總是提到SDN-Software defined Networking,但是我理解的SDN是控制面與數據面的分離,方便tele-com標準化硬件平臺,解除供應商鎖定。這個SDN跟SmartNIC也沒有直接聯繫。

如果從虛擬化技術看起,VMWare搞出虛機,顛覆了原有物理網絡對(物理)服務器的不移動的基礎假設,因此要自己做一個主機上運行的Software Switch,解決網絡與VM的對應關係,關鍵是解決虛機遷移,服務跟隨兩大問題。(中間有一大段的和Cisco的來回曲折,因為Cisco這樣的網絡設備提供商,肯定是想用物理switch上構建虛擬網絡來解決這個網絡與VM的對應關係,但是最後還是在主機上,過去是用純軟件,先是主機上的網絡加軟件的方式解決的,因此我就略掉這段故事了)。既然是軟件實現的switch,套用SDN的框架,或者說歸一到SDN框架下,去解決標準問題,也就順理成章。現在的服務器軟件棧中,網絡的組件功能特別豐富,不是一個vSwitch能描述的。

10Gbps網絡接口,如果按照MTU 1500Byte來算,0.83 Millions packet per second,一個3Ghz IPC 1.5的CPU單核,大約有5000指令的處理能力。再往上,25Gpbs,需要的CPU核數就劇增。而存儲的網絡化,以前HDD的性能瓶頸是磁盤的物理轉速上限,SSD沒有這個限制,SSD拉高了存儲帶寬,因此數據中心通過網絡共享存儲資源這個需求,例如NVMe-oF,迅速把網絡接口速率拉高。從1Gbps的網卡到10Gbps的網卡,業界走了近10年,但是25Gbps,似乎3年就成大趨勢了。而且還有隱隱加速的意思。

當用服務器的Xeon CPU處理主機上的軟件網絡棧,成為一件昂貴的事情的時候,Cost-down方案的機會就來了,當然由於有marketing這樣的專業人士的存在,Cost-down這樣的字樣是不會出現的,大家看到的就是網絡加速Network accelerate 或者業務卸載 workload-offload。

這裡,讓我插播一下,問一個拷問靈魂的問題,是先確定硬件平臺,在向上構造軟件生態的bottom to top的過程合理,還是先有軟件應用方案,然後top to bottom逐步offload業務,交由硬件加速合理?

如果是從下往上發展的業務,也就是先有硬件,再圍繞硬件打造軟件棧,過程漫⻓,平臺型軟件的同志們痛苦(在很⻓的一段時間內,無法判斷趨勢,要麼豪賭平臺,要麼消耗資源都支持),例如Nvidia漫⻓的打造CUDA之路,例如arm的服務器之路,但是如果是從上往下發展的業務,所謂的卸載業務,時間要短一點,但是硬件的同志們痛苦,而且戰況往往慘烈(短時間的以真金白銀的投入贏家通吃的市場), SmartNIC,AI芯片爆發都是這類。我給做應用的金主爸爸們一個建議:在硬件跟得上摩爾定律的時候,專心投錢做multi-arch軟件,挑最快的順風車搭。當硬件魔法失效的時候,給硬件碼農們錢,讓他們為你造一個獨享的法拉利。

BTW,我曾經的心儀對象Cisco公司,最近統一了硬件平臺,還開始外賣芯片 silicon one,以求擴大這個硬件平臺的影響力。又統一了軟件平臺。我感覺有點要重新起飛的狀態。(記得不構成投資建議的免責聲明吧?這完全是個人喜好)

Why SmartNIC的思路理順,我們下面看看幾個大廠是怎麼開始走上業務卸載——offload或者說硬件加速之路的。

Azure AccelNet SmartNIC


Azure在2015年部署了上百萬的智能網卡。但是和Mellanox的定義不同,Azure並不是一個有處理器的方案,而是一個FPGA-based的方案。


為什麼,如果回溯資料,無非是他們先有了一個FPGA的加速卡,已經插在服務器裡了。而且作為先行者,他們實現的非標準(當然你也可以用“創新”這個詞)VFP (virtual filteringplatform)很難在市場上找到可用的ASIC。他們估計一開始也沒有想搞個大動作,搞個arm CPU授權做個自己的smartNIC chip,已經存在的FPGA項目就是最好的入手點。


看到這裡,做FPGA的朋友們已經開始向我扔磚頭了。但是發貨上百萬量級,就不在FPGA的甜蜜點上了,大家心裡都明白的。


AWS Nitro項目


AWS Nitro項目,它不是一個芯片,也不是一個板卡,它是一個產品家族。它的設計目的非常清晰,就是把所謂的data center tax內部化。當它成功的全部內部化之後,一個新的產品形態,baremetal 裸金屬服務器就出現了。


至於什麼叫datacenter tax?就是所有的雲供應商用於管理虛機VM,給虛機提供遠程資源,加密解密,故障跟蹤,安全策略等服務程序。這些服務程序,也消耗計算資源,這部分被消耗掉的計算資源,就像tax一樣給附加在用戶購買的雲服務中。


所以Nitro項目都不能用網卡來命名,而且AWS的網卡驅動完全是個邏輯的,跟實際速率都無關。因此這個項目,算是把所謂的SmartNIC的NIC完全弱化掉,這跟Mellanox和Broadcom的SmartNIC產品是有點距離的。到這裡,做NIC的朋友們也開始向我扔磚頭了。

LITTLE Server on big Server


我喜歡B家的Stingray產品BD說的,這就是一個大服務器上的小服務器。當然,如果能加一個小arm服務器,就更好了。別管它叫什麼名字,它本質上就是一個赤果果的cost-down方案麼。


智能網卡SmartNIC:“大”x86 Server中的“小”arm Server


前景麼,我有一萬字的研究報告可以寫,略了。


By 一個等著收磚頭的人。


另推薦作者好文

《Arm服務器芯片編年史》

《多Die封裝:Chiplet小芯片的研究報告》


注:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。進一步交流技術,可以加我的QQ/微信:490834312。如果您想在這個公眾號上分享自己的技術乾貨,也歡迎聯繫我:)


分享到:


相關文章: