PC端國產cpu(龍芯,申威,飛騰)

消息:

日前,有媒體注意到,在中央國家機關發佈的新採購名單中,服務器產品的技術要求格外引人注目,龍芯、申威、飛騰等國產CPU都被列入了政府採購名錄;另一方面,在2018-2019年中央國家機關採購的臺式機和筆記本還都要求預裝國產LINUX操作系統。

政府採購發力國產芯片 龍芯、飛騰、申威進入採購名錄

打開中央政府採購網,可以發現,在“徵求意見公告”欄中,有一則發佈於5月17日的《2018-2019年中央國家機關信息類產品(硬件)和空調產品協議供貨採購項目徵求意見公告》。

CPU 目前佔主流市場的仍然是 Intel 和 AMD 兩大公司。

指令集是存儲在 CPU 內部,對 CPU 運算進行指導和優化的硬程序。一般將其分為兩大體系結構,複雜指令集 CISC(Complex Instruction Set Computer)和精簡指令集 RISC(Reduced Instruction Set Computer)

CPU 架構見表 1 所示。在 CISC 處理器中,程序的各條指令是按順序串行執行的,每條指令中的各個操作也是按順序串行執行的。順序執行的優點是控制簡單,但計算機各部分的利用率不高,執行速度慢。RISC 是在 CISC 指令系統基礎上發展起來的,其具有指令格式統一,尋址方式少,處理速度高等優點,目前在中高檔服務器中普遍採用這一指令系統的 CPU。

其中 CISC 的代表架構是 x86,而 RISC 主要有 ARM、MIPS、SPARC、PowerPC 和 Alpha 等架構。

國產處理器的現狀:

有自主知識產權的CPU:龍芯、申威

有部分知識產權的CPU:飛騰、華為

無自主知識產權的CPU:海光、宏芯、兆芯

其中,指令集和微結構這兩種參數最重要,指令集相當於CPU的設計程序,

而微結構相當於CPU設計程序的實現,指令集相對簡單,

微結構才是最有技術含量的東西。

龍芯3B4000和申威SW1621都採用了自有知識產權的指令集和微結構

,但是兩者的製造工藝都是最落後的,龍芯的主頻和核數也是最低的,其長期合作的代工廠意法半導體位於歐洲和美國,嚴格來講,龍芯屬於中國設計,歐美製造。

申威有軍方背景,其CPU必須是中國企業製造的。

PC端國產cpu(龍芯,申威,飛騰)

CPU單核性能彙總

PC端國產cpu(龍芯,申威,飛騰)

PC端國產cpu(龍芯,申威,飛騰)

我們先用申威、飛騰ARM、以及VIA與大陸的合資公司的四核桌面芯片做比較。由於桌面芯片更加註重單線程性能——單核性能是基礎,很多程序都依賴單進程的處理速度,

如果單核性能上不去,核心數再多也沒用,這也是AMD 六核、八核芯片打不贏Intel 四核芯片的原因。另外,對於桌面芯片來說,日常使用中更加倚重定點性能。因此,在這裡我們以單線程實際測試的定點成績做比較。

在編譯器為GCC的情況下,龍芯3A3000在1.5G主頻下的SPEC2006定點成績為11分,飛騰1500A在1.8G主頻的定點成績為10分。VIA在大陸的合資公司其產品ZX-A和ZX-C的定點成績為8—10分。

Intel I5 4460在3.2G主頻下SPEC2006的定點成績為32分;在編譯器為GCC4.4.7的情況下,龍芯3A3000在1.5G主頻下的定點成績為11分。誠然Intel在編譯器上佔有一定優勢,這裡為了方便比較就忽略編譯器帶來的差異了,就定點性能而已,龍芯3A3000的單線程性能大約為Intel I5 4460的三分之一。

國產CPU和Intel的差距,不僅僅是主頻上的。

哪怕兆芯的ZX-C能到達3G以上主頻,但因為微結構上的差距,依舊只有I5 4660性能的40%左右,因此微結構非常重要,可以說CPU的安全性、性能、功耗很大程度上取決於微結構,AMD的CPU在同主頻下性能遜色於Intel,很大程度上也是因為微結構上的差距。

微結構差距的原因

因為宏芯、兆芯、海思、展訊目前並沒有自主設計的微結構,就以龍芯、飛騰最新的兩款產品和Intel做比較。以GS464E和IVY的差距而言,通過對比下表參數,就能發現原因。

PC端國產cpu(龍芯,申威,飛騰)

如果將GS464E和IVY做對比就能發現,制約GS464E性能的最大的短板在定點發射隊列和浮點發射隊列上,相對於IVY的54項定點和浮點發射隊列,GS464E只有16項定點發射隊列,24項浮點發射隊列。

龍芯對此也是心知肚明,將正在流片的3A3000,針對GS464E的瓶頸做了改進,將定點發射隊列從16項提升到32項,將浮點發射隊列從24項提升到32項,並提升了緩存和主頻。很顯然,雖然龍芯宣稱TICK-TOCK,但3A3000相對於3A2000並非單純的提升主頻,定點發射隊列和浮點發射隊列的提升必然帶來IPC的提升。

根據飛騰公佈的Spec 2006的模擬器測試,整數為9.6/G。

9.6/G到底是什麼水平呢?筆者以Intel作參照,關auto parallel的情況下,haswell使用GCC5.1的SPEC 2006的成績為32分(@3.2G主頻)。也就是說,“小米”能接近haswell?

這實在是太“驚悚”了,如果真能做到,就是科技大躍進了。那SPEC2006整數9.6/G的原因何在?根源在於開/關auto parallel。

開auto parallel會導致SEPC2006整數分數增益,因為其將原本單線程執行的程序並行化給多個處理器執行,增益效果取決於編譯器、CPU的核心數量等因素。而相當部分常用的代碼並不支持auto parallel。因此,目前auto parallel對SPEC跑分更有意義。而“小米”SPEC2006整數高達9.6/G,很有可能就是因為在測試中開auto parallel的結果,那麼證據呢?

PC端國產cpu(龍芯,申威,飛騰)

從上表中“小米”和IVY的對比中看,“小米”和IVY還是有不小的差距的,並且和GS464E一樣存在定點發射隊列和浮點發射隊列相對IVY偏少的現狀,因此在資源有限的情況下,做出達到haswell水平的概率非常小。

對比“小米”和GS464E,假定兩者流水線效率相當的情況下,筆者認為“小米”可能是和GS464E一個等級的微結構,並強於ARM Cortex A57。當然,如果流水線效率不佳,“小米”也可能會遜色於GS464E。而“小米”32M的L2緩存,很有可能是因為針對服務器,甚至高性能計算的產物。

提一個潛力股,龍芯3A4000。

龍芯3A4000的潛力還有待挖掘,因為從圖表中看出,龍芯3A4000是唯一一款依然採用28nm工藝的CPU。龍芯3A4000的微結構非常不錯,即便CPU核不變或小改,直接換工藝,比如採用更先進的7nm工藝或16nm工藝,CPU的主頻和性能都有望得到大幅增長。

據小道消息,3A5000將採用12/14/16nm工藝,並小改CPU核,單核成績有望達到25至27分。如果將來採用7nm工藝,單核性能有望突破30分。參照龍芯3A2000到3A3000的研發進度,3A5000有望在2020年上半年流片。屆時,龍芯又能獲得一次性能提升。

總的來說,國產CPU進步明顯,海光單核性能最強,華為多核最強,龍芯潛力很大,SPEC20006測試每G主頻性能達到10分,在微結構設計水平上是國內數一數二的存在,其自主研發能力獲得實踐證實。申威3232雖然跳票,但性能值得期待。

有自主知識產權的CPU:龍芯、申威

中科龍芯

採用 MIPS 體系結構,具有自主知識產權,

PC端國產cpu(龍芯,申威,飛騰)

“龍芯”系列芯片是由中國科學院中科技術有限公司設計研製的,

產品現包括龍芯 1 號小 CPU、龍芯 2 號中 CPU 和龍芯 3 號大 CPU 三個系列,此外還包括龍芯 7A1000 橋片

龍芯 3

號系列是面向高性能計算機、服務器和高端桌面應用的多核處理器,具有高帶寬,高性能,低功耗的特徵。龍芯 3A3000/3B3000 處理器採用自主微結構設計,主頻可達到 1.5 GHz 以上;

計劃 2019 年面向市場的龍芯 3A4000 為龍芯第三代產品的首款四核芯片,該芯片基於 28 nm 工藝,採用新研發的 GS464V 64 位高性能處理器核架構,並實現 256 位向量指令,同時優化片內互連和訪存通路,集成 64 位 DDR3/4 內存控制器,集成片內安全機制,主頻和性能將再次得到大幅提升。

最新一代的CPU是3A4000,這款處理器使用28nm工藝,是本文中盤點的處理器中,製造工藝最差的一款。雖然製造工藝相對落後,但3A4000的單核性能卻並不比其他幾家遜色。採用GCC編譯器,SPEC20006定點和浮點成績都在20左右(@2G主頻)。

近些年,龍芯專注於微結構的提升,在製造工藝上普遍落後於同時期其他國產CPU,比如2015年前後問世的龍芯3A2000,工藝為40nm,而在此時,國內同行CPU的工藝大多為28nm。2019年問世的龍芯3A4000,製造工藝為28nm,國內同行的工藝普遍為7/16nm。

在製造工藝落後國內同行1至2代的情況下,龍芯能夠把CPU性能做到同一檔次水平,實屬不易。

從龍芯3B1500至龍芯3A4000,龍芯在製造工藝處於同一水平的情況下,通過自身設計能力,把CPU的性能翻了6倍,SPEC20006測試每G主頻性能達到10分,在微結構設計水平上是國內數一數二的存在。

這充分體現了龍芯的CPU設計能力,折射出能力建設和培養比引進國外技術更重要,與一些高度依賴臺積電先進工藝的廠商形成鮮明對比。

龍芯的桌面CPU做的非常不錯,但在服務器CPU上由於核數較少,暫時落後於國產X86和ARM CPU。由於3A/B4000多路性能提升較大,龍芯將主推4路服務器。

客戶:

做龍芯服務器的廠商為:

然後是龍芯服務器,龍芯服務器用的是龍芯3B3000,CPU內核為龍芯自主設計的GS464E。單核性能略低於SW1621,缺點是核心數太少,四核VS友商16核、32核的情況下,難免力有不逮。所以清華同方、寶德的服務器是直接上雙路的,就是為了彌補核心數少的不足。

雲海麒麟(1) | 五舟(1) | 寶德 PowerLeader(2) | 曙光(1) | 浪潮申泰(1) | 清華同方(1) | 瑞馳(1) | 百信雲龍(1) | 聯勤(富揚維鑫)(1) | 長城(1) |

PC端國產cpu(龍芯,申威,飛騰)

臺機:

PC端國產cpu(龍芯,申威,飛騰)

上海申威

採用 Alpha 架構,具有完全自主知識產權,

PC端國產cpu(龍芯,申威,飛騰)

申威處理器簡稱“SW 處理器”,出自於 DEC 的Alpha 21164,

其產品有單核 SW-1、雙核 SW-2、四核 SW-410、十六核 SW-1600/SW-1610 等[6]。神威藍光超級計算機使用了 8704 片 SW-1600,搭載神威睿思操作系統,實現了軟件和硬件全部國產化。

SW由相關單位設計,在超算上非常成功,神威太湖之光曾經多次在TOP500上名列第一,即便現在依然位居第三。在超算上取得成功後,SW開始把服務器作為發力的方向,2019年會有SW3231問世,2020年SW3232會問世,比PPT上的規劃時間晚一年。

就單核性能來說,SW3232採用14/16nm工藝,並且有極大概率單核性能達到25分(SPECint2006),多核性能600+是起步水平,實際性能會明顯高於這個水平。

SW3232在單核與多核性能上著實不俗,申威用實踐證明,獨立自主與CPU高性能可以兼得,沒必要一定依附於X86和ARM,中國人自主定義指令集完全走的通。

客戶:

我們看來申威服務器,支持申威服務器的廠商為:

ZoomServer(1) | 雲海麒麟(1) | 國威天成(2) | 寶德powerleader(1) | 方正(2) | 瑞馳(1) | 聯想(1) |

廠商後面括弧內的數字為機型數量。聯想能夠支持申威,這個讓人驚訝。鐵流認為,這一方面是自主CPU性能不斷提升的結果。另一方面,也折射出黨政採購開始放量,由於有利可圖,聯想也就開始做申威的服務器了。

幾款申威服務器的CPU都是申威1621,這款CPU採用28mn工藝,性能優於16核A57。

PC端國產cpu(龍芯,申威,飛騰)

PC端國產cpu(龍芯,申威,飛騰)

申威和兆芯入圍筆記本,和臺機

做申威的只有一家方正,而做兆芯的也只有一家聯想。

PC端國產cpu(龍芯,申威,飛騰)

PC端國產cpu(龍芯,申威,飛騰)

有部分知識產權的CPU:飛騰、華為

天津飛騰

飛騰購買ARM指令集授權後,於2015年發佈了自主設計的微結構和CPU。

產品主要有 FT-387SX、流處理器 YHFT64-2、FT-1000 系列、FT-1500 系列和 FT-2000 系列,其中 FT-1000 和 FT-1500 系列 CPU 已經成功應用於我國千萬億次服務器“天河一號”和“天河二號”。“天河二號”目前已經廣泛應用於天文宇宙科學研究、大氣海洋環境研究、工業設計製造、新能源新材料開發利用、生物醫藥與健康醫療等領域。

9月19日,飛騰發佈了新一代桌面處理器FT-2000/4。

根據飛騰的官方介紹,FT-2000/4集成4個FTC663,16nm製程,主頻2.6至3.0GHz,最大功耗10W,單核1GHz下芯片功耗降為3.8W。在專業CPU性能測試軟件SPEC2006中,FT-2000/4全芯片實測整數計算得分61.1,浮點計算得分62.5,相比飛騰上一代桌面CPUFT-1500A/4提升近1倍,訪存帶寬提升3倍。

就單核性能來說,從FT1500A到FT2000,再到FT2000plus性能提升有限,因而無法判斷FTC663相對於FTC662有多大的提升。根據測試成績來看,FT2000的單核性能(定點)為12+(飛騰的PPT也有13分的),假設FT-2000/4與FT2000同主頻性能處於同一水平,那麼,2.6G至3G主頻的FT-2000/4單核性能大約為16.5至19。

據悉,FT-2000/4在主頻2.6GHZ下,單核定點16到17之間,多核整數55到57之間。

從定點成績看,飛騰的FTC662和FTC663在同主頻性能上差距微乎其微,基本上FTC663可以視為FTC662的“微小改動版”。

因此,FT-2000/4單核性能最好成績(@3G主頻)應該是18+,接近19分,或19出頭一點,但到不了20分。

客戶:

支持飛騰的服務器:

Estor鯨鯊(1) | 雲海麒麟(1) | 五舟(1) | 天華星航THE(1) | 寶德 PowerLeader(2) | 柏科數據(Rorke)(1) | 浪潮申泰(1) | 清華同方(1) | 瑞馳(1) | 聯勤(富揚維鑫)(1) | 聯想(2) | 航星中雲(1) | 超雲(1) | 長城(1) |

PC端國產cpu(龍芯,申威,飛騰)

PC端國產cpu(龍芯,申威,飛騰)

臺機:

PC端國產cpu(龍芯,申威,飛騰)

華為

購買的ARMv8指令集,

由於美國政府的阻擾,華為有可能拿不到後續的ARM新版授權,可能被迫基於ARMv8指令集,去研發自己的指令集,也許對華為來說反而是好事。

最近,華為非常高調的再次亮相鯤鵬系列處理器。根據華為官方的PPT,鯤鵬920的多核性能非常強悍,搞到900+分。不過,華為沒有公佈鯤鵬920的單核性能,從華為的PPT上48核戰平英特爾28核的情況看(主頻相差不大的情況下),單核性能和微結構設計上與英特爾還是存在明顯差距的。鯤鵬920在國產CPU中的優勢有2個,一是核心數眾多,高達64個核心,而目前國產CPU中核心數達到64個的只有飛騰。第二個是採用7nm工藝,在工藝上領先其他國產CPU。

PC端國產cpu(龍芯,申威,飛騰)

客戶:

服務器:華為(4) | 航天天域(1) |

PC端國產cpu(龍芯,申威,飛騰)

PC端國產cpu(龍芯,申威,飛騰)


分享到:


相關文章: