03.07 華為GPU Turbo和Nvidia GPU有什麼區別嗎?

包紙玩機


華為的GPU Turbo功能屬於一項軟件優化功能,而NVIDIA的GPU屬於圖形硬件,兩者的類型市不同的。華為的圖形硬件就是麒麟芯片上的GPU,就拿麒麟970來說,其圖形硬件,相當於NVIDIA顯卡的就是Mali-G72,這顆GPU就是負責全方位圖形計算的手機“顯卡”,只是和NVIDIA不同的是,Mali-G72是集成在麒麟970芯片內部的,並不是一顆獨立GPU。

因為華為麒麟的GPU大都是使用ARM公版GPU架構,所以性能和能效比往往不盡人意,尤其是相比高通的Adreno系列有所落後,為此,華為研發了GPU Turbo技術,通過自家芯片和安卓系統底層的優化,使麒麟的GPU釋放出更多潛力,從而進一步提升性能和能效比,從這一點來說,GPU Turbo就有點像NVIDIA顯卡的驅動程序,專門為遊戲程序和硬件做適配優化。

所以華為的GPU Turbo和NVIDIA的GPU屬於不同類型的產物,一個是軟件,一個則是硬件,如果非要拿兩者找個對比的話,那麼應該是華為GPU Turbo和NVIDIA的顯卡驅動,Mali-G72和NVIDIA GPU。當然,因為架構的不同和規模的先天差距,麒麟的GPU性能無論怎麼在軟件上進行優化都遠遠不如NVIDIA的入門級GPU性能那麼強,手機端的GPU和桌面端始終是兩個不同定位的市場。


嘟嘟聊數碼


華為對GPU做了什麼?GPU Turbo 剖析


華為對GPU做了什麼?GPU Turbo 剖析

2018-08-02 17:29 預計 20 分鐘讀完

GPU Turbo 自 6 月份榮耀 Play 和榮耀 9i 發佈會上以“嚇死人不償命”的姿態問世後,不怕死的吃瓜群眾們紛紛帶著瓜子飲料礦泉水小板凳圍了個裡三層外三層,一時間流言四起。這之中,有些低級流言我們一眼就能看出真假,而有些流言卻要麼利用人的心理,要麼故作高深讓人一些不懂,因而倒也傳的似模似樣。

但這些終究不可盡信,甚至可信者百里無一。今天筆者便與大家一起,辨析兩條在玩家中傳的似模似樣的流言。

GPU Turbo 只是華為花錢買優化?


在 GPU Turbo 發佈伊始,餘承東便曾表示,GPU Turbo 技術在令 GPU 處理性能提高 60%的同時(注意,是“同時”),還可以將 GPU 功耗降低 30%。

Really?性能提高 60%,功耗降低 30%,多麼驚人的提升啊!筆者表示,手裡的榮耀 9 都快握不住了啊~

為了驗證官宣的真偽,我們以 Anandtech 的測試來作參考,簡單粗暴的判斷一下。測試中搭在了麒麟 970 的華為 Mate10 跑出了 37.66fps 的成績,在此基礎上提升 60%應該是 60.26fps;而功耗是 6.33W,在此基礎上降低 30%應該是 4.43W。

因此,按照官方宣傳的數據,麒麟 970 在 GPU Turbo 加持後,GPU 性能應該幾乎持平驍龍 845,而 GPU 功耗則要低於驍龍 845,對應的能耗比則為 13.60fps/W,成功反超使用驍龍 845 的三星 S9+,僅略低於高通 QRD(Qualcomm Reference Design)參考設計平臺。

這樣的計算結果雖然很美好,但若以性能來看,不過只是勉強追平驍龍 845 而已,根本達不到“秒殺”或“完勝”的地步。而功耗若僅降至 4.43W,也不足以完全避免降頻(畢竟比 4.43W 更低的驍龍 821、820、835 也都降頻)。

那這事情就有意思了,根據發佈會上的現場演示,以及此後一票媒體鋪天蓋地的實測,GPU Turbo 確實顯著改善了麒麟 970 的遊戲性能及功耗發熱表現,事實勝於雄辯啊,測試結果比理論推算的成績還要更好呢。

這時有人提出,華為官方公開的 GPU Turbo 支援遊戲列表,首批優化的遊戲有 6 款,分別是《王者榮耀》《QQ 飛車》《穿越火線》《刺激戰場》《全軍出擊》《荒野行動》。明眼人一看便知,這 6 款遊戲裡,有 5 個是騰訊系產品,剩下一個是網易的。要知道,騰訊系的遊戲可是典型的“付費優化”,只要肯花錢,藍綠廠的驍龍 660 都能秒殺其他品牌的驍龍 845。

怕不是華為終於想開了,肯給騰訊塞錢了?


實際上,對遊戲行業與公司稍有了解的朋友,很容易看出這種說法基本上相當於“出租車司機講內參消息”,聽著很帶勁,但不符合常識和邏輯。

華為與騰訊的合作,要遠比外界想象的更緊密。從 2017 年 12 月 2 日開始,華為和騰訊就成立了一個聯合實驗室,用來溝通與同步日常技術之間的升級以及優化。像是《刺激戰場》這類頭部產品的更新,華為還會派工程師駐場,以保障手機與遊戲之間更加適配,優化雙方用戶業務上線後的體驗。

因此,GPU Turbo 只是華為花錢買優化這種流言,只需稍作了解,便可直接打上 fake 的標籤扔進垃圾堆了。不過這也帶來了新的問題,既然 GPU Turbo 並不是花錢買優化這麼簡單,那華為到底是怎麼做到的?

這就要深入瞭解下麒麟 970 的硬件設計了。

華為對 GPU 做了什麼?


根據國外網站 techinsights 對三星 Exynos 9810 處理器核心的 X 光透視照片,我們已經可以清楚的知道,Exynos 9810 的芯片面積為 10.37mm*11.47mm=118.94mm²,其中三星自主設計的貓鼬 M3 大核心集群面積為 20.23mm²,Cortex A55 小核心集群面積為 1.87mm²,Mali G72 MP18 GPU 集群面積為 24.53mm²。

▲Exynos 9810 的 X 光透視圖

根據透視圖上標出的核心內模塊的比例,我們可以大致測算出,Exynos 9810 中單個 Mali G72 的面積大約為 1.072mm²。

而根據 techinsights 的研究數據,我們知道麒麟 970 的芯片面積為 9.75mm*9.92mm=96.72mm²,其中 Cortex A73 大核集群面積為 5.66mm²,Cortex A53 小核集群面積為 2.45mm²,Mali G72 MP12 GPU 集群面積為 18.04mm²。

▲麒麟 970 的 X 光透視圖

同樣,我們可以根據透視圖上標出的核心內模塊的比例大致測算出,麒麟 970 中單個 Mali G72 的面積大約為 1.344mm²,比 Exynos 9810 中的大了 0.272mm²,此外麒麟 970 中 Mali G72 核心的形狀也與 Exynos 9810 中的有很大不同。

而根據雷鋒網此前詳細解讀 7nm 製程的文章中的數據,Exynos 9810 所使用的三星 10nm LPP 製程與麒麟 970 所使用的臺積電 10nm FF 製程,在特徵尺寸和晶體管密度等指標上幾乎是相同的。

因此,Exynos 9810 和麒麟 970 中單個 Mali G72 核心形狀和麵積的差異,代表著二者雖然均為 Mali G72 架構,但在 GPU 內部電路設計及投放的晶體管規模上有很大不同。

更進一步的,我們可以得出一個基本結論:華為在設計麒麟 970 的時候,並不只是拿 Arm 的公版 Mali G72 進行了簡單的堆砌,而是進行了大刀闊斧的改良。


增加的面積,是緩存?


在 GPU Turbo 公佈後不久,網上便有人爆料,在中國專利公佈公告網上挖出了一篇名為《一種優化核函數的方法和裝置》專利(授權公告號 CN104866297B),並圍繞這篇專利大開腦洞。


這些分析者認為,“華為在 15 年以後設計的麒麟芯片 GPU 裡都設計了用於全局變量寄存器,同時為了保持專利申請到位前的應用,保留了 GPU 大外寄存格局”。簡單來說就是,華為沒有改動 Mali G72 核心,也沒有提高 Mali G72 的實際性能,但是在 GPU 區域加了寄存,同時修改了數據總線,提高了 Mali G72 的函數數據讀存速度和效率。(此為分析者的說法,並非筆者觀點)

為此,這些分析者笑稱“GPU 裡你也加 Cache?華而有錢,為所欲為”,甚至還認為華為在 GPU 技術上已經吊打 NVIDIA。

那麼,麒麟 970 的 Mali G72 之所以變大這麼多,就是因為華為在 GPU 裡增加了高速緩存咯?

筆者個人認為,這種可能性不能說沒有,但真的很小。

首先不得不糾正這些分析者的是,寄存器(Register)和 Cache(高速緩存)並不是同一種東西。在存儲體系中,Register 的位置要比高速緩存更靠前,它的速度比高速緩存更快而容量極小,為運算單元提供著指令寄存空間(IR)、程序計數緩衝(PC)以及累加器(ACC)等多方面的服務。

高速緩存在存儲體系中位於 Register 之後。它有兩大特點:第一是快,速度僅次於 Register;第二就是極其消耗晶體管,每 bit(不是 byte)就要消耗多達 6 個晶體管。

然而根據已知的消息,世界上第一顆集成高速緩存的民用級 GPU 是 NVIDIA 在 2001 年推出的 NV20,也就是 Geforce 3 系列顯卡,其在 GPU 內集成了 128KB Cache 用於紋理緩衝。2004 年,NVIDIA 又在 Geforce 6800Ultra 的 NV40 核心中增設了大小為 128KB 的 L2 Texture Cache,之後 Geforce 7800GTX 的 G70 核心又將之增加至 288KB。

ATI 這邊則是在 Radeon 1800XT 的 R520 核心中加入了完整的 L2 Texture Cache,並在 Radeon 2900XT 的 R600 核心中將其擴充至 256KB。而 Mali 系列 GPU 自 2008 年的 Mali 400 開始,也早已全線加入了 Cache 設計。根據 Arm 的官方設計參數,Mali G72 可以根據不同需求,自行配置 128KB~2MB 不等的 L2 Cache。

可見,在 GPU 中設置高速緩存並不是什麼新技術,更談不上什麼黑科技,NVIDIA、ATI 和 Arm 等 GPU 設計公司早在十年甚至二十年前就已經這樣做了。

緩存對 GPU 性能提升有多大?


上面我們已經知道了,麒麟 970 中單個 Mali G72 的面積大約為 1.344mm²,Exynos 9810 中單個 Mali G72 的面積大約為 1.072mm²,而根據 semiwiki 的資料,三星和臺積電 10nm 製程的晶體管密度均約為 55MTr/mm²(百萬晶體管每平方毫米)。

我們可以反推得知,麒麟 970 的 Mali G72 多出來的這部分面積,可容下約 1500 萬晶體管,即便全部用來做 Cache 也只有 300KB。相較於 Arm 官方設計參數中 128KB~2MB 可自由裁量的 L2 Cache 配置範圍,這 300KB 說是無足輕重也不為過吧。

OK,關於緩存的信息推導到這裡,基本可以說已經被顛覆了一半,而剩下的問題則是,萬一麒麟 970 真的是擴充了緩存規模,對 GPU 的性能提升能有多大?

為了驗證這一問題,我們要請出兩位已經捉對廝殺了四年半之久的老冤家:索尼 PlayStaion4 和微軟 XBOXONE。

也許有的讀者看到這已經明白了,沒錯,說的就是微軟為 XBOXONE 處理器設計的那 32MB ESRAM。

關於這兩臺機器的配置這裡就不在贅述了,簡單來說,PS4 的 GPU 規模更大,有 1152 個流處理器;XBOXONE 的 GPU 則只有 768 個流處理器,不過微軟為其設計了一塊 32MB 的 ESRAM 作為高速緩存。

▲XBOXONE 中 Jaguar APU 的 X 光透視圖

從透視圖中可以看出,右側的 SRAM 區域佔據了整塊芯片相當大的空間,比位於中部的 GPU 部分還要大。這 32MB ESRAM 可謂是吞晶巨獸,消耗了多達 16 億晶體管,要知道 XBOXONE 的整塊 APU 也不過 50 億晶體管而已,單單 ESRAM 就吃掉了幾乎三分之一。

而和 PS4 對比的結果也無需多言, XBOXONE 相對 PS4 仍存在普遍接近 30%的性能差異,與二者的 GPU 基礎規模差距基本相當,足以證明這 32MB ESRAM 對 GPU 性能的彌補微乎其微。

實際上,從技術角度來說,Cache 在整個 GPU 運算體系中多用作應對寄存器緩衝溢出使用。它的速度和延遲相對於寄存器來說差了不少,但可以在編程環境處理得當的前提下發揮很好的延遲掩蓋作用。除此之外,Cache 便只用作銜接 GPU 和顯存的作用了。

Mali G72,扶不起的阿斗


在雷鋒網此前分析 Arm 全新 Mali G76 的時候曾經提到,Mali G71/G72 的 Bifrost 架構採用了 4 寬度線程粒度,相比競爭對手架構的線程粒度(16~32 寬度)要小很多。通常來講,線程粒度反映了架構在資源 / 面積密度和性能之間的平衡點,較大的線程粒度可節省控制邏輯單元數量(單個 32 寬度線程粒度只需 1 個控制邏輯單元,而 8 個 4 寬度線程粒度需要 8 個控制邏輯單元)。


Mali G72 4 寬度線程粒度的設計,控制邏輯單元與 ALU 的比率太高了,浪費了大量硬件規模,實際遊戲中幾乎用不到這麼小的尺寸。隨著技術和應用的發展以及移動 GPU 在 VR 和高畫質遊戲領域的壓力不斷增加,Quad 結構的運算效率已無法滿足需求。

從 Anandtech 的測試中可以看出,Exynos 9810 的 GPU 雖然能耗比表現不錯,但卻是以巨大的芯片面積換來的。那 18 核 Mali G72 的面積比高通 Adreno 630 大 130%(Adreno 630 面積為 10.69mm²),性能卻還不如 Adreno 630。

與三星的狂堆核心數相比,麒麟 970 只使用了中等數量的核心,然後通過拉高核心頻率來榨取性能。不過每種核心架構在某一工藝下,都有一個能耗比最佳的頻率區間,越過這個區間後,繼續拉高頻需要付出極大的功耗代價。麒麟 970 的 Mali G72 MP12 頻率為 746MHz,功耗上升非常明顯,能耗比僅略高於使用 Mali G71 的 Exynos 8895。

說到底,性能不濟這口黑鍋還是得甩給 Arm 的 Mali G72 架構設計不行,從根本上便無法與高通 Adreno 這樣的高效架構抗衡。這不是簡單的往 GPU 裡多塞幾百 KB 高速緩存就能解決的問題。

而微軟為 XBOXONE 增加 ESRAM 的本意也不是為了彌補與 PS4 之間巨大的 GPU 規模差距,而是在設計之初由於 GDDR5 顆粒價格居高不下,微軟只能使用 DDR3 搭建存儲系統,其 68GB/s 帶寬相對於 PS4 的 176GB/s 相去甚遠,因而不得已才為其增設了一塊帶寬高達 216GB/s 的 ESRAM 用作銜接。在 GDDR5 的價格下降後,微軟在去年發售的增強版 XBOXONE X 主機上,已將 ESRAM 請出了寸土寸金的芯片。

因此,GPU Turbo 是依靠在 GPU 中增設高速緩存來提升性能的說法,到此可以徹底宣告終結了。

一切還需華為親自公開


遺憾的是,我們憑著數碼愛好者僅有的淺薄知識分析了這麼久,也只能攻破以上兩個流言,依然沒能石錘 GPU Turbo 到底是什麼。畢竟這是華為的獨門黑科技,就連一向不服同行的羅永浩也交口稱讚,其技術水平和難度可見一斑,真能被我們五六千字就扒個乾淨才是怪事了。

不過在華為此前的一次 EMUI 公開課上,華為消費者業務軟件工程部總裁王成錄博士親自出面解答了 GPU Turbo 技術的一些信息,為大家揭開了 GPU Turbo 神秘面紗的一角。

大家都知道遊戲畫面是一幀一幀渲染出來的,相鄰的兩幀往往有很多相同的地方,而 GPU Turbo 技術將會只渲染畫面出現變化的地方。也就是說,如果兩幀之間可能有 80%的畫面是一致的,GPU Turbo 就會讓芯片只渲染變化的 20%,從而減少 GPU 80%工作量。

渲染工作量的減少大幅提升了下一幀的幀數延遲,用戶眼球感受到畫面掉幀需要 16.7 毫秒的時間,華為 GPU Turbo 可以把下一幀的渲染時間控制在 7 毫秒以內,最快可以在短短 3 毫秒以內就完成下一幀的渲染工作。

合理調度 GPU 資源,節省 GPU 性能到遊戲最需要的地方,這才是 GPU Turbo 讓遊戲滿幀運行的秘密所在。

當然王成錄博士只是對於 GPU Turbo 技術工作原理做了一個簡要解答,至於 GPU Turbo 是如何判定並計算兩幀畫面之間的差別,王成錄博士並未做解答,或許這就是隱藏在 Mali G72 多出來那 0.272mm²中的商業機密吧。

GPU Turbo 從立項到研發成功耗費了 5 年多的時間,王成錄博士表示華為對此項技術非常自信,它的技術門檻非常高,其他家不太可能在短時間內跟進。此前國外 XDA 論壇上出現的 GPU Turbo 破解包也很快被證明是一場惡作劇而已,被國內數碼愛好者戲稱為“裝 X 不講基本法”。

看來,GPU Turbo 的一切,還需華為親自公開。


NVIDIA GPU—Tesla和GeForce的比較


NVIDIA的GPU產品主要有GeForce、Tesla和Quadro三大系列,雖然從硬件角度來看它們都採用同樣的架構設計,也都支持用作通用計算(GPGPU),但因為它們分別面向的目標市場以及產品定位的不同,這三個系列的GPU在軟硬件的設計和支持上都存在許多差異。其中Quadro的定位是專業用途顯卡而Tesla的定位是專業的GPGPU,單價相對較高,也都很少會被用作其他用途。但面向消費者的GeForce顯卡卻因為出貨量大,價格較低的緣故經常被當作另外兩個專業產品的替代品來使用。 本文主要探討Tesla和GeForce系列顯卡在各方面的差異。

生產廠商

Tesla系列產品全部由NVIDIA原廠設計和生產,產品品質和服務都更有保障。GeForce顯卡則主要由第三方廠商生產,而且還區分為採用原廠設計的公版型號和廠商自行設計的非公版型號,其產品的穩定性可能也因不同廠商的設計和工藝水平存在差異。

芯片及啟用核心數量的差異

雖然同一代的GPU產品都採用相同的核心架構,但不同型號的GPU採用的是不同等級的GPU核心,比如作為Tesla系列旗艦的P100採用的是GP100核心,而P40和P4則分別採用的是GP102和GP104核心,在GeForce系列產品裡,則還有采用更低的GP106/107/108等型號核心的產品。

雙精度浮點(FP64)計算性能的差異


在採用Pascal架構的GPU核心裡,只有GP100採用了單精度計算單元和雙精度計算單元為2:1的比例設計,其他核心採用的都是32:1的設計,這也就造成採用GP100核心的GPU比如Tesla P100和在雙精度計算能力方面遠遠超過其他型號。


ECC內存的錯誤檢測和糾正


在運行3D遊戲的GeForce顯卡上,即使出現一些內存錯誤通常也不會造成什麼嚴重的問題,對於個人用戶來說,顯示的畫面偶爾出現些許的錯誤完全可以容忍甚至會被忽視。但對於計算領域來說,就非常依賴於GPU返回數據的準確性,即使內存出現單比特錯誤也可能導致最終計算結果的極大誤差。


GeForce系列顯卡不具備錯誤檢測和糾正的功能, 但Tesla系列GPU因為GPU核心內部的寄存器、L1/L2緩存和顯存都支持ECC校驗功能,所以Tesla不僅能檢測並糾正單比特錯誤也可以發現並警告雙比特錯誤,這對保證計算結果的準確性來說非常重要。


保修政策


NVIDIA對GeForce GPU產品的保修政策說明明確指出,GeForce產品並非設計用於在服務器上安裝,在服務器中安裝和允許GeForce GPU會使保修失效。


GPU內存性能


計算密集型應用程序不僅需要GPU提供高性能計算單元,也需要GPU提供快速訪問數據的能力,否則再好的GPU核心也將成為巧婦難為無米之炊。 對於許多HPC應用程序,GPU內存性能的差異對最終結果的影響甚至比計算能力更明顯,Tesla GPU可以提供比GeForce GPU更好的內存帶寬:


造成這種性能差異的主要原因是GeForce GPU使用GDDR5或GDDR5x內存,而Tesla P100 GPU則使用性能更好的HBM2內存。


GPU內存(顯存)容量


一般來說,系統的內存越多,運行速度越快。尤其是對於某些HPC應用程序來說,內存不夠時甚至不能執行單次運行。GeForce 顯卡最大隻能提供12GB的顯存,而Tesla P40 GPU則最大可以提供2倍的顯存——24GB,這對GPU執行深度學習運算時使用更大的框架提供了支持。

*Pascal核心的Tesla的統一內存技術還允許GPU共享彼此的內存以加載更大的數據集

GPU的接口帶寬差異:PCI-E與NVLink - 設備到主機和設備到設備的吞吐量影響GPU最終性能的瓶頸之一是GPU總是在等待數據傳輸,尤其是當多個GPU並行工作時,它們就需要更大的數據傳輸帶寬。GeForce GPU通過PCI-Express連接,理論峰值吞吐量為16GB/s,而NVLink則允許每個GPU以高達5倍的性能也就是80GB/s進行通信, 只有Tesla和Quadro系列GPU才支持NVLink。


應用軟件支持


雖然一些軟件程序能夠在支持CUDA的任何GPU上運行,但某些軟件程序可以針對專業GPU系列進行設計和優化。 大多數專業軟件包僅正式支持Tesla和Quadro GPU,使用GeForce GPU也許是可能的,但軟件供應商不會提供支持。


操作系統支持


GeForce的驅動僅在個人操作系統也就是Windows 7,Windows 8和Windows 10中受支持,使用Windows Server操作系統應該考慮使用NVIDIA的Tesla和Quadro GPU產品。


Linux驅動程序則支持所有型號的NVIDIA GPU。


產品生命週期


由於消費者市場的特點,GeForce產品的生命週期相對較短(通常在產品發佈和生產終止之間通常不超過一年)。 需要更長產品壽命的項目(如購買後3年以上可能需要更換部件的產品)應使用專業GPU。


電力效率


GeForce GPU旨在用於消費者遊戲使用,通常不會設計節能特性。 相比之下,Tesla GPU專為數據中心而設計,電源效率很重要,這使得Tesla GPU更適合用作大規模部署使用。


DMA引擎


GPU的DMA引擎允許在系統內存和GPU內存之間的快速傳輸數據傳輸,這個傳輸性能對GPU加速至關重要,緩慢的傳輸將會導致CPU或GPU閒置並等待,造成系統性能的無謂浪費。


GeForce產品一般只有單個DMA引擎,同時只能在一個方向上傳輸數據。 如果數據正在上傳到GPU,則在上傳完成之前,無法返回由GPU計算的任何結果。同樣,從GPU返回的結果將阻止任何需要上傳到GPU的新數據。


Tesla GPU產品採用雙DMA引擎 , 數據可以在CPU和GPU之間同時輸入和輸出,無需等待,效率更高。


GPU Direct RDMA


NVIDIA的GPU-Direct技術可大大提高GPU之間的數據傳輸速度,RDMA功能則可以對多臺機器之間的數據傳輸提供最大的性能提升。


傳統上,在集群的GPU之間發送數據需要3個內存副本(一次到GPU的系統內存,一次到CPU的系統內存,一次到InfiniBand驅動程序的內存)。GPU Direct RDMA去除了拷貝到系統內存,允許GPU通過InfiniBand直接發送數據到遠程系統,新版本的CUDA甚至允許GPU不與GPU進行任何交互的情況下啟動RDMA傳輸,這可以極大的增加GPU之間數據傳輸的實際性能。


GeForce GPU只能支持單臺機器內部的P2P GPU Direct,不支持跨主機的GPU-Direct RDMA 。Tesla GPU則完全支持GPU Direct RDMA和各種其他GPU Direct功能 ,這對GPU機器的集群部署非常有幫助。


Hyper-Q的支持


Hyper-Q代理允許多個CPU線程或進程在單個GPU上啟動工作。 這對於使用MPI編寫的現有並行應用尤其重要,然而,GeForce GPU僅僅支持CUDA Streams的Hyper-Q,也就是說GeForce只能從單獨的CPU內核有效地接受並運行並行計算,但跨多臺計算機運行的應用程序將無法有效地啟動GPU上的工作。Tesla則具備完整的Hpyer-Q支持能力,更適合多個GPU集群的並行計算。


GPU健康監測和管理能力


許多健康監測和GPU管理功能(對於維護多個GPU系統至關重要)僅在專業的Tesla GPU上得到支持。 GeForce GPU不支持的健康檢測功能包括:


  • NVML / nvidia-smi用於監控和管理每個GPU的狀態和功能。 這使得GPU支持來自許多第三方應用程序和工具,如Ganglia。 Perl和Python綁定也可用。

  • OOB (通過IPMI進行帶外監視)允許系統監視GPU的健康狀況,調整風扇速度以適當地冷卻設備,並在出現問題時發送警報

  • InfoROM (持久配置和狀態數據)為系統提供有關每個GPU的附加數據

  • NVHealthmon實用程序為集群管理員提供即時使用的GPU健康狀態工具

  • TCC允許將GPU專門設置為僅顯示或僅計算模式

  • ECC (存儲器錯誤檢測和校正)


集群工具依靠NVIDIA NVML提供的功能,GeForce中大約有60%的功能不可用。


GPU Boost


所有最新的NVIDIA GPU產品都支持GPU Boost,但其實現因使用場景不同而異。 Geforce顯卡只能根據工作負載和GPU的溫度自動確定時鐘速度和電壓,用戶沒辦法控制GPU Boost的運行頻率,但是Tesla GPU則可以用戶指定的時鐘頻率運行,因為HPC環境中的加速器通常需要彼此同步。Tesla GPU還支持同步增壓組內的自動升壓 ,當啟用自動升壓功能後,每組GPU會增加時鐘速度。 該組將保持時鐘彼此同步,以確保整個組中的匹配性能。


搜課


區別很大,華為那是降分辨率降低渲染壓力通過犧牲畫質提高幀數

nvidia的GPU boost是根據GPU負載和溫度提高GPU工作頻率,是實打實的提高實際性能,只有DLSS才是跟華為一樣通過犧牲畫質來提高幀數,但是dlss不是簡單的降低分辨率,而是利用了深度學習來進行抗鋸齒操作,硬件上有tensor core專門進行這個操作,同時暈染分辨率是不變的,變的只有抗鋸齒,所以對畫質影響小的多,而且隨著深度學習進一步完善dlss效果會越來越好,畢竟dlss使用的是nvidia用超算渲染8K分辨率遊戲得出來的模型,應付4K抗鋸齒簡直就是小兒科


魅力小婷姐她二哥


所謂的GPU Turbo是一種智能調壓和升降頻的軟件策略,能夠保證功耗較低的同時遊戲不掉幀。GPU Turbo主要是針對一些市面上流行的遊戲設計了專門的網絡去預測GPU的負載壓力,從而預先升/降頻,並不是什麼針對硬件的通用性優化。

GPU Turbo是有價值而新穎的技術。但是實現起來不是很難,也沒有多高的門檻。但需要注意的是,GPU Turbo不等於GPU。小米魅族想達到類似的效果其實很容易仿製,甚至有可能做得更好(因為高通芯片比ARM好一點)。而NVIDIA GPU,英偉達的GPU是有很高的門檻的。英偉達顯卡性能好,功耗低,接口豐富。所以在顯卡方面華為完全沒有和英偉達相提並論的餘地。華為既沒有體現gpu硬件設計能力也沒有足夠好的軟件或者軟件生態作為門檻。GPUturbo雖然新穎而有效,但是在顯卡巨頭英偉達面前顯得很像是小打小鬧(畢竟軟件彌補硬件不如硬件好來得踏實)。請注意,華為優秀的不是CPU(arm公版),也不是GPU(arm公版)。而是通訊和信號處理。華為做基站,做路由器,做5g,能力都是受人認可的。而英偉達核心只是GPU。因此只比較GPU的話目前肯定是NVIDIA GPU是最好的。最後,華為的GPU turbo可能涉及降低分辨率。這裡就不細說了,免得有人說我是黑。


IT狂人日記


其實他們一個是軟件,一個是硬件

華為GPU Turbo他只是一項可以提升GPU性能的技術,運算還是靠中央處理器裡面的GPU

英偉達的GPU也就是英偉達顯卡,只有幾個GPU核心,剩下的都是散熱和供電部分了


反mn大隊長666


gpu turbo是硬件專門匹配軟件加上降低畫質達到流暢,是一種軟硬件結合的軟件技術,英偉達的gpu是一種硬件設備


分享到:


相關文章: