RTX 2080 Ti首發評測:感受12年來GPU最大革命

一、前言:NVIDIA革命性跨越 顯卡又熱鬧起來了

作為GPU顯卡行業的領頭羊,NVIDIA的新產品發佈節奏多年來一直非常穩,而且每一代都有極大的創新和提升(完全不知牙膏味兒),產品線佈局十分豐富,生態系統合作也是有著厚實的積累相當完備。

在顯卡的江湖裡,NVIDIA雖然說不上呼風喚雨,但始終也都是首屈一指的,GeForce更是幾乎已經成了遊戲卡的代名詞。

2017年5月,我們迎來了Pascal帕斯卡架構的GeForce GTX 10系列,不過當時恐怕誰都不會想到,帕斯卡家族的命會這麼長,而新一代讓我們苦苦等待了這麼久。



最近幾代產品,NVIDIA都會選擇當年的3-6月份春天或春夏之交來發布,一般在3月份的GTC圖形技術大會上首次披露,但今年非常特殊,一直拖到了9月份,比往年晚了幾乎半年。

更令人稱奇的是,NVIDIA這一次保密工作做的極好,直到發佈前,我們都不知道新卡的架構是Volta伏特、Ampere安培還是Turing圖靈,也不知道新卡的命名是GTX 10系列還是GTX 20系列,結果最終是RTX 20系列。

出現這種局面,最主要的原因是這一代從架構技術到產品體系都發生了翻天覆地的變化,而研發全新一代架構、完善全新技術特性,都是需要花費無數精力、金錢和時間的(想想AMD Zen憋了多久才出來再想想Intel酷睿老本吃了多少年)。

按照NVIDIA的說法,早在10年前就在設計和研發圖靈架構了(當然當時應該沒這個代號),主要是光線追蹤方面,因為在此之前,光線追蹤只能用於影視渲染,誰也不敢想象它能在遊戲裡實時呈現。

最終,NVIDIA創造奇蹟,為PC遊戲帶來了實時光線追蹤(即便是有條件的),也難怪黃仁勳驕傲地宣稱圖靈架構是2006年引入CUDA統一著色核心以來最大的革命。



而另一方面不得不面對的一個現實就是,顯卡市場已經沉悶太久了,尤其是在電競火熱朝的形勢下,顯卡卻遲遲沒有跟上。

作為市面上僅有的兩大GPU巨頭之一,AMD近些年全力投入Zen CPU架構,雖然碩果累累,但也導致GPU方面進展緩慢,Polaris北極星架構的RX 400/500系列只能在中低端市場混,Vega織女星架構的RX Vega系列在高端市場又不具備足夠的競爭力。

這種形勢下,對手很容易懈怠,反正沒什麼壓力,但幸運的是,NVIDIA並沒有任性擠牙膏,反而奉上了一道更美味的大餐:全新架構、實時光線追蹤、AI人工智能、GDDR6顯存等都讓人激動不已,而且第一次首發就奉上了三款新卡。

長久的等待終於值了,整個顯卡市場也再次熱鬧紛呈起來。

接下來,我們就會探析一下這個革命性的Turing架構,以及全新的RTX 2080 Ti、RTX 2080兩款高端型號到底表現如何。




二、架構解析之全新內核體系

既然是一個全新設計的架構,我們就要好好看一看這個以計算機科學之父、人工智能之父艾倫·麥席森·圖靈(Alan Mathison Turing)命名的Turing圖靈新架構到底有哪些過人之處,不過硬件架構總是伴隨各種高深晦澀的技術名詞、技術原理,即便專業人士也得好好研究才行,所以這裡我們僅從高級層面,介紹一下新架構的大致設計、技術概況,以及能帶來的實際好處。

在以往,NVIDIA為專業級計算卡、消費級遊戲卡設計的都是統一架構,只是具體內部模塊佈局、技術支持、核心大小不同。好處是可以統一開發,降低成本,壞處是缺乏針對性,技術資源要麼浪費要麼不夠。

這一次,NVIDIA選擇了分而治之。針對高性能計算、圖形渲染、人工智能、深度學習等專業應用的是Volta伏特架構,目前只有一個超大核心GV100,是迄今為止GPU歷史上最大的核心,臺積電12nm工藝製造,集成多達210億個晶體管,核心面積達815平方毫米,妥妥的怪物級核彈。



而針對遊戲顯卡的就是Turing圖靈架構,也是臺積電12nm(有說法稱最初計劃使用三星10nm),其中最大的核心TU102集成189億個晶體管,核心面積754平方毫米,是僅次於GV100的史上第二大GPU核心。

相比上代Pascal帕斯卡家族的大核心GP102,它的晶體管數量增加了55%,面積則增大了60%,甚至是次級新核心TU104都超越了GF102,擁有136億個晶體管、545平方毫米麵積。



新架構核心之所以如此龐大,除了CUDA核心規模繼續增大、升級Shading著色渲染之外,更關鍵的是RT Core光線追蹤核心、Tensor Core人工智能核心的加入,這也是新架構革命性變化的根本支撐。

擁有全新著色性能的SM CUDA核心陣列、支持高達每秒100億條光線計算的RT光線追蹤核心、為實時遊戲畫面導入AI人工智能加速的Tensor核心,三者就構成了圖靈架構的三大支柱,各自有不同分工又互相協作,共同實現新的遊戲渲染畫面。




同時,NVIDIA強調新架構的單個CUDA核心著色渲染性能是帕斯卡架構的1.5倍,第一次可以在4K分辨率、HDR開啟的情況下,提供流暢的遊戲體驗,真正開啟4K時代。

按照NVIDIA的說法,RTX 2080就能基本實現4K分辨率下60FPS的遊戲幀率,RTX 2080 Ti更是能夠達到70-80FPS。當然具體還要看遊戲需求,以及遊戲設置,特別是某些高要求的技術特性,光線追蹤打開後別說4K了,就連1080p就比較吃力。




圖靈架構的基本組成單元之一還是CUDA核心與SM流處理器陣列,這也是2006年的G以來NVIDIA GPU的基石。

事實上,圖靈架構的SM陣列也融合了伏特架構的不少特性,相比帕斯卡架構差別還是挺大的,比如每一組TPC裡的SM陣列由一個增至兩個,同時SM內部的組成方式也截然不同。

帕斯卡架構每個SM陣列集成128個FP32浮點單元,圖靈架構則改成了64個FP32浮點單元、64個INT32整數單元、8個Tensor核心、一個RT核心,FP64浮點單元圖上未顯示。支持浮點和整數併發操作,並有新的執行數據路徑,類似伏特架構彙總的獨立線程調度。

按照NVIDIA的統計,每執行100個浮點指令,平均會有36個整數指令,兩種指令可以併發執行。

如此一來,帕斯卡架構的整數和浮點計算就可以分配得更加均衡,並與新的Tensor、RT核心相配合,更合理、高效地完成各種負載。

整體而言,圖靈核心的CUDA陣列可以每秒執行14萬億次FP32浮點操作、14萬億次INT32整數操作。



緩存架構也徹底變化,由兩個載入/存儲單元牽頭,一級緩存和共享緩存整合在一起,而且容量靈活可變,可以是64KB+32KB,也可以是32KB+64KB,大大降低了延遲,帶寬也翻了一番。

二級緩存容量則從3MB翻倍到6MB。



NVIDIA宣稱,新架構每個CUDA核心的著色渲染性能比上代平均提升50%,部分遊戲可達70%左右,VRMark虛擬現實測試成績甚至翻了一番還多。

當然這只是基礎理論上的數字,實際性能還要看其他部分和整體指標。



圖靈架構還首發搭配新一代GDDR6顯存,目前業界最快,等效頻率高達14GHz,搭配352-bit位寬可以帶來616GB/s的驚人帶寬,相比於GTX 1080 Ti在位寬不變的情況下提升了27%,也比用了2048-bit HBM2高帶寬顯存的AMD RX Vega 64高了27%。

而且關鍵是,GDDR6的成本比HBM2低得多。

另外,NVIDIA還對新顯存進行了各種優化,信號竄擾降低了40%,更利於運行穩定和進一步超頻。

三、架構解析之RT核心、光線追蹤

圖靈架構和RTX 20系列的最大亮點和賣點當然是——遊戲實時光線追蹤!

從第一顆GPU NVIDIA GeForce 256誕生至今已經整整19年,GPU規模和技術越來越發達,但是最底層的圖形渲染技術其實幾乎一成不變,始終都是光柵化渲染,通過計算三角形和多邊形來獲得畫面輸出,好處是資源消耗容易控制,壞處就是距離真實畫面相差甚遠,甚至永遠不可能接近。

光線追蹤(Ray Tracing)技術則堪稱圖形界的“聖盃”,簡單地說就是在圖形渲染過程中實時跟蹤物體和環境的光線,準確進行光線反射和折射、全局照明、物理陰影的繪製,可以帶來近乎百分之百真實的渲染畫面,尤其是光影效果。



光線追蹤技術其實並不新鮮,1969年的時候在IBM工作的Arthur Appel就提出了這種概念,當時叫做Ray Casting,距今已經整整半個世紀。

1979年,Turner Whitted研究出了遞歸光線追蹤算法(Recursive RayTracing Algorithm)。

1984年,Carpenter等人發表了一篇關於分佈式光線追蹤的論文《Distributed RayTracing》,影響甚廣。



但是,光線追蹤的算法非常簡單,稍有計算機圖形只是的人都能理解,關鍵在於如何優化提高效率,因為它需要的計算量太過龐大,想想要實時計算場景中無數光線每時每刻的各種傳播,那是多麼恐怖,以前的GPU根本無力承擔實時計算。

因此直到2006年迪士尼的《汽車總動員》(Cars),影視行業才開始使用光線追蹤渲染,如今大多數的照片級渲染系統多時基於光線追蹤的,但背後都是超大規模的計算機群在吃撐,一幀畫面往往都要渲染幾個小時。



雖然大家都在努力,但就在一個月前,如果說普通顯卡可以在遊戲裡實現光線追蹤(儘管是有條件的),相信絕大多數人都不會相信,但是NVIDIA的圖靈做到了。

NVIDIA在圖靈架構中集成了最多72個RT Core核心,每個SM單元一個,專門用來服務光線追蹤運算,等於一個特殊的專用單元,由硬件加速取代軟件模擬,效率自然要比CUDA這種通用單元高很多,就像GPU做並行計算比CPU強得多。



簡單來說,圖靈架構的光線追蹤運算步驟是這樣的:著色器單元首先發出光線探測請求,RT Core核心就開始完全接管下邊的工作,並分為兩個過程,其中包圍盒求交評估單元(Box Intersection Evaluators)進行包圍盒的獲取和解碼,並進行求交測試,得到子包圍盒或者三角形。

如果是子包圍盒,就返回重新執行,重複剛才的步驟。如果是三角形,那就交給三角請求交評估單元(Triangle Intersection Evaluators),做下一步的求交測試,直到得到最終結果並輸出給著色器,進行最終渲染。



看懵了對吧?懵了就對了……

整個光線追蹤計算過程中,運用的主要是BVH算法,也就是Bounding Volume Hierarchy Traversal,層次包圍盒遍歷的意思。

比如渲染對象是一隻兔子,要幾算一條光線和兔子本身的交互,就把兔子所在空間劃分成N個包圍盒,計算光線和哪一個包圍盒相交,是的話就再把這個包圍盒繼續劃分成N個更小的包圍盒,再次計算相交,如此反覆,一直找到和光線相交的三角形所在的包圍盒,再對這個三角形進行最終的渲染。

BVH算法可以大大減少計算每一條光線最近相交點所需要遍歷的三角形數量,而且只需要進行一次就能給所有光線使用,大大提高了執行效率。

除了硬件方面的工作,軟件方面既有NVIDIA自己的OptiX光線追蹤引擎、GameWorks SDK光線追蹤模塊,也有微軟的DirectX 12 Ray-Tracing(DXR) API、Windows ML中間件,後者會在即將發佈的Windows 10 2018年秋季更新版中正式提供。



性能方面,RTX 2080 Ti在精簡了四個只有68個RT核心的情況下,每秒鐘可以計算超過100億條光線,大約等於100TFlops(每秒1000億次浮點運算)。

而上代GTX 1080 Ti雖然也能執行光線追蹤,但因為沒有專用單元和算法,效率只有RTX 2080 Ti的大約十分之一,不足以實時用於遊戲。

接下來欣賞欣賞NVIDIA RTX光線追蹤的效果和對比:







↑↑↑官方DEMO


↑↑↑官方DEMO





目前支持NVIDIA光線追蹤技術的遊戲有11款(和首發時相比沒變),分別是:

- 《神力科莎》 (Assetto Corsa Competizione)

- 《原子之心》 (Atomic Heart)

- 《戰地5》 (Battlefield V)

- 《控制》 (Control)

- 《應徵入伍》 (Enlisted)

- 《逆水寒》 (Justice

- 《劍網3》 (JX3)

- 《機甲戰士5:僱傭兵》(MechWarrior 5:Mercenaries)

- 《地鐵:離去》

- 《Project DH》

- 《古墓麗影:暗影》(Shadow of the Tomb Raider)

不過,RTX 20系列上市初期,可以玩的光線追蹤遊戲暫時還是零,比如《古墓麗影:暗影》首發不支持得後期打補丁,《戰地5》則跳票了。

四、架構解析之Tensor核心、AI加速

NVIDIA在伏特架構上引入了全新的專用處理模塊Tensor Core,也就是張量計算核心,重點用來支持深度學習、高性能計算(也是晶體管大戶)。

圖靈架構則是在遊戲卡上引入Tensor Core,同時針對遊戲圖形應用做了大量的調整優化,尤其是浮點精度方面。

Tensor的意思是張量,不同於我們常見的標量(零維)、矢量(一維)、矩陣(三維),擁有三維或者更高維度,簡單地說就是一個數據容器,可以包含多個維度的數據。



現在火熱的深度學習,就運用了超大規模的數據運算,其中就經常會用到矩陣融合乘加(FMA)運算,Tensor核心就是為這種矩陣數學運算專門服務的。

它可以對兩個4×4 FP16浮點矩陣進行相乘操作,然後將結果加入到另一個4×4 FP16/FP32浮點矩陣中,最終輸出新的4×4 FP16/FP32矩陣,這叫做混合精度數學運算,因為輸入矩陣是半精度,結果則可以達到全精度。

每個時鐘週期內,圖靈架構的Tensor核心可以執行64個FMA運算,從而大大加速矩陣運算,可用於新的神經實時圖形渲染、深度學習訓練和推理。



圖靈架構每個SM陣列裡有8個Tenor核心,總計576個,完整支持114TFlops FP16浮點運算(每秒114萬億次),同時支持228TOPS INT8、455TOPS INT4整數運算(每秒228億次、455億次),後者是伏特架構裡沒有的。



NVIDIA把看起來高深莫測的Tensor核心放到遊戲卡里,顯然不是做專業運算的,其深度學習能力也是為遊戲服務的,結合新的神經圖形框架(Neural Graphics Framework),簡稱NGX,可以在遊戲中實現DLSS深度學習超採樣抗鋸齒、AI Super Rez超級分辨率、AI Slow-Mo慢動作、AI InPainting等等。

這些計算繁瑣、資源消耗巨大的操作,在以往也可以實現,但會付出很大的代價,效果也不盡如人意,如今有了新的Tensor核心,就可以建立屬於GPU核心自己的DNN深度神經網絡,將AI融入遊戲。



NVIDIA已經向遊戲引擎開放NGX API,將其融入其中,實現底層加速。

另外和很多AI應用類似,NVIDIA GeForce Experience軟件的作用也非常重要,它會自動匹配顯卡型號,從雲端訓練的AI模型哪裡下載相應的NGX軟件包,並定期更新,達到越用越好、甚至是因人而異的效果。



AI Super Rez:有點類似高清視頻中常見的Up Scaling,但是引入了人工智能和深度學習之後,可以實現近乎“無損放大”,原來的畫面分辨率放大2倍、4倍乃至8倍,仍然清晰銳利。




AI Slow-Mo:超級慢動作我們並不陌生,現在不少高端手機都支持240FPS、480FPS乃至是960FPS的慢動作視頻錄製。圖靈架構可以對普通的30FPS視頻進行智能插幀運算,得到240FPS/480FPS的慢動作視頻,也就是說你不需要專門的高幀率攝像頭,就可以獲得很流暢的慢動作視頻。



AI InPainting:可以抹掉畫面中不需要的內容,也可以智能補全缺失的內容,完全超越PS摳圖的存在。它同樣來自現實中大量真實世界圖片的訓練推理。

其實,慢動作和修圖這兩項在之前就曾有相關報道,顯然NVIDIA在硬件、算法兩個方面都實現了真正的突破。



接下來就是重中之重的DLSS(深度學習超採樣抗鋸齒)。

我們知道,傳統的光柵化圖形渲染畫面會存在各總各樣的鋸齒(狗牙),所以GPU廠商都會在後期處理中加入各種各樣的AA抗鋸齒技術,但傳統抗鋸齒都是由GPU去運算的,效果參差不齊不說,最關鍵的是會消耗大量的GPU資源,開啟之後讓遊戲卡得沒法玩再正常不過了。

DLSS深度採樣超採樣抗鋸齒則和傳統抗鋸齒技術走了一條完全不同的路,它是在NVIDIA超級計算機上進行訓練,而不再消耗GPU本身的資源。

針對每一款遊戲,NVIDIA會在運算建立對應的訓練神經網絡,收集大量的64x超採樣數據,對像素點進行64次偏移著色合成輸出,理論上可以獲得近乎完美的抗鋸齒平滑效果,同時還會對比和普通渲染畫面之間的差異,調整網絡權重,反覆迭代,最後獲得更合理的抗鋸齒畫面效果,還可以避免傳統TAA時間抗鋸齒的運動模糊等問題。

雲端訓練完成後,NVIDIA會通過GFE軟件將成果分發給玩家,再用到遊戲中,而且隨著遊戲運行得越多,DLSS學習效果就會越來越優化,甚至每個玩家都可以得到屬於自己的不同效果。

當然了,這也意味著NVIDIA需要和每一款遊戲或者每一個遊戲引擎合作,去進行專門的優化,還是相當費時費力的,不過考慮到NVIDIA在遊戲行業廣泛深入的合作關係,這方面倒不必擔心。

尤其是隨著合作優化的深入,NVIDIA完全可以建立起屬於自己的技術壁壘,讓對手望塵莫及,進一步帶動大量玩家忠實地跟隨NVIDIA。






以上是2x DLSS與傳統64x SSAA、TAA的效果對比,大家可以仔細觀察一下畫面細節。





更神奇的是,DLSS因為基本不需要消耗GPU本地資源,因此可以大大釋放GPU性能,讓其專心渲染遊戲,提升性能。

比如根據官方數據,Epic的《滲透者》(Infiltrator)遊戲裡,4K分辨率下1080 Ti開啟TAA平均幀率還不到40FPS,2080 Ti開啟DLSS則能達到80FPS,提升了整整一倍!



遊戲支持方面也不是啥大事兒,RTX 20系列發佈之初就有16款遊戲(PPT上寫錯了),現在產品還沒完全上市就已經增加到25款。

首發名單如下:

- 《方舟:生存進化》 (Ark: Survival Evolved)

- 《原子之心》 (Atomic Heart)

- 《無畏》 (Dauntless)

- 《最終幻想XV》 (Final Fantasy XV)

- 《破碎之地》 (Fractured Lands)

- 《殺手2》 (Hitman 2)

- 《奈恩群島》 (Islands of Nyne)

- 《逆水寒》 (Justice)

- 《劍網3》 (JX3)

- 《機甲戰士5:僱傭兵》 (Mechwarrior 5:Mercenaries)

- 《絕地求生》 (PlayerUnknown’s Battlegrounds)

- 《遺蹟:灰燼重生》 (Remnant: From the Ashes)

- 《英雄薩姆4:星球惡棍》 (Serious Sam 4: PlanetBadass)

- 《古墓麗影:暗影》 (Shadow of the Tomb Raider)

- 《鍛造競技場》 (The Forge Arena)

- 《少數幸運兒》 (We Happy Few)

新增名單如下:

- 《暗黑血統3》(Darksiders 3)

- 《飛向月球:財富》(Deliver Us The Moon: Fortuna)

- 《恐懼群狼》(Fear the Wolves)

- 《地獄之刃:塞娜的獻祭》(Hellblade: Senua's Sacrifice)

- 《KINETIK》

- 《前哨零》(Outpost Zero)

- 《超殺:行屍走肉》(Overkill's The Walking Dead)

- 《人渣》(SCUM)

- 《風暴奇兵》(Stormdivers)

這其中有5款遊戲同時支持RTX光線追蹤和DLSS抗鋸齒技術,分別是《原子之心》、《逆水寒》、《劍網3》、《機甲戰士5:僱傭兵》、《古墓麗影:暗影》。

五、架構解析之混合渲染、高級渲染

圖靈架構雖然引入了光線追蹤,但以現在的GPU性能和技術算法,顯然不可能把一切渲染都交給光線追蹤,傳統的光柵化渲染依然離不開。



因此,NVIDIA在圖靈架構中使用了混合渲染流水線(Hybrid Rendering Pipeline),針對不同的工作負載,分別使用CUDA核心的光柵化渲染、RT核心的光線追蹤渲染、Tensor核心的計算渲染的一種或多種組合,獲得渲染效率的最大化。

當然,在典型的混合渲染場景中,也不會同時用到三種渲染方式。

如此一來,如何衡量圖靈架構的實際渲染性能,就不能用以前的算法了,而要根據三種不同渲染方式的使用程度,綜合衡量。





以上就是在一個典型的渲染場景中,圖靈架構各種渲染方式的組合分配,一般而言80%的時間裡使用著色器FP32浮點運算、28%的時間使用著色器INT32整數運算、40%的時間使用RT核心、20%的時間使用Tensor核心FP16浮點運算。

比如RTX 2080 Ti,結合各個部分的峰值性能,最終的渲染性能就是:

14×80%+14×28%+100×40%+114×20=78T

NVIDIA給這個結果自定義了一個單位RTX-OPS,可以理解為RTX顯卡每秒鐘能執行的操作數,也就是780億次。




與此同時,圖靈架構也引入了多種新的、更高級的Shade著色渲染技術。

比如網格渲染(Mesh Shading)面對複雜、龐大的場景,不再逐一計算每一個物體的所有細節,而是由GPU靈活地計算物體細節等級(LOD),踢出被遮擋的,削弱低細節的,再加上傳統曲面細分技術,更高效地生成真正實際需要的三角形,也能大大減輕CPU負擔。




可變率著色(Variable Rate Shading):按照場景中的複雜度不同,分區域動態調整著色速率和資源分配,目的還是減輕GPU負擔、避免不必要的資源浪費,最終有利於提升渲染效率、遊戲幀率。





可變速率著色渲染有很多應用場景,比如內容適應性著色(CAS)、動作適應性著色(MAS)、注視點選擇性渲染、鏡頭優化。就不一一展開了。



多角度渲染(Multi-View Rendering)、紋理空間共享(Texture-Space Sharing)。

六、架構解析之視頻、輸出、虛擬現實

作為顯卡,除了渲染遊戲畫面,視頻編解碼、輸出顯示也都是基礎工作,而且這一代NVIDIA還特別強化了對VR虛擬現實的支持。



視頻編解碼方面,圖靈架構已經可以支持到VP9、HEVC(H.265) 10/12-bit HDR解碼,同時支持HEVC 8K30fps HDR實時編碼,可節省最多25%的碼率,H.264格式也能節省最多15%。

根據NVIDIA的數據,圖靈架構顯卡進行視頻直播時,1080p分辨率6K碼率、4K分辨率40K碼率的CPU佔用率都只需1%,掉幀率也是1%甚至為零,相比之下帕斯卡就有點慘不忍睹了。




顯示輸出方面,圖靈新卡既有標準的HDMI 2.0b、DisplayPort 1.4接口(同時為DP 1.4a標準做好了準備),分別最高支持4K/60fps、8K/60fps輸出,並首次加入了USB Type-C接口,用於支持VirtualLink VR應用,提供三個HBR3 DisplayPort通道,支持USB 3.1 Gen.2 10Gbps速度,可提供最大27W供電能力。

VirtualLink標準由NVIDIA、Oculus、Valve、AMD/微軟牽頭制定,是一種開放的行業標準,可以讓VR頭顯擺脫多條線纜的束縛,只需一根高速USB Type-C數據線,就可以直連顯卡和VR頭顯。

而現在的VR頭顯,比如說HTC Vive,就需要HDMI、USB、電源三條線。



七、架構解析之三大核心與型號

圖靈家族除了架構本身變化巨大,產品體系也和以往明顯不同,首發一口氣就是三款型號RTX 2080 Ti、RTX 2080、RTX 2070,而且分別對應三個不同核心TU102、TU104、TUF106,而以往的x80、x70都是共享一個核心。

具體原因不詳,可能是新一代核心太大,x70直接用大核心閹割成本比較高,還不如再造一個省錢的小核心。



這就是最頂級的TU102核心,186億個晶體管、754平方毫米麵積確實不是蓋的。

內有4608個CUDA核心,分為6組GPC、36組TPC、72組SM陣列(每組SM 64個CUDA核心),同時有72個RT核心、576個Tensor核心、288個紋理單元、96個ROP光柵單元,二級緩存容量6MB,寄存器文件18MB,352-bit位寬。



不過,RTX 2080 Ti並未完全使用整個TU102核心,而是有所精簡,僅提供4352個CUDA核心(68組SM陣列),RT核心則減少為68個,Tensor核心544個。

目前只有Quadro RTX 8000用了完整的TUF102,可能是初期良品率不足,優先供給專業市場,也可能是功耗和發熱在遊戲卡上不好控制,還有可能是留一手……

RTX 2080 Ti的核心頻率基礎為1350MHz,加速頻率FE公版做到了1635MHz,非公版則規定是1545MHz,當然大家可以隨意超頻。

顯存搭配11GB GDDR6,等效頻率14GHz,帶寬為616GB/s,整卡功耗260W。



TU104核心,136億個晶體管,545平方毫米,比帕斯卡家族的大核心GP102都要大一圈。

它集成了3072個CUDA核心,劃分為6組GPC、24組TPC、48組SM(每組SM還是64個),同時有192個紋理單元、64個ROP單元、384個Tensor核心、48個RT核心,二級緩存容量4MB,寄存器文件12MB,顯存位寬256-bit。



RTX 2080同樣沒有用滿TU104核心,而是精簡了兩組SM,提供2944個CUDA核心、368個Tensor核心、46個RT核心,完整版還是在專業卡上,Quadro RTX 6000。

RTX 2080核心基礎頻率1515MHz,加速頻率非公版1710MHz,公版直接定在1800MHz,搭配8GB GDDR6顯存,等效頻率14GHz,帶寬448GB/s,功耗225W。

它的渲染性能為60 TRX-OPS,相比於RTX 2080 Ti削弱了23%,光線追蹤性能8 GigaRays/s(每秒80億條光線),削弱了20%。



TU106核心,108億個晶體管,445平方毫米,相比GP102也只是分別差了10%、6%,更可見圖靈家族的龐大。

TU106核心內建2304個CUDA核心,分為3組GPC、18組TPC、36組SM陣列(每組繼續64個),同時有144個紋理單元、64個ROP單元、288個Tensor核心、36個RT核心,二級緩存容量4MB,寄存器文件9MB,顯存位寬還是256-bit。



RTX 2070終於用了完整的TU106核心,核心頻率基礎1410MHz,加速公版1710MHz、非公版1620MHz,繼續搭配8GB 14GHz GDDR6顯存,功耗185W。

渲染性能45 RTX-OPS,相比於RTX 2080 Ti、RTX 2080分別低了25%、42%,光線追蹤性能6 GigaRays/s(每秒60億條光線),分別低了25%、40%。



圖靈家族三大核心與帕斯卡家族大核心GP102對比。

八、圖賞:16相數字供電 售價萬元的雙風扇“煤氣灶”

以下是RTX 2080的圖賞。



RTX 2080包裝盒。



公版RTX 2080顯卡的外觀有了巨大的變化,放棄以往的渦輪散熱,轉而採用開放式雙風扇設計,加上銀色金屬機身,看起來像極了“煤氣灶”。



一塊巨大的全覆銀色金屬背板,背板厚度達到了3mm,具有良好的散熱效果。



8+6PIN的供電輸入,可以提供350W的輸入功率。



拋棄了傳統的SLI接口,採用了第二代NVIDIA NVLink高速互聯方案,能提供100GB/s的雙向帶寬,並且大大降低了延遲。



拆開扇熱器後的PCB本體,RTX 2080採用TU104核心,擁有136億晶體管,幾乎2倍於GTX 1080。顯存採用的美光GDDR6 14000MHz,單顆1GB,一共8顆組成256Bit 8GB,顯存帶寬達到了448GB/s。

供電部分採用了8相核心+2相顯存的供電方案,並且大量採用了高端的鉭電容,供電規模及用料遠遠超過了公版的GTX 1080(6+1相供電)。



散熱器可以完美貼合PCB上每一個發熱的元件,顯卡不會出現某個部分溫度過高的情況。

以下是RTX 2080 Ti的圖賞。



RTX 2080 Ti包裝盒。



與RTX 2080一樣,RTX 2080 Ti也同樣捨棄了以往的渦輪散熱,轉而採用雙風扇設計,看上去就是一個價值一萬元的煤氣灶。



銀色全覆金屬背板,也同樣是和RTX 2080一樣,沒有什麼區別。



雙8Pin供電,最高能提供400W的收入功率。



同樣採用了第二代NVIDIA NVLink高速互聯方案。



RTX 2080 Ti採用TU102核心,擁有189億晶體管。

顯存採用的美光GDDR6 14000MHz,單顆1GB,一共11顆組成352Bit 11GB,顯存帶寬達到了616GB/s。

供電部分則採用了14+2一共16相供電方案,頂級非公都很那達到這樣的規模,看來售價萬元的顯卡在用料方面果真是捨得下本錢。



散熱器可以完美貼合PCB上每一個發熱的元件,顯卡不會出現某個部分溫度過高的情況。

九、測試平臺:5.2GHz的i7-8086K助陣

測試平臺如下:




i7-8086K基於八代酷睿Coffee Lake構架,14++納米工藝製造,核心面積約150平方毫米,擁有六個核心十二線程,睿頻加速達5GHz,這是Intel史上第一顆默認能跑到5GHz頻率的處理器。

為了儘可能的發揮RTX 2080 Ti強大的性能,我們將此U超頻到了5.2GHz。



主板選用了華碩MAXIMUS X HERO,擁有高達10相超合金數字供電,超頻能力在Z370主板中屬於頂級水準。BIOS已經更新到最新版本。



內存使用了影馳HOF II DDR4-4000 8GBx2套裝,測試中開啟XMP保持4000MHz頻率,時序為19-25-25-45 CR2。



機箱採用了酷冷至尊頂級的H500M型號,其前置雙200mm風扇以及大面積的金屬散熱孔 能夠將機箱內部熱量快速排出,有效降低電源和硬盤的溫度。



我們採用的顯示器是LG 38UC99,其支持的最高分辨率為3840X1600,測試中的4K分辨率就是指的這個。



測試平臺使用的是酷冷至尊MasterWatt Maker1200W鈦金電源。



MasterWatt Maker1200W是目前頂級的雙路電源,轉換效率高達93%。雙路12V輸出,每路限流50A即600W的功率。



MasterWatt Maker 1200採用的是全模組設計,不同功能的模組接口都有著不同的外形,以防止玩家誤接。



機箱背部的金屬鎧甲將背線打理的井井有條,看上去十分乾淨。



為了壓制5.2GHz的i7-8086K,散熱器採用了九州風神頂級的船長280一體水冷散熱器。

十、1080P分辨率測試:RTX 2080碾壓帕斯卡全系 處理器開始瓶頸

Turing的核心構架完全不同於以往的產品,從Kepler到Maxwell到再到Pascal,每一個CUDA核心都就是由FP32單元構成。

而Turing每一個CUDA核心除了有一個FP32的單精度浮點單元之外,還有一個INT32的單精度整數單元。每8個CUDA單元搭配一個TENSOR核心,64個CUDA CORE+8個TENSOR CORE再加上一個RT CORE構成一組SM(其實每一組SM中還有2個FP64雙精度浮點單元,只是下圖並沒有標示出來)。



根據NVIDIA的說法,INT32可以為每個CUDA核心帶來36%的性能提升,再加上L1緩存帶寬的成本增加以及降低延遲,最終圖靈每個CUDA核心相比帕斯卡能有50%的性能提升。

圖靈是否真如所說還是需要具體的測試來驗證,下面正式進入遊戲測試環節。

3DMark Time Spy



RTX 2080 Ti的3DMark Time Spy跑分,圖形分數達到了13597。



RTX 2080 Ti的3DMark Time Spy跑分,圖形分數達到了10838。



在3DMark Time Spy 測試中,RTX 2080超越了GTX 1080 Ti,領先了20%,相比GTX 1080的7393分則提升了46%之多。

RTX 2080 Ti比GTX 1080 Ti提升了52%。

3DMark Fire Strike Extreme



2013年誕生的3DMark Fire Strike其實已經不再適合最新顯卡的測試,RTX 2080的表現不如GTX 1080 Ti,有500分的差距,但是依然比GTX 1080強了22%。

RTX 2080 Ti相比GTX 1080 Ti有21%的提升。

GTA V

《GTA V》於2015年登陸PC平臺,全平臺的銷量已經超過了1億,算是 10年來最成功的單機大作,現在依然人氣不減。

畫質手動調為最高特效,開啟MSAA 2X以及NVIDIA TXAA,分辨率為1920x1080,顯存佔用3422M。



1080P分辨率下受制於CPU性能瓶頸,RTX 2080 Ti與RTX 2080幀數幾乎一樣,比GTX 1080 Ti只有2幀的優勢,比起GTX 1080多了14幀。

刺客信條:起源

《刺客信條:起源》是由育碧製作併發行的《刺客信條》系列歷史上規模最大的一個。本作採用開放地圖沙盒玩法,遊戲幾乎呈現了整個古埃及王國,畫質與風景無人能出其右。

測試時開啟極高畫質,分辨率為1920x1080。



圖靈的2張顯卡都都過了100幀,RTX 2080領先GTX 1080 19幀,RTX 2080 Ti比GTX 1080 Ti多了12幀。

孤島驚魂5

《孤島驚魂5》是一款由育碧(Ubisoft)製作的第一人稱射擊遊戲。 已於2018年3月正式發售。



在《孤島驚魂5》中,RTX 2080 Ti領先GTX 1080 Ti 23幀,RTX 2080領先GTX 1080 29幀。

古墓麗影10



畫面設置為1920*1080 FXAA、DX12+默認非常高畫質。



RTX 2080 Ti幀數達到了204,領先GTX 1080 Ti 32幀這是第一次有顯卡能在1080P最高畫質下跑出200+的幀數。RTX 2080領先GTX 1080 33幀。

GTX980Ti在進行此項測試時,若選擇DX12模式,幀數會爆降30%,因此該卡是以DX11進行的遊戲測試。

古墓麗影11

《古墓麗影:暗影》是一款由Eidos Montreal工作室製作的動作冒險遊戲, 本作是重啟版《古墓麗影》的系列第三作,已於2018年9月15日正式發售。該遊戲在後續的補丁中將提供對RTX系列顯卡DLSS與光線追蹤技術的支持。



畫面設置為1920*1080 FXAA、DX12+手動最高畫質。



在古墓麗影11中,RTX 2080 Ti跑出了142幀,領先GTX 1080 Ti 37幀。

RTX 2080也有117幀,比GTX 1080多了28幀。

絕地求生

雖然已經發售了一年之久,《絕地求生》依然是目前最火的PC遊戲,經過藍洞工作室數次優化,現在已經能較為完善的支持6核處理器。



由於本遊戲沒有提供測試程序,我們選在訓練場中選擇了一塊無人場地,反覆進行多次幀率測試,確認每次得到的結果差距都在2%以內。



受制與CPU性能,RTX 2080 Ti與RTX 2080跑出了同樣的幀數,相比GTX 1080 Ti領先了27幀,比起GTX 1080則有45幀的優勢。

奇點灰燼

《奇點灰燼》作為一個老牌的PC遊戲測試項目,目前已經優化了8核處理器支持,它對處理器和顯卡的要求都非常高。

測試時選擇Crazy畫質、DX12模式、分辨率為1080P



在《奇點灰燼》中,RTX 2080 Ti跑出了107幀,領先GTX 1080 Ti 25幀。

RTX 2080也有98幀,領先GTX 1080 Ti 15幀,領先GTX 1080 29幀。

突出重圍:人類分裂

《殺出重圍:人類分裂》是Square Enix為PS4開發的次世代FPS類遊戲,該遊戲是目前所測試遊戲中對顯卡性能要求最高的一款。測試時畫質



RTX 2080 Ti幀率為93FPS,領先GTX 1080 Ti 25幀。RTX1080則有74幀,領先GTX 1080 Ti 19幀。

生化危機7

《生化危機7》是卡普空製作的生存恐怖類遊戲《生化危機》數字編號系列第八部,有著全新的恐怖求生體驗,玩家的視覺切換為更駭人的虛擬實境“隔離視覺”模式,寫實感提升至一個全新的境界。

遊戲的測試方式為從開局下車地點走到教堂門口,記錄20秒幀數。



《生化危機7》對CPU性能沒有太高要求,在1080P最高畫質下,RTX 2080 Ti跑出了了313FPS的高幀率,領先GTX 1080 Ti將近60%。

RTX 2080也有243幀,領先GTX 1080 Ti 44幀,比GTX 1080快了83幀,領先幅度也有51%。

守望先鋒

《守望先鋒》暴雪娛樂第一次涉足FPS領域的作品,2016年曾經火爆全球,影響力一度超過了LOL,即便是現在仍然還有相當數量的玩家活躍在遊戲中。

由於遊戲沒有提供測試程序,我們選在訓練關卡中從出生地一直向前奔跑,用Fraps記錄20秒幀數。測試時打開10



《守望先鋒》遊戲內鎖死了300幀,所以RTX 2080 Ti最多也就能跑到300幀,相比GTX 1080 Ti領先了55幀。

RTX 2080成績為266幀,領先GTX 1080 同樣也是55幀。

文明6

《文明6》是由Firaxis Games開發,2K Games負責發行的策略類遊戲,該遊戲是遊戲設計師席德·梅爾創作的《文明》系列的第6部。

測試時選擇最高畫質,並將所有材質分辨率調到最高。



《文明6》也是一款幾度需求CPU性能的遊戲,除了RX580之外,其他幾款顯卡幀數都沒有多少區別,最強的RTX 2080 Ti也就比GTX980Ti快了不到5%。

巫師3

《巫師3》為《巫師》系列遊戲作品的第三部,也是傑洛特冒險的終曲。層獲第33屆金搖桿獎最佳劇情、最佳視覺設計、最佳遊戲時刻,更獲得IGN 2015年度最佳遊戲。



遊戲內沒有提供測試程序,測試場景選在一處山坡,測試時騎馬直線奔馳,用Fraps記錄20秒幀數。



在1080P最高畫質下,RTX 2080 Ti跑出了136幀,比GTX 1080 Ti快了43幀,領先幅度將近50%。

RTX 2080幀數為115FPS,領先GTX 1080 32幀。

中土世界:戰爭之影



在最高畫質下,同時開啟TAA抗鋸齒,RTX 2080 Ti能跑出160FPS的幀率,領先GTX 1080 Ti 39幀,

十一、2K分辨率測試:

本來2K分辨率測試不在計劃之內,考慮到現在不少玩家都用上2K分辨率顯示器,臨時決定將此分辨率加入測試。



由於文明6過於依賴CPU性能,GTX1070以上的顯卡都沒有跑出差距,在計算性能百分比時並未加入此遊戲的數據。



在2560x1440分辨率下,RTX 2080 Ti的性能稍稍得以施展,相比GTX 1080領先幅度達到了65%,比GTX 1080 Ti則快了39%。

RTX 2080相比GTX 1080領先幅度達到了34%,比GTX 1080 Ti也快了13%。

麥克斯韋年代的旗艦GTX980Ti與GTX1070的性能進一步拉開,僅能達到後者86%的性能。

AMD這邊的期間顯卡VEGA64稍強與GTX 1080,領先幅度為4%。

十二、4K分辨率測試:高端顯卡的主戰場 圖靈得以一展雄風

對於RTX 2080 Ti這種級別的顯卡而言,只有4K分辨率才能真正榨乾它全部的性能,低分辨下進行測試時,由於CPU本身在渲染建模方面無法跑出太高幀率,RTX 2080 Ti的性能難以完全發揮。

我們採用的顯示器是LG 38UC99,測試的分辨率為3860X1600,與標準的3840X2160的4K分辨率有些許差異。測試時的畫面設置與1080P相同,不再一一贅述。

3DMark Time Spy Extreme



RTX 2080的3DMark Time Spy Extreme跑分,圖形分數達到了4949。



RTX 2080 Ti的3DMark Time Spy Extreme跑分,圖形分數達到了6364。



在3DMark Time Spy 測試中RTX 2080跑分比GTX 1080 Ti高了761分,領先幅度為18%,相比GTX 1080的3314分則提升了50%之多。

RTX 2080 Ti比GTX 1080 Ti提升了52%。

3DMark Fire Strike Ultra



3DMark Fire Strike Ultra現在無法反應圖靈的真實性能,此項測試中RTX 2080要落後GTX 1080 Ti大概4%,但在所有其他的遊戲測試中,RTX 2080都是大幅度領先GTX 1080 Ti,無一例外。

RTX 2080 Ti在此項測試中的得分為7907,領先GTX 1080 Ti 1446分。

RTX 2080得分則為6225,領先GTX 1080 1035分。

最終幻想15

《最終幻想15》是Square Enix史上最昂貴的遊戲開發項目,歷時10年的開發週期。本作是《最終幻想》系列中最接近 “水晶的神話”的核心內容的一部,向玩家呈現了一個廣大而又開放的世界



RTX 2080 Ti跑出了5579的分數,領先GTX 1080 Ti 1691分,領先幅度為43%。

RTX 2080的分數為4528,領先GTX 1080 Ti 16%,相比GTX 1080領先幅度有32%。

GTA V



RTX 2080 Ti幀率為85FPS,領先GTX 1080 Ti 20幀。

RTX 2080幀率為73FPS,領先GTX 1080 18幀。

刺客信條:起源



在《刺客信條:起源》測試中,RTX 2080 Ti幀率為75FPS,領先GTX 1080 Ti 幀。

RTX 2080幀率為62FPS,領先GTX 1080 16幀。

孤島驚魂5



在《孤島驚魂5》測試中,RTX 2080 Ti跑出了92FPS的幀率,領先GTX 1080 Ti 24幀。

RTX 2080幀率為72FPS,領先GTX 1080 Ti 16幀。

古墓麗影10



RTX 2080 Ti的幀率為103FPS,領先GTX 1080 Ti 26幀。

RTX 2080幀率為80,領先GTX 1080 17幀。

古墓麗影:暗影



RTX 2080 Ti幀率為69FPS,領先GTX 1080 Ti 21幀。

RTX 2080幀率為55FPS,領先GTX 1080 15幀。

絕地求生



4K分辨率下,RTX 2080 Ti在《絕地求生》中也能跑出111FPS的幀率,領先GTX 1080 Ti 36幀。

RTX 2080的幀率為90,領先GTX 1080 26幀。

奇點灰燼



在《奇點灰燼》的測試中,RTX 2080 Ti跑出了91FPS的幀率,領先GTX 1080 Ti 21幀。

RTX 2080的幀率則為74FPS,領先GTX 1080 14幀。

突出重圍:人類分裂



RTX 2080 Ti的幀率為44FPS,領先GTX 1080 Ti 14幀。這是RTX 2080 Ti唯一沒有達到60FPS的遊戲。

RTX 2080的幀率為35FPS,領先GTX 1080 15幀。領先幅度為60%。

生化危機7



在《生化危機7》的測試中,RTX 2080 Ti的幀率為126FPS,領先GTX 1080 Ti 43幀,領先幅度為52%。

RTX 2080的幀率為97FPS,領先GTX 1080 31幀,領先幅度為47%。

守望先鋒



RTX 2080 Ti的幀率為156FPS,領先GTX 1080 Ti 34幀。

RTX 2080的幀率則為122FPS,領先GTX 1080 16幀。

文明6



在4K分辨率下,GTX 1080 Ti以下的顯卡終於扛不住了,各種差距開始拉開,然而RTX 2080與RTX 2080 Ti性能仍未完全發揮,幀率與1080P分辨率完全一樣。

巫師3



在《巫師3》中,RTX 2080 Ti的幀率為82,領先GTX 1080 Ti 28幀,領先幅度為52%

RTX 2080的幀率為67,領先GTX 1080 20幀,

4K分辨率的測試數據彙總如下:



由於文明6過於依賴CPU性能,3DMark Fire Strike Ultra的跑分無法反應圖靈性能,在計算性能百分比時並未加入這2個項目的測試數據。



在4K分辨率下,RTX 2080 Ti的性能得以釋放,相比GTX 1080領先了69%,和GTX 1080 Ti相比,有41%的領先幅度。

RTX 2080相比GTX 1080有36%的領先幅度,和GTX 1080 Ti相比,也能領先13%。

VEGA64的表現甚至不如2K分辨率,對GTX 1080的領先優勢只剩下3%。

十三、CPU需求測試:4核4線程處理器無法勝任 i7-7700K老當益壯

在7代酷睿年代,很多玩家覺得4核i5與頂級的4核i7處理器相比,在單機遊戲上面方面沒有多少差異,為此我們收集了7款主流的CPU逐一測試,方便玩家瞭解頂級顯卡對CPU性能的需求。

1、測試平臺



因為AMD平臺無法支持4000MHz頻率內存條,測試時內存統一採用3200MHz頻率

2、1080P分辨率測試

以下是1920x1080分辨率下7款CPU的測試成績彙總:



在1080P分辨率下,各種檔次的處理器跑出來的遊戲幀數差別明顯,特別是沒有超線程功能裡處理器嚴重限制了RTX 2080 Ti的性能。在多款遊戲中,R5 1300X與i3-8100與頂級處理器之間都有超過50%的差距。



I7-7700K老當益壯,遊戲性能與默頻的8086K幾乎完全一樣,如果手上還有7700K的同學,想要購買RTX 2080級別的顯卡,可以不用升級處理器。4核4線程的R3 1300X和I3-8100完全無法發揮RTX 2080 Ti的性能。超頻到5.2GHz的8086K比默頻時提升了6%的幀數。

3、4K分辨率測試

以下是3840x1600分辨率下7款CPU的測試成績彙總:



4K分辨率最高特效下,壓力都在顯卡這一邊,除了《奇點灰燼》和《文明6》這2款比較吃CPU的遊戲之外,其他遊戲遊戲的測試中,各款CPU的幀數差距並沒有很大。



在4K分辨率下,8086K、7700K、2700X、2600在處於同一檔次,6核6線程的I5-8400與前面幾款產品有6%的差距,R3 1300X和I3-8100這2款處理器落後的幅度沒有1080P那麼明顯,但也有10%以上的差距。

4、內存需求測試:

分別測試2133MHz單通道、2133MHz雙通道、4000MHz雙通道三種狀態下,RTX 2080 Ti的遊戲幀數,內存容量16GB。測試數據如下:



由上表可以看出,2133MHz單通道已經完全不能滿足RTX 2080 Ti的需求,比雙通道時普遍慢了20%左右,特別是在《奇點灰燼》、《古墓麗影10》、《古墓麗影11》和《孤島驚魂5》這幾個遊戲中更是大幅度落後。



在使用4000MHz雙通道內存後,相比2133MHz雙通道,還能額外增加8%的遊戲性能。

這2年內存價格居高不下,很多同學在購機時往往選擇單條8GB內存。如果想要發揮高端顯卡的實力,雙通道內存是基本要求,必要時可以選擇高頻內存條。

十四、超頻測試:核心幾無空間 顯存輕鬆15GHz

從帕斯卡開始,NVIDIA的BOOST 3.0技術就能在TDP允許的範圍內最大限度提升核心頻率,基礎頻率僅有1.5GHz的GTX1070實際遊戲中運行頻率經常能夠超過2GHz。BOOST 3.O已經充分發揮了顯卡的潛力,導致留給玩家的超頻空間非常之小,一般也就能超過幾十MHz而已了。

到了圖靈時代,超頻會不會有所好轉呢?帶著這個疑問,我們對2張圖靈顯卡的超頻能力做了簡要嘗試。



首先是RTX 2080,這張顯卡默認TDP為225W,我們先將它拉到272W。

然後開始嘗試提升核心頻率,悲催的是,經過反覆測試,在不加電壓的情況下,最高只能將核心頻率增加可憐的65MHz,再加一點點運行遊戲時都會無響應。

不過好在美光顯存超頻能力不錯,從14GHz拉到 15GHz都能穩定運行,此時顯卡的帶寬達到了480GB/s,與GTX 1080 Ti持平。



超頻之後3DMark Time Spy圖形分數從默認的10838增加到了11632,增長了800分,提升幅度7.3%,核心頻率最高能到2070MHz,大多數時候維持在2000MHz上下。



同樣的事情也發生在RTX 2080 Ti身上,其默認TDP為260W,我們將它拉到301W。然後在調整核心頻率的時候,也只能增加65MHz,顯存頻率則能從14GHz超至15GHz。



超頻之後的RTX 2080 Ti 3DMark Time Spy圖形分數從默認的13661增加到了14763,增長了1100分,提升幅度8%。

十五、功耗溫度測試:能耗比提升40%

1、功耗測試

公版RTX 2080 TDP達到了225W較GTX 1080的180W增加了45W,而RTX 2080 Ti的TDP則為260W,比GTX 1080 Ti高出10瓦,讓我看看他們世界的表現如何。

分別測試待機與Furmark烤機功耗,測試所用的電源為酷冷至尊MasterWatt Maker1200W鉑金電源。



圖靈的功耗表現再一次給了我們驚喜,RTX 2080烤機時整機功耗只有305W,僅僅比GTX 1080高出了20W的功耗,卻有著40%的性能提升。與GTX 1080 Ti相比,功耗低了35W,性能則強了15%。

同樣的事情也發生在RTX 2080 Ti身上,其烤機功耗僅有330W。相比GTX 1080 Ti增加了768個流處理器,核心與顯存頻率都有所增加的情況下,功耗依然降低了10W,而性能則是強了40%以上。

對比AMD最強的VEGA 64,RTX 2080 Ti在性能幾乎翻倍的情況下,TDP只有對手的70%,能耗比差不多有3倍的差距。

2、溫度測試

由於參與對比評測的顯卡都已在倉庫存放許久,可能會出現硅脂幹化等情況,因此不對這些顯卡進行溫度測試,我們在這裡只測試2張圖靈顯卡的溫度表現。測試時室溫26度、測試軟件為Furmark。



經過5分鐘的Furmark烤機測試,RTX 2080的溫度穩定在75度。



同樣是5分鐘的Furmark烤機測試,RTX 2080 Ti的溫度則穩定在79度。



圖靈的公版顯卡捨棄了原來的渦輪風扇改換成了現在的雙風扇散熱系統,溫度也好看了很多。RTX 2080烤機溫度只有75度,比GTX 1080低了8度,RTX 2080 Ti機溫度為79度,比GTX 1080 Ti低了6度。

十六、DLSS測試:鋸齒肉眼幾乎不可見 遊戲性能毫無影響

3D遊戲畫面在運行時,物體邊緣會產生“狗牙”(鋸齒),分辨率越低,鋸齒越嚴重,嚴重影響觀感。由此產生了許許多多的抗鋸齒技術,例如SSAA、SMAA、FXAA、TAA。以上這些技術要麼需要對額外的像素進行渲染,要麼需要對額外的幀進行渲染,無論怎樣都需要消耗GPU資源,使遊戲的幀率大大降低。有鑑於此,NVIDIA推出了DLSS(Deep Learning Super Sampling)深度學習超級採樣抗鋸齒技術。

不用於以往任何抗鋸齒技術,DLSS使用圖靈核心中的Tensor單元來進行運算,不需要消耗CUDA單元,因此不會對顯卡的性能造成任何損失,不過卻能得到等同於TAA(時間抗鋸齒)的畫質。

下面我們以最終幻想15 BenchMark程序來體驗DLSS的效果。

1、畫質對比



這是未開啟抗鋸齒的畫質,幀數很高,達到了59FPS。但是汽車邊緣的鋸齒感非常明顯,要知道這可是4K分辨率,如果降低到1080P,鋸齒現象會更加嚴重。



上圖是開啟了TAA抗鋸齒的畫面,汽車邊緣的鋸齒肉眼幾乎不可見,但幀率也降低至43FPS。



這是開啟了DLSS抗鋸齒的畫面,汽車的鋸齒也基本上幾乎看不到,但是幀率則維持在較高的57FPS,大大優於開啟TAA時的表現。。

2、性能測試

GTX 1080/1080Ti開啟DLSS模式直接報錯,只能運行TAA。



左邊是1080ti,開啟TAA模式測得3001分;右邊是GTX 1080,TAA模式下的分數為2524分。



這是RTX 2080的測試成績,左邊是開啟了DLSS,分數為4547,右邊則開啟了TAA模式,分數3353。



這是RTX 2080 Ti的測試成績,左邊是開啟了DLSS,分數為5812(很奇怪,超越了沒開AA的分數,測試3次均是如此),右邊則開啟了TAA模式,分數4219。

測試成績彙總如下:



在NOAA模式下,RTX 2080 Ti比GTX 1080 Ti強42%,RTX 2080比GTX 1080強了32%。開啟TAA後,每張顯卡都要損失25%左右的性能。但是2張圖靈顯卡在開啟DLSS後,性能都沒有下滑,RTX 2080 Ti性能甚至還有提升。

至於圖靈DLSS與帕斯卡TAA性能對比,RTX 2080 Ti相比GTX 1080 Ti領先幅度增加到了93%,而RTX 2080相比GTX 1080領先幅度也提升到了80%。由此看來NVIDIA官方宣傳的RTX 2080 DLSS性能相比GTX 1080 TAA提升一倍也有一定的依據。

十七、光線追蹤測試:體驗真實世界的光影效果

傳統的光柵化渲染是將一個3D圖形的幾何信息轉變為一個個柵格組成的2D圖像的過程,可以理解為在這個3D圖形的每個點都包含有顏色、深度以及紋理數據,經過一系列計算變換後,將其轉換為2D圖像的像素,進而呈現在顯示設備上。



這一過程也就構成了我們愛遊戲中所看到的各類陰影效果以及光線投射,在這過程中所有的光影效果都是提前設計好的,如果開發者設計時不那麼嚴謹,就會在不應該有陰影的地方出現陰影。同時即便耗費巨大精力去提前設計好的所有陰影的可能情況,也只能做到無限接近於真實,況且這一點本身也很難做到。於是實時光線追蹤(ray tracing)便成為了玩家與遊戲開發者最終極的選擇與夢想。

傳統的光線追蹤技術是以光源為起點定義光線,進而追蹤由此產生的光線與物體表面以及光線與光線之間交互關係的過程。但該技術目前實現起來非常困難,因為這一技術需要無限多的光線照射在物體表面,通過反射、折射、漫射等途徑進入最終的“攝像機”成像。這一過程需要耗費大量的算力且會有大量光線損失。因此光線追蹤技術自誕生之日起,就有人斷言20年之內光線追蹤不可能實現。

然而天才的NVIDIA工程師們解決了這個難題。提出了一種新的Ray tracing理念,即是通過進入“攝像機”的光線,來回溯尋找光源。大部分從光源發出被折射或者漫反射不被玩家所看到的光線將不會被運算,這種思路將需要實時計算的光線數量降低了數十倍,使得實時光線追蹤技術至少提前十年成為現實。

下面我們通過3Dmark Ray Tracing Tech Demo來體驗光線追蹤的奇妙之處。




從上面2張圖可以可以明顯的看到小飛行器飛行時,在飛船上的倒影也是一直在變化方位。小飛機器自身也在發光,因此它的倒影的明暗度以及形狀也是隨時在發生著變化。

除此之外,大飛船本身也在緩慢滑行,周圍的環形燈柱投射在飛船上的倒影也是無時無刻都在變化著。

RTX 2080 Ti集成了68個RT Cores,每秒能處理100億條光線,而GTX 1080 Ti只能靠CUDA來計算光線,每秒能處理11億光線。下面我們通過星球大戰DEMO來演示光線追蹤的性能,這個DEMO可以為展現出一個如果科幻電影般的光影世界。



這是 GTX 1080 Ti的幀率,非常卡頓,僅有3.31FPS



由於星球大戰DEMO鎖定24FPS,RTX 2080與RTX 2080 Ti都只能跑出24幀,即便如此,也達到了GTX 1080 Ti 7倍以上的性能。

十八、總結:NVIDIA完成自我突破 圖靈徹底無敵

毫不誇張的說,圖靈是NVIDIA是十年來最大的一次構架更新,其意義不亞於2007年發佈的世界上第一塊支持DirectX 10 的代號為G80的GeForce 8800 Ultra顯卡。圖靈的改進如此之多,我們此篇測試只是介紹了其中一部分特性,之後還會有一篇補充評測。

圖靈第一次將深度學習引入了遊戲卡中,目前來說最主要的用途就是DLSS(深度學習超級採樣抗鋸齒),他能提供與TAA抗鋸齒技術幾乎相同的畫質(未來會在畫質上會超越TAA),但絲毫不會影響到遊戲性能,在我們的測試中,RTX 2080 DLSS的性能領先GTX 1080 TAA達到了80%。

而RTX(實時光線追蹤)是一項革命性的技術,NVIDIA花了整整10年時間來開發,才有現在的成果。過去所有的陰影技術無論看上去多麼逼真,其實都是虛假的,實時光線追蹤技術能構造出一個完全真實的光影世界。RTX 2080 Ti集成了68個RT核心,RTX-OPS性能十倍於GTX 1080 Ti,在星球大戰DEMO測試中,後者僅能跑出3FPS的幀率,而RTX 2080/2080 Ti能輕鬆達到24FPS。



Turing還在每個流處理中增加了一個INT32整數單元,能將流處理器運算效能提升36%,因此在我們的測試中,2944個流處理器的RTX 2080在遊戲性能上比3584個流處理器的GTX 1080 Ti還要強了15%以上,而功耗更低。在能耗比這個指標上,圖靈相比帕斯卡至少有30%的提升。

再來說說NVIDIA的老對手AMD。最近幾年AMD的GPU研發幾近停滯,相比NVIDIA一次又一次的徹底更新內核構架,AMD則是一個GCN構架從2011年一直用到現在(VEGA構架也是GCN之上做了一些修修補補)。目前VEGA與圖靈的能耗比差距已經達到了3倍之多,這個差距之大,可能即將發佈的7nm的VEGA遊戲卡都難以彌補,然後明年又要面對NVIDIA 7nm製程工藝的安培,結局不用想都很明瞭!

再說說圖靈的售價,雖說他的性能完全對得起價格,但是售價一萬元的遊戲顯卡已經遠遠超過的普通玩家的預算以及預期。如果AMD不能推出一款類似於圖靈這樣革命性的GPU構架,未來很長一段時間,獨立顯卡都將是NVIDIA一人的獨角戲。