RTX 3080首发评测:超强!架构、游戏性能、温度与功耗

以下文章转载于微信公众号:【笔吧测评室】和【快乐肥宅实验室】 ,作者 庆爷

如有侵权,请联系删除

前言

上一代基于图灵架构的GeForce RTX20系列发布至今已是两年有余,虽然中间推出了RTX Super系列但这个系列毕竟目的还是在于填补产品线空白秀刀法,在性能方面并没有什么提升,游戏卡的性能皇冠依然由RTX2080Ti把持,相比前些年一年一代的进步速度来说,显得慢了许多。


正好2020年第四季度很多3A大作的IP也到了出续作的时候,比如一跳再跳的赛博朋克2077,跟着英伟达的节奏一起跳了一年的刺客信条英灵殿,还有各种即将全平台发布的次时代大作——这时候推出新的一代旗舰游戏显卡,时机恰到好处。


就在这个背景之下英伟达安培架构的游戏卡来到了我们面前。

这次一发布就是三款产品,3070、3080、3090悉数在列。首先上市的就是我们本次评测的主角——GeForce RTX 3080,而3090和3070则要再稍等一段时间。


安培游戏卡架构解析


说到GeForce RTX 3080就不得不提这一次的安培游戏卡架构,虽然名字都叫安培,但是跟之前纯计算卡NVIDIA A100上的安培架构并不是一回事,但也不像帕斯卡那代一样,GP100重新设计,GP102=Maxwell with 16nm FinFET Plus附魔强化版,而是针对游戏应用做了更适合的架构设计。

Ampere A100的架构图

上图是英伟达计算卡Ampere A100的架构图,相比前面GA102 Ampere游戏卡架构来看,最明显的地方当然是计算卡没有RT Cores,当然还有个区别就是计算卡也不会做Rops,只不过这两张图上没有画出来。再比较明显的区别就是,A100计算卡有FP64(双精度)、FP32(单精度)和INT32(整数)三种计算单元,而GA102游戏卡的架构当中去掉了对游戏完全无用的FP64,然后INT32和FP32共享使用部分单元,实现在额外晶体管开销不大的同时拥有翻倍的FP32算力。当然由于共用了一部分单元,实际游戏遇到混合精度计算的时候性能提升不可能像纯FP32算力提升那么大——从这个方面来看,这个设计思路倒是比较类似在CPU上沿用已久的HT/SMT同步多线程技术。


不过这个架构设计也带来了一个问题,就是安培架构游戏卡的CUDA Cores数量应该怎么算。之前有两种方案,一个是以可以计算FP32的单元作为一个CUDA,这样算的话RTX3080拥有8704个FP32(CUDA Cores)。还有一种算法就是将能实现完整(INT32+FP32+FP16)混合精度计算的最小单元作为一个CUDA,这样算的话RTX3080是4352 CUDA,跟RTX2080Ti相同。不过看英伟达官方的展示PPT之类的,采用的都是第一种算法,所以我们也以此为准。


以上是在传统光栅化游戏方面安培架构的改进和进步,既然老黄现在这么强力的推光追和DLSS,怎么能忘记RT Cores和Tensor Cores的提升。

RT Cores在提升效率的同时扩展了规模,架构上也尤其提升了对于含时类运动光追问题的求解能力。官方表示在处理这类问题时,最多可以达到8倍的效率。从这个说明上来看,应该可以有效缓解某些游戏在光追特效开启时一转头就掉帧的问题。

Tensor Core方面的改进,也是强化了对验证和推理比较有效的稀疏矩阵计算能力,毕竟对于绝大多数游戏玩家来说在自己电脑上跑训练的机会少之又少,DLSS之类的功能靠的全是推理能力。

指望GA102能在这方面打A100那肯定是不可能的啦,不要怀疑老黄的刀法。不过相比上一代的RTX2080Super,提升还是不小的。


通过以上的设计,英伟达宣称安培架构实现了相比图灵架构1.9倍的能效比,还顺便标了一下温度和噪音,大概也是对这次FE版的新散热结构颇有信心。

核心架构改良颇多,显存的决定权也是很重要的。不知道偶数代GDDR都是短命鬼(用GDDR2、GDDR4的卡一只手就能数过来)这个魔咒是不是继续生效了,看起来表现还不错的GDDR6也迅速被GDDR6X替代。初代GDDR6X的频率从19Gbps起跳,相比末代GDDR6的16Gbps提升并不算大,不过这代RTX3080采用了102大核,位宽也增加到了320bit,在带宽方面依然是非常明显的提升。


RTX3080规格与简单信息介绍

从GTX980这一代显卡开始,80系列都开始用Gx104这种小核心来做高端卡,而这一次RTX3080跟开普勒架构的GTX780一样采用了102大核心,相对规模方面相比之前的卡也是增大不少。RTX3080采用的GA102核心在其中2个GPC当中各屏蔽了7组SM,最后是
68SM/8704CUDA/272TENSOR/68RT的规模设计。这个阉割幅度大概在20%左右,应该是近年来采用102大核的产品当中阉割深度最深的一次。相比之下GTX780Ti是完整核心,GTX980Ti阉割了大概9%,GTX1080Ti阉割了大概7%,RTX2080Ti则是5.6%。这大概就是老黄没给这款采用大核设计的卡命名为RTX3080Ti的原因,不过20%的规模差距空间以老黄的刀法想塞个卡进去那还不是轻轻松松,后续会补上3080Ti这一档产品,也不是不可能。

规格对比

这是RTX30系列三款首发产品与RTX2080Ti的规格对比,图源Videocardz。


除了核心设计之外这次的PCB设计也颇有意思,以往我们区分PCB设计会使用“公版”和“非公”这两个概念,公版指的是英伟达统一提供的设计方案,厂商更换散热器来实现各自的品牌ID。非公版则是由厂商自主设计。不过在3080这一代卡上情况发生了变化,实际上应该分成三类,

公版有两种,一种设计是Founders Edition,也就是老黄自己的FE版,单独采用一个特制的异形PCB(PG133):

但是厂商不可能都就着这个奇葩设计来做卡,所以英伟达还给厂商方面提供了一个Reference Edition PCB,这个就是类似之前的“公版设计”,供各家厂商做自己的“公版换皮”产品。

Reference Edition同样是“短卡”设计,用料方面也不会搞全贴片电容这种对空间取之尽锱铢的设计,供电接口也改成了更平易近人的双8pin,总体来说更适合各家AIC厂商大规模生产以及用户使用,不过确实在做工YY程度方面差了不少。


我们这次测试的卡是一张Founders Edition,也就是平时俗称的FE版。


RTX 3080 FE版本图赏与拆解

之前看到曝光图片的时候就感慨老黄做工业设计的风格越来越像库克了,丑可以,但是必须丑得精致。拿到真卡之后我确实觉得,美丑这种事情审美各有不同,但是说这卡做得精致,确实没什么毛病。

加上这个烟雾BUFF之后就更像抽油烟机了

当然除了外部做工之外,整卡内部设计也是非常的……精致。精致到什么程度呢,我并不建议有FE卡的用户自己试图动手拆解(虽然大陆也买不到FE,以至于这句话有点像是废话)

首先需要用胶带或者磁铁取下四个螺丝塞子,然后用内梅花螺丝刀拧下背板上的螺丝。

使用内梅花螺丝刀拆除PCIe挡板。

拆除背板和散热器固定螺丝。

PCB板是被背板和散热器夹着的,螺丝全部拆下之后即可取出。


共计使用了4种不同的螺丝,还有几个小散零件,真自己拆的话要注意下不要少了甚至多出来螺丝……

这块PCB的元件密度和做工让我想到了苹果Mac Pro上那个主板——光看这个PCB,就有一种井然有序强迫症大满足的享受。

当然要在如此小巧的PCB上布下如此多的元件,对于PCB的复杂度也是个空前的挑战。拿微距镜头拍了下侧面,数了数,14层PCB(应该没数错吧?)


核心代号是GA102-200-KD-A1,这个KD应该跟之前一样,用KA、KB、KC、KD来标志屏蔽显存控制器的位置,以方便抠掉对应的显存。

PCB背面,则密密麻麻的全是贴片电容——这代显卡的功耗光从标称的TGP上来看也是空前的恐怖,显卡上堆积电容某种程度上来说还可以降低对电源瞬时功率的要求。

供电方面每一相采用一个MP86957整合式MOS,供电接口是全新的12pin端子。

PCB另一端,可以看到RTX3080上面空焊了2相供电,这个应该会在RTX3090上得到补全。显存是镁光的GDDR6X,暂时只有这一家供应商。输出接口3DP1.4a+1HDMI2.1,再见了,Type-C。


理论性能测试


首先还是介绍一下测试平台,Intel的10代Comet Lake发售之后我们也跟着更换了测试平台,保证不会受其它因素限制影响显卡性能发挥。(确实Intel现在只有PCIe3.0支持是个问题,后续我们会做下这方面测试看看到底影响能有多大)

<code>CPU:Intel Core i9 10900K 主板:微星MEG Z490 Unify暗影 内存:金泰克 X3 RGB DDR4 4000MHz oc双通道 电源:昆仑 KL750G全模组金牌电源 /<code>

其它配件对于显卡性能测试无影响,略。



首先还是GPU计算性能测试,跟架构分析的结果相符,FP32一骑绝尘达到30TFlops,INT32算力大概是FP32的1/2,FP64基本等于没有。单看FP32甚至相比2080Ti来说都翻倍了,但前面讲过FP32跟一组INT32有复用单元,实际游戏当中不单纯跑一种运算的话性能不会有这么大的差距,但是这个数据确实意味着至少在除了光追之外的传统应用当中,3080应该会有不错的性能提升了。


接下来是大家喜闻乐见的3DMark系列测试,对比的对象是上一代价格定位类似的产品,RTX2080Super。

2K分辨率的两个测试Time Spy和Fire Strike Extreme当中RTX3080相对于RTX2080Super的提升在57%左右,而4K分辨率的两个测试TSE和FSU的话,性能提升幅度达到了69%。这似乎暗示着RTX3080还是得在压力够大的情况下才能发挥出更领先的性能——那么实际游戏的情况如何呢?我们接着往下看。



光栅化渲染游戏性能测试


虽然老黄这几年在不遗余力的推实时光线追踪,但是直到目前基于传统光栅化渲染开发的游戏仍然占绝大多数,大家对这类游戏上面的性能表现相对来说也更感兴趣一些。


之前有想过都这个级别的卡了是不是就不测1080p了,想了想还是测一下,看看是否真的如传闻所说,现在的旗舰卡在1080p分辨率下感知不强,毕竟证明一个观点也是需要证据的对不对。

1080p分辨率下大部分游戏当中RTX3080还是可以拉开一点和2080Super的差距的,但是在一部分比较吃CPU内存性能的游戏当中确实是提升比较微弱。总体平均下来看,这12个样本游戏在1080p分辨率下,RTX3080的性能相比RTX2080Super领先幅度为27.13%。

1440p(2K)分辨率下出现明显差距的游戏增多,感知不强的游戏减少(其实只剩下GTA5一个了)。在这个分辨率下RTX3080的游戏性能相比RTX2080Super领先幅度为40.29%。

4K分辨率下所有的游戏当中二者都出现了比较明显的差距,而且这个提升是从4K 30fps到4K 60fps的质变——所以虽然说这句话非常容易在不久的将来直接被安迪-比尔定律骑脸,但我还是要讲,相比目前虚无缥缈的光追,畅玩4K游戏才是目前RTX3080最实在的用途。

4K分辨率下RTX3080的游戏性能相比RTX2080Super领先幅度为57.14%。

【但是4k人眼又分辨不了,浪费¥】

光线追踪&DLSS游戏性能测试


手里的光追游戏不多,能有一定可玩性的也只有古墓丽影暗影和Control,所以我就选了这两个游戏来做测试。

4K分辨率下分别开启最高一档光追特效,都不使用DLSS的情况下RTX3080相比RTX2080Super的领先幅度甚至达到了89.79%,看来老黄在发布会上那个光追性能翻倍的豪言壮语还真是所言不虚。开启DLSS之后差距会有所缩小,但是RTX3080以更强大的基础性能可以在开启DLSS之后畅玩4K 60p光追,在体验方面更上一个台阶。

温度与功耗


这次的RTX3080FE版本采用了一个全新风道设计的穿透式散热器,从之前一些A卡的设计上来看这样几乎是保持双插槽厚度下散热的最优解了,右边的那个风扇风阻可以降到几乎为0,换热能力得以巨大提升。


实测温度方面默频的RTX3080 FE可以稳定在70~72℃这个水准,跟公版2080Super差不多,不过考虑到其实际TGP比2080Super高得多,这代FE在散热器上的改进可以说是卓有成效的。

而且从目前AIC的产品信息上来看,这代的FE仍然是散热效果的下限——AIC的产品堆散热也是一个赛一个的虎,至少这方面的问题确实不用过分担心。

功耗方面,在单跑3DMark Time Spy的情况下电源输出功耗的平均值在440W左右,如果CPU使用I9 10900K级别的处理器采用极限双拷模式开FPU+Furmark的话可以轻松顶到600W以上,这代的顶级游戏配置最保守最保守也要考虑850W这个级别的电源,如果预算稍微宽裕一些的话,1000W也并不算过分。详情可以参考下各家电源厂给出的推荐,个人觉得还算比较可靠。

(如果处理器功耗比较低的话,也可以继续使用质量比较好的750w电源)


说到这里就顺便讨论下30系显卡的电源选择,目前已经有部分厂商打出了 “专为30系显卡设计” 的招牌,包括这次选择的华硕龙神Thor系列850W以上的型号在内,大家在选择电源的时候可以多留意一下这类官方标称对30系显卡支持良好的型号,一般来说在OPP保护阈值、瞬时超载幅度和超载时间方面都留下了足够的容限,相对来说莫名其妙死机重启之类的问题会少一些。


龙神1200W电源除了功率足够强劲之外模组线数量也足够多,考虑到很多30系显卡可能会使用3个甚至4个8Pin这种奇葩设计,在电源上预留多个模组线接口显然是非常有必要的。采用一分二之类的设计并不能分散端子压力,需要再选择电源的时候留意一下。

一般来说CPU和PCIe端子加起来有5~6个的话会比较稳妥。之前一些X299旗舰主板已经开始使用3×8Pin的激进设计,相信如果CPU功耗继续提升的话这个风气蔓延到MSDT上也只是时间问题,端子数量还是多留一些出来比较好。


当然诸如80Plus铂金、低负载停转之类的如果你在意的话当然可以成为你选择的理由——以及一些有趣的功能,比如这里的OLED屏功率显示,相对海盗船用Corsair Link投OSD的方法来说更直观一些。

最后的最后也简单试了一下超频,FE的BIOS里只预留了12%的功率余量,最后可以核心+120MHz,显存+600MHz,实际运行频率相比12nm工艺的20系列并没有什么提升——老黄在这代新工艺上确实是完全放弃提频了。


简单超频之后最终的3DMark Time Spy图形分为18825,聊胜于无吧。之后有了解除电压和功耗限制的核弹BIOS之后可以尝试着冲一下20000分大关。


总结

其实也不需要什么过多的总结了,RTX3080的性能我们已经见识到,而且老黄给它定了一个超级划算的价格——仅为5499元,相当于在2080Super的基础上加量50%不加价,上一次我们见识到这个升级幅度已经是4年以前了,确实非常令人欢欣鼓舞。


但有一个问题就是首发想拿到这个价的货几乎不可能——抢到就是血赚可不是白说的。不过相信这种炒货短缺的情况不会持续太久,可能到9月底10月份就会有所缓解。如果不是特别着急的话不妨稍微等等,原价的RTX3080确实香,但是加钱的话确实就不是很有必要了,尤其是在有显卡可以先凑合用一下的时候。