引言&规格对比&外观赏析
要说下半年DIY圈内有什么惊天动地的变化,那非RTX 4090显卡莫属,它的性能表现着实让人印象深刻,Ada Lovelace架构和TSMC 4N工艺让这款显卡的能耗比有了新的突破,老黄的独家黑科技DLSS 3让一众游戏玩家为之振奋,豪华的堆料使生产力效率提升明显,不过由于高昂的售价和产能一卡难求。
不过,旗舰终归是少数人才能用得上的硬件,普通玩家更需要一款性能、功耗、温度以及价格都更合适的显卡。而RTX 4080可能是目前最合适的选择,最近我们刚好收到了映众旗下的GeForce RTX 4080 16GB 冰龙超级版,让我们一起通过评测来看看RTX 4080究竟能不能对得起它的定位。
*下文中“映众 GeForce RTX 4080 16GB 冰龙超级版”简称为“映众RTX 4080冰龙超级版“
在开始之前,先了解一下本次的主角RTX 4080,其采用的是AD103-300 核心,TSMC 4N工艺制造,芯片面积为379平方毫米,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,RTX 4080 RTX 4080标配9728个CUDA,128个第三代RT Cores,512个第四代Tensor Cores,并且用上了16GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
而目前RTX 4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX 4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX 4080 Ti。
再看看下方的RTX 4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX 4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256Bit。
但是RTX 4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX 4090同等规格,仅保留了两个NVENC编码器和一个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX 4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX 4080也有不错的表现。
包装盒的正面印着映众RTX 4080冰龙超级版的渲染图,从上面我们就可以看到这款显卡采用三风扇设计,身披黑灰色战甲,从外到内都散发着冷酷低调的气息。
包装盒的背面更为简约,印着映众RTX 4080冰龙超级版全新升级的技术介绍以及品牌理念。
打开包装后,还是那个熟悉的味道,这代映众RTX 4080冰龙超级版延续了之前的设计,以黑灰色为基调,辅以银白色的装饰条,质感出众。
正面三把巨大的散热风扇格外引人注目,风扇四周被酷炫的装甲的装甲包围,浓浓的装甲风扑面而来。仔细观察还可以看到中间的风扇与两侧风扇转向相反,这样可以防止乱流,有效提高散热能力。
近距离的观察散热风扇,每把风扇上有9个99mm的扇叶,并且风扇支持智能启停,显卡低负载时能够维持低转速,降低噪音。
来到显卡背面,映众RTX 4080冰龙超级版与大多数高端显卡一致,采用全尺寸的金属背板,能够起到加固和保护PCB的作用,毕竟现在的显卡真的太重了。在靠近核心的位置印有独特的三角形纹路与“iCHILL”和“GEFORCERTX”字样。
金属背板末端是镂空的窗口设计,隐约可以看见内部的散热鳍片,这样设计有利于增进内部空气对流,前方的散热风扇也可以更快速的带离内部热量。
显卡的顶部是GEFORCE RTX字样,一整排的出风口横跨整个显卡顶部,在RTX字样的隔壁是映众iCHILL的灯牌,未点亮的情况下若隐若现。
上机点亮后,灯牌亮起,支持灯效同步设置,恰到好处的RGB效果,既不过分花哨,但又显得炫酷而沉稳。
显卡的底部也安排上了一整排鳞次栉比的散热鳍片,快速排出热量,降低核心温度,保障下卡稳定输出。
供电接口用的是ATX 3.0标准下的12VHPWR接口,单口可提供600W的供电能力,用来带RTX 4080已经是绰绰有余了。
显卡金手指则是常规的PCIe 4.0x16接口,值得注意的是,使用前一定要打开主板的Resizable BAR功能,这样才能跑满带宽,完全发挥显卡性能。
接口方面配备了三个DP1.4a和一个HDMI2.1a,最高支持8K多屏输出,这样的接口能力完全能够满足需求。
另外,这代RTX 4080的体积已经跟老大哥RTX 4090不相上下,映众RTX 4080冰龙超级版足足有3.5槽厚,在装机时要注意机箱尺寸。
显卡拆解:映众 GeForce RTX 4080 16GB 冰龙超级版
看完映众RTX 4080冰龙超级版的外在,下面我们看看这款显卡的内在,卸下金属背板上的螺丝即可分离PCB与硕大的散热器。
正面PCB上的接口、供电、核心等位置都尽然有序,安排合理,越肩设计不过PCB明显比RTX 3090 Ti要小一些,电子元器件的密度也更大,这对设计能力是一个不小的考验。
PCB的背面比较简洁,多是一些控制芯片,核心的背面还有两颗两个POSCAP(导电聚合物钽电容),有它们坐镇,显卡整体的电气性能会更强。
AD103-300-A1核心坐镇PCB的正面,TSMC 4N定制工艺打造,换装了全新的Ada Lovelace架构,有了这颗强大的GPU核心,映众RTX 4080冰龙超级版才能有旗舰级的性能表现。
核心旁则是8颗GDDR6X显存,来自美光,型号为2PU47 D8BZF,作为GDDR6的升级版,显存位宽为256Bit,速度达到了22.4Gbps,并且单颗容量达到了2GB,8颗组成16GB超大显存。
想要驱动核心和显存,还必须有稳定的供电规模,映众RTX 4080冰龙超级版采用14+3相供电,更有全封闭式电感、富士通FP固态电容等高品质元器件在旁辅助,为显卡注入澎湃动力。
每相供电配备了独立的DrMos芯片,封装型号为BLN0,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
核心供电DrMos芯片
显存供电DrMos芯片
核心供电和显存供电均配有PWM供电控制芯片,安排在PCB背面,型号分别是:uP9512R、和uS5650Q。其中uP9512R管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。
uP9512R芯片
uS5650Q芯片
PCB的右上方是显卡的供电接口,用的是最新的12VHPWR,单口最大功率600W,仅需一根12VHPWR的电源线就可以完成显卡的供电。
再将剩余螺丝卸下就可以看到映众RTX 4080冰龙超级版的散热系统了,映众称其为第八代冰龙散热系统,其主要由散热器、散热风扇以及金属背板组成。
这款散热器的金属主体也是相当的庞大,不仅能够为GPU进行散热,而还能够为显存、电感以及MOS管进行散热,在均热板上配备了高系数的导热垫辅助散热,散热效果拉满了属于是。
映众还在金属背板的内侧附加了导热垫,能够起到额外辅助散热的作用。
大面积的散热鳍片被安排在散热器上,足足有6cm高,提供了0.99m2的散热面积,有效提升气流流动效率,改善显卡内部的温度,确保显卡能够一直稳定运转。
散热器中间夹着8根6mm复合热管,直触上方的均热板,能够快速将热量传导至旁边的散热鳍片,散出显卡内部。
第八代冰龙散热系统中还有三个直径约10cm的散热风扇作为主动散热,这样的规格压制AD103核心完全不成问题。
每个风扇拥有9个99mm的超大风扇叶,采用正逆风道设计,增强散热能力的同时还能防止乱流。
测试平台&理论/游戏性能测试
下面介绍一下我们的测试平台,既然是测定位次旗舰的映众RTX 4080冰龙超级版,那与之搭配的硬件也不能输,我们拿出了评测室的最强平台组合,CPU用的是Intel i9-13900K,主板为ROG MAXIMUS Z790 HERO,内存插满,直接上金士顿的64GB DDR5-6000,这样的配置才能让展现这张显卡的性能。
都知道RTX 4090甚至能玩8K游戏,那RTX 4080流畅4K也不成问题,为了更好的展现映众RTX 4080冰龙超级版在4K游戏中表现,我们为它配备了一台天花板级别的显示器——爱攻&保时捷联名设计的AGON PD32M,4K@144Hz高刷,还有miniLED背光加持,从里到外都散发着一种高级感,相信有了它的支持,我们能够见识到映众RTX 4080冰龙超级版极致的游戏性能。
国际惯例,在GPU-Z软件中可以看到映众RTX 4080冰龙超级版已经正确识别,这款显卡的基准频率为2205MHz,Boost频率可以达到2565MHz,相比公版还要高出60MHz,这让人对它的性能表现充满期待。另外上机前一定要打开主板的Resizable BAR功能,这样显卡才能最大限度的发挥出全部性能。
GPU-Z中还可以了解到映众RTX 4080冰龙超级版的温度和功耗策略,显卡的TGP设定为320W与公版保持一致;温度墙限制为88℃,不过以冰龙超级版的散热能力,显然是不可能撞到温度墙限制的。
上机后先进行3DMark的理论性能测试,为了更直观的看到映众RTX 4080冰龙超级版的性能提升,我们加入了前代卡皇RTX 3090 Ti进行对比。
首先是以DX11为代表的FireStrike系列测试,映众RTX 4080 冰龙超级版已经突破6W大关,在4K分辨率下的FireStrike Ultra测试中,性能已经领先RTX 3080 Ti有40%之多。而在以DX12为代表的Time Spy系列测试中,这张显卡的表现也是不负众望,前代显卡还没能触及1W分的及格线,而映众RTX 4080冰龙超级版的得分已经高达14186,领先幅度也来到了40%左右。
光追和DLSS作为老黄的拿手好戏,RTX 40系显卡在这上面也有了长足的进步,映众RTX 4080冰龙超级版在Port Royal测试中得分高达18137,已经比不少其他品牌的RTX 4080还要高了,如果对比前代卡皇RTX 3090 Ti,那这个领先幅度会更大,RTX 3090 Ti仅有1W4左右,单是光追性能上的提升就有30%以上,光追加DLSS后更是性能爆表。
上面测试的更多是游戏理论性能,这款显卡在算力方面也有不俗的表现,映众RTX 4080冰龙超级版在AIDA64 GPGPU的理论测试中相比RTX 3080 Ti领先足足有44%以上,相比卡皇RTX 3090 Ti也有35%左右的性能提升,看来老黄这次是把牙膏挤爆了,才让这款显卡有如此惊人的提升。
理论性能的提升堪称离谱,那映众RTX 4080冰龙超级版在实际游戏中的表现究竟如何,我们选用了多款游戏在不同分辨率下实测这款显卡的性能表现。
1080P分辨率下对映众RTX 4080冰龙超级版可以说是躺赢,毕竟上一代的RTX 3080 Ti都能够100+ FPS流畅运行,这样高端的显卡在1080P分辨率下明显没办法展现其真正实力。
2K分辨率下,映众RTX 4080冰龙超级版终于开始发力了,不过实测游戏基本都能稳定在144 FPS以上运行,不少游戏项目领先前代近百帧,甚至像《战争机器5》这样的游戏,这款显卡已经可以满足2K@240Hz的超电竞需求了。
4K分辨率下,映众RTX 4080冰龙超级版游戏性能的领先幅度逐渐扩大,已经有高出前代40%的性能。像是热门的《赛博朋克2077》对硬件要求极高,前代的RTX 3080 Ti只可以勉强跑到59 FPS,而映众RTX 4080冰龙超级版在开启DLSS 2的情况下已经可以90 FPS流畅运行了,如果开启DLSS 3帧数将进一步上升,那RTX 3080 Ti就很难望其项背了。
8K分辨率可以说是显卡的修罗场了,我们实测了多款游戏,映众RTX 4080冰龙超级版依旧在部分游戏中能够突破60 FPS,像《地平线5》和《古墓丽影:暗影》这类优化得当的游戏,这款显卡能够去到70 FPS甚至上百帧,这么看来映众RTX 4080冰龙超级版的游戏性能还是不错,游戏玩家不要错过了。
DLSS 3性能测试
前面提到光追作为老黄的独门秘技,在RTX 20系显卡上就已经推出了,不过当时的显卡性能还不足以带动光追,因此推出了DLSS超采技术,能够让显卡能够在不影响画质的前提下提高游戏性能,让玩家能够体验更真实的游戏画质。现在这项技术已经更新至DLSS 3.0,新增了帧生成和NVIDIA Reflex技术,能够实现游戏性能的翻倍提升。
3DMark DLSS 3理论性能测试
在3DMark的理论测试中,得益于DLSS 3的加持,映众RTX 4080冰龙超级版的性能更进一步。4K分辨率下,开关DLSS 3性能差距能够达到3倍以上。8K分辨率下更是离谱,不开DLSS时,仅有1.5 FPS,开启DLSS 2后,帧数虽有提升,但45 FPS并不足以流畅运行,而启用DLSS 3后,帧数直接来到了70 FPS,性能差距接近70倍,看来老黄的DLSS 3真的有点东西。
Unreal Engine 5 Enemies DEMO性能测试
在实际游戏测试前,我们先测试了开发游戏所需用到的Unreal Engine 5引擎,UE5作为全新的游戏开发引擎,对显卡的压力自是不小,在Enemies DEMO中,映众RTX 4080冰龙超级版在开启DLSS 3后性能飙升,4K分辨率下可达77 AVG/66 1% FPS/ 55 ms的水平,而关闭DLSS 3仅有22 AVG/17 1% FPS/ 195 ms,前后足足相差3倍之多,不得不说老黄的DLSS 3真的是黑科技一般的存在。
有玩家可能会觉得帧数提升那么大是不是通过降画质实现的,因此我们也进行了对比,可以从视频中可以看出,即使开启DLSS 3后,从肉眼看来,开关前后的画质几乎没有区别,并且因为DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰,所以有了DLSS 3后,游戏流畅度提升的同时,画质也不受影响,妥妥的双赢局面。
《生死轮回》游戏实测
《生死轮回》作为首批支持DLSS 3的游戏,我们在实测过程中发现,在不开启DLSS的情况下,映众RTX 4080冰龙超级版的帧数仅有50 FPS,而我们一旦开启DLSS 2后游戏的帧数已经能够去到122 FPS了,降低部分特效,此时已经可以满足4K@144Hz的游戏需求。
当我们打开最新的DLSS 3后,游戏帧数以肉眼可见的速度往上提升,足足提升了有20 FPS,此时映众RTX 4080冰龙超级版在4K分辨率已经能够跑到143 FPS的平均帧,如果配上我们所用的AGON PD32M保时捷联名显示器,这个性能加上144Hz的高刷屏,游戏体验直接起飞。
2K分辨率DLSS性能测试
我们也是实测了多款游戏跟程序,从实测结果来看,映众RTX 4080冰龙超级版在2K分辨率下没有丝毫压力,不少RTX 3080 Ti只能跑100 FPS的游戏,在映众RTX 4080冰龙超级版上都可以去到200+ FPS了,远远甩开了前代显卡,加上DLSS 3后更是能够达到恐怖的300 FPS。
4K分辨率DLSS性能测试
4K分辨率一样能够被映众RTX 4080冰龙超级版征服,开启DLSS 3后,游戏性能大幅提升,开关前后差距在有些游戏里就是能玩和不能玩的区别;并且即使是4K分辨率依旧有不少游戏都能跑到144 FPS以上,看来4K分辨率对映众RTX 4080冰龙超级版没有压力,我们还得上8K试试。
8K分辨率DLSS性能测试
8K分辨率下RTX 4080显卡就不太够用了,实测下来,只有少部分游戏或程序能够流畅运行在60 FPS左右,笔者认为这是由于显存不足的问题导致,后续还需要游戏厂商进行优化,才能让这款RTX 4080在8K分辨率下完美展现出应有的实力。
创作生产力&双NVENC编码器性能测试
创作生产力也是不少用户关注的重点,因此我们这次选择PugetBench、PCMark 10这两款常见的测试软件,来测试映众RTX 4080冰龙超级版在日常办公、视频内容生产等方面的性能表现。
首先是PCMark10的测试,这张显卡在数位内容创作和游戏项目上有不小的提升,整体性能相比前代领先了8%以上,甚至与自家的老大哥RTX 4090五五开;而在创作生产力软件测试中也印证了上面的性能提升,单是在达芬奇剪辑软件的Benchmark测试中,性能就领先RTX 3080 Ti约16%。
另外值得一提的是映众RTX 4080冰龙超级版由于配备了16GB大显存,在实测中没有遇到过项目崩溃的情况,正因为有大显存的加持,让这款显卡能够运行更多更复杂的项目,而前代仅有12GB显存因此常常出现爆显存的状况。
再来看看映众RTX 4080冰龙超级版在建模、渲染、工业设计等方面的表现,在Blender渲染软件中,9728个CUDA核心依旧强势,分别领先RTX 3080 Ti和RTX 3090 Ti有52%和45%,足见这代显卡的实力之强劲。
而在SPECviewperf 2020集成的8款工业软件测试中也是如此,性能提升也来到了32%左右,也就是相同的模型渲染,换装映众RTX 4080冰龙超级版能够让你缩短近三分之一的渲染时间,效率提升明显。
老黄的黑科技不单止DLSS 3一种,他在RTX 40系显卡上还安排了双NVENC编码器,支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。
既然有双NVENC编码器,那我们就得实测一下这款显卡的编码能力如何。我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间,实测映众RTX 4080冰龙超级版的编码能力已经能够跟老大哥RTX 4090平起平坐了,使用AV1编码时速度明显优于H,265格式,即使换成H.265编码,有双编码器的加持下,映众RTX 4080 冰龙超级版的效率比前代快62%以上。
从上面的对比测试中可以看出AV1编解码在导出速度上明显领先H,265格式,不过它在占用空间上也颇有优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码后,视频文件大小平均能够降低25%以上。
AV1在编码导出、占用空间上本就有不小的优势,同时它的画质也不输H.265格式,这里我们截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现,不得不说视频工作者真的可以换显卡了,AV1编解码的加入让映众RTX 4080冰龙超级版有了超强的导出性能和战未来的能力。
功耗&超频&评测总结
TSMC 4N工艺和架构革新双重加持下,RTX 40系显卡的性能有了极大的提升,这次映众更是给自家的RTX 4080显卡用上了超规格的散热系统,这让笔者对映众RTX 4080冰龙超级版的温度和功耗表现充满期待。
在Furmark甜甜圈单烤15分钟测试中,映众RTX 4080冰龙超级版的占用率达到了99%,但此时的GPU核心温度仅有65℃,而GDDR6X显存作为发热大户更是低至48℃,足以证明这代显卡在架构设计及散热器上真的下足了功夫。
除了温度表现喜人外,映众RTX 4080冰龙超级版在噪音控制方面也表现不错,温度比前代RTX 3090 Ti低的同时,风扇转速也一直保持在低位,几乎感受不到风扇的噪音,综合来看,这款显卡的散热器表现优秀,应对适当的超频操作也不在话下,并且在能耗比方面也遥遥领先上代产品,这才是高端显卡应有的表现。
既然是次旗舰显卡,那除了标准的性能测试外,自然是少不了超频测试,我们利用的是映众自家的INNO3D TuneIT超频软件,在该软件上可以调节核心频率、显存频率,解锁功耗和温度墙等操作。
点击INNO3D TuneIT界面上的“智能扫描”按键,软件开始对显卡进行较长时间的智能扫描,扫描完成后还可以智能超频,使用起来相当方便,即使是超频初学者也能够轻松上手,收获超频带来的性能提升。
不过这次笔者采用手动调整的方式,将GPU核心提升了160MHz,显存也超频1250MHz,最终超频结果,在3DMark中的TimeSpy测试项目,GPU来到了2970MHz,显存也达到了1556.5MHz,得分29692,相比默频状态下有近4%的性能提升,表现还不错。
当然这还不是这款显卡的极限,如果你有更好的散热条件,这款显卡的超频能力还能进一步提升,感兴趣的玩家不妨尝试一下,探探这款显卡的极限。
测试下来可以说老黄这次真的有认真在做RTX 40系显卡,换装的Ada Lovelace架构给这代显卡的光追带来了巨幅提升,双编码器和支持AV1让生产力也能感受科技进度带来的效率提升,还有DLSS 3黑科技加持,游戏性能也不可小觑,以前8K想都不敢想,现在已经近在咫尺,总的来说,这代RTX 40系显卡处处皆惊喜。
而此次送测的映众 GeForce RTX 4080 16GB 冰龙超级版就是其中的典范,外观精致,堆料激进,质感出色,散热表现更是优异,并且预留了一定的超频空间给玩家,搭配自家的超频软件,小白也能轻松上手。
这款显卡的性能表现也是可圈可点,畅玩各类游戏大作没有一点问题,甚至不少游戏还能满足4K@144Hz的电竞需求;16GB的超大显存也让它跻身生产力显卡的前列,兼具生产力显卡的性能,性价比也不低。
目前映众 GeForce RTX 4080 16GB 冰龙超级版已经上市,售价10699元,显然这是一款面向游戏发烧友及生产力创作者的显卡,不过以其强劲的性能和出色的表现,它还是无愧于高端显卡的称号,感兴趣的玩家不妨关注一下。
技术讲解:Ada Lovelace架构
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4080拥有76个SM,9728个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4080显卡中就实现了97MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX 4080都是64MB二级缓存,相比RTX 3080 Ti可以说是质的飞跃。
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。
第三代 RT Cores
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
Displaced Micro-Meshes Engine
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代 Tensor Cores
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。
技术讲解:DLSS 3
或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIA Reflex
NVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。
技术讲解:双NVIDIA编码器
GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。