一个月前,IT之家评测了英伟达GeForceRTX4090,它巨大的性能提升和DLSS3的AI之力,无疑改变了GPU界的游戏规则。在发布会上除了RTX4090外,还发布了一张RTX408016G,同样基于NVIDIAAda架构打造,各方面数据都更为均衡,更适合高端游戏玩家。
IT之家也是提前收到了RTX408016G的公版显卡,在本次测试中,我们依旧将全部配置拉满,看看这款高端显卡究竟能发挥NVIDIAAda架构的几成功力。具体配置如下:
外观设计:依旧冷酷,更为紧凑相比于RTX4090力量感十足的外形,GeForceRTX408016G给人的是一种“西装暴徒”的克制感,它没有像RTX4090那样做夸张的跃肩设计,整体是一张标准的3槽的显卡,对于机箱的兼容性会更好一些。
GeForceRTX408016G的TGP功耗为320W,为了承载更高的功耗,供电接口变成了16Pin的,包装内附赠了3个8Pin转16Pin的转接线。比RTX4090自带的4个8Pin转16Pin要少一个,对电源的需求也就没那么大了。默频的话,配个750W以上的足额电源就够了。
GeForceRTX408016G整体造型继承了与RTX30系列公版GPU几乎一致的设计,在银黑相间的装甲中,是密集的金属散热装甲与两个巨大的风扇。一前一后形成了垂直风道。
与RTX4090一样,由于显卡重量相对比较重,所以在显卡侧面提供了显卡架螺丝孔,打开盖板即可加装显卡支架。
GeForceRTX408016G在接口依旧是标准的3个+1个,可以支持最高8K分辨率的显示器。
技术解析:核心能效暴涨,助力AI跃进我们手中的GeForceRTX408016G是基于目前定位第二高的AD103核心打造的,里面有7组GPC,其中4组是完整的。内部共有9728个CUDA核心、304个Tensor核心、和112个ROP单元,核心规模与上一代RTX3090比较接近。
GeForceRTX408016G的核心频率是2210-2510MHz,相比上代同样有着巨大的提升。显存方面则是一步到位来到了256-bit位宽的16GBGDDR6X。显存的大规模提升使得4K游戏中再无爆显存之忧,同时也能兼顾当下流行的AI生产力工作。出厂预设最大设计功耗为320W,和上一代RTX308010G版保持一致,考虑到它性能的巨大提升,这一代RTX4080的能效比应该相当爆炸,后面的烤机环节我们会进行深入测试。
GeForceRTX408016G的架构当然是最新款的NVIDIAAda架构,它基于TSMC4NNVIDIA定制工艺打造,因此实现了高达2倍的性能功耗比飞跃。流式多处理器的吞吐量超过上一代产品2倍。第三代RTCores的有效光线追踪计算能力是上一代产品2.8倍。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的Tensor处理性能,超过上一代的5倍。SER为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
理论性能:跑分几乎翻倍,提升令人惊艳前面我们说到RTX4080的能效比很出色,那么实际测试结果如何呢?我们马上进行理论测试,首先是单烤甜甜圈,烤机15分钟后,核心温度稳定在64.6℃左右,功耗稳定在310W左右,符合320W的TGP。最关键的是风扇也远没有满载,仅仅只运转了45%左右,因此使用起来相当安静。实际使用中,如果配i7/i9这样等级的处理器的话,750W的足额电源绝对够用了。
而在实际游戏中,是远远达不到TGP的320W功耗的。我们使用英伟达FrameView工具总结了几款有代表性游戏的实际功耗图,在游戏中基本都位置在270-300W左右,看来RTX4080核心的能效比是相当出色的。
接下来进行3DMark压力测试,这个测试可以检测连续跑分下显卡性能有没有发生下降,一般97%以上才算合格的显卡。实测GeForceRTX408016G的得分为99.6%,性能释放极其稳定。
在3DMarkTimeSpyDX12测试中,GeForceRTX408016G显卡分数达到了26552分,作为对比,GeForceRTX308010G版的分数为17306分,RTX3090的分数为18981分,RTX3090Ti为21862分。也就是说GeForceRTX408016G全面超越了上代RTX30系列的所有显卡,与上代同等级的RTX3080相比提升了50%。
在3DMarkFireStrikeDX11测试中,GeForceRTX408016G显卡分数达到了53379分,作为对比,GeForceRTX308010G版的分数为40932分,GeForceRTX3090的分数为46045分,GeForceRTX3090Ti为52630分。这个分数意味着它也可以4K分辨率下流畅运行所有的游戏,有了DLSS3的加持更是可以挑战一下高帧数。
在3DMarkPortalRoyal光追测试中,GeForceRTX408016G获得了17250分,提升幅度比光栅性能来得更大。比GeForceRTX3080提升了大约50%。
RTX408016G在理论跑分中的成绩绝对称得上是震撼,我们制作了一份GPU物理分数的对比表,在所有项目中RTX408016G相比于前代旗舰卡都有着明显的提升。
DLSS3详解:AI助力游戏,帧数4倍暴涨虽然理论性能已经超越了所有的RTX30系显卡,但真正重磅的提升还要属DLSS3技术。DLSS3是一款由AI驱动的性能倍增技术,由全新第四代TensorCore和GeForceRTX40系列GPU的全新光流加速器驱动,是NVIDIA广受好评的深度学习超级采样技术的最新版本,并拥有开创性的光学帧生成技术,将开启NVIDIARTX神经网络渲染游戏和应用的新时代。
基于NVIDIAAdaLovelace架构的光流加速器可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而无需传统游戏引擎进行建模。帧生成模型同时获取游戏引擎中的运动矢量和光流数据,这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。
简单地说,过去的DLSS2是通过渲染出一个低分辨率图像,然后AI放大至高分辨率,实现画质与帧数的提升。而全新的DLSS3在兼容DLSS2的基础上,还新增了帧生成功能,可以在两个真实帧之间插入AI推算出来的全新帧,实现帧数的倍增。再结合DLSS2的超分辨率功能,AI能重建至多八分之七的显示像素,与没有DLSS相比,游戏性能最高可提升4倍!
接下俩我们进入DLSS3的测试环节。最新版的3DMark已经适配了DLSS3的BenchMark,我们把GeForceRTX408016G的测试结果和DLSS2进行控制变量的对比,可以直观地看出差异。实测在DLSS2模式下,平均帧数为97.9帧,相比于不开DLSS2已经提升了将近三倍。
但如果我们开启最新的DLSS3技术,GeForceRTX408016G显卡帧数直接来到了平均125.84帧,和不开DLSS的帧数相比,提升相当明显。
这才过去了一个月,DLSS3又适配了不少新游戏,当11月16日GeForceRTX4080发布时,市场上有10款DLSS3游戏可玩:
1.《瘟疫传说:安魂曲》(APlagueTale:Requiem)
2.《光明记忆:无限》(BrightMemory:Infinite)
3.《毁灭全人类2:重新探测》(DestroyAllHumans!2-Reprobed)
4.《暗影火炬城》(:ForgedinShadowTorch)
5.F1®22
6.《逆水寒》(Justice)
7.《生死轮回》(Loopmancer)
8.《漫威蜘蛛侠:重制版》(Marvel’sSpider-ManRemastered)
9.《微软模拟飞行》(MicrosoftFlightSimulator)
10.《超级人类》(SUPERPEOPLE)
由于只要适配DLSS3就可以向下兼容DLSS2,开发难度非常低,所有后续肯定会有越来越多开发商加入DLSS阵营。我们选取了《赛博朋克2077》、《瘟疫传说:安魂曲》、《超级人类》、《暗影火炬城》、《光明记忆:无限》和《生死轮回》等多款已经适配了DLSS3的游戏来对GeForceRTX408016G进行测试。
我们上来就进行压力最大的《赛博朋克2077》,我们在4K最高画质超级光追下运行它自带的BenchMark,得到了以下数据。可以看出,DLSS3性能档的情况下,至多可以实现帧数50%的提升,这个帧数提升是相当明显的。
那么DLSS3是否会对画质有严重影响呢?我们使用NVIDIAICAT工具进行画面对比数毛,可以看出左右两边的画质确实有差距,但在宏观上并不明显,可以说DLSS3技术真的可以让我们“白捡”了不少帧数。
↑左DLSS平衡,右DLSS3关闭
在《绝地求生》开发商蓝洞的新作《超级人类》中,同样提供了和DLSS3的选项。从下面的数据可以看出,DLSS3在《超级人类》与《赛博朋克2077》类似,在开启DLSS3后,帧率提高了近70%。直接从能4K流畅游玩,变成了能流畅4K高帧游玩。
接下来是一款国产赛博朋克游戏《生死轮回》。虽然是一款2D横版游戏,但凭借光线追这一大革命性功能。它能在虚拟的世界模拟出真实的全景光影和反射。图中雨后湿润的地面最能表现出光追赛博朋克的魅力,仔细看水坑的差异就很明显了,未开启光追的话只有模糊的投影,而开启后便会产生栩栩如生的倒影。
↑左RT高档,右RT关闭
而在帧数表现方面,DLSS3也能为其带来最高可达2.5倍以上的帧数提升。
笔者发现,DLSS3的首批游戏库中,国产游戏数量格外得多。除了上面我们测试的《生死轮回》外,还有《光明记忆:无限》、《暗影火炬城》和《幻塔》。在《光明记忆:无限》中,DLSS3至多带来了约2.5倍的提升。
另一款国产蒸汽朋克风游戏《暗影火炬城》中,仅提供了DLSS3自动/关两个档位,但帧数的提升还是相当显著的,同样达到最高约2.5倍的性能提升。
最后我们测试一款画质爆炸的3A大作《瘟疫传说:安魂曲》。这款游戏在笔者评测RTX4090的时候就提供了DLSS3的支持,但由于游戏还在测试版,我们没有办法顺利完成测试。如今正式上线后,RTX40系显卡终于可以畅玩了。
实测开启DLSS3后,帧数至多可以提升最高可达3倍,这对于这类材质复杂的3A单机大作来说很有用。
游戏实测:享受4K电竞,更高帧数更低延迟除了支持DLSS3的大作外,IT之家也为大家测试了几款主流游戏。GeForceRTX408016G本次会全程在4K分辨率最高画质下进行测试,在新上线的《守望先锋》“归来”中,提供了NVIDIAReflex低延迟选项,它使CPU能够在完成前一帧之前就开始向GPU提交渲染工作,从而大大减少甚至消除渲染队列,这使得响应时间更快,瞄准精度更高。实测开启增强Reflex后,延迟降低了一半。
在《古墓丽影:暗影》中,实测在4K分辨率最高画质下运行BenchMark能跑到137帧,已经能基本满足4K144Hz的显示器畅玩了。
这款游戏也有DLSS2的支持,在开启DLSS2后,帧数最高可以提升将近90%。
最后我们测试一款光追3A大作《控制》,4K最高画质最高光追下不开DLSS几乎不能勉强流畅游玩,而GeForceRTX408016G开启初档DLSS后帧数几乎翻倍,这个体验相当出色了。
总的来说,GeForceRTX408016G在4K分辨率下已经能满足光追3A的全部要求。当然,在进行8K游戏时16G显存还是比较危险。可以说RTX4080是一张非常适合搭配4K144Hz显示器的高端游戏卡。代表未来的8K游戏还是交给4090去挑战吧。
创意生产:AI时代算力就是生产力这一代GeForceRTX4080显存方面提升不小,因此也被赋予了一定的生产力属性。在应对创意生产和深度学习方面会有一定建树。同时GeForceRTX408016G也可以安装NVIDIAStudio驱动,有超过100款创意应用都可以调用NVIDIACUDA核心的AI算力,来大大提高工作效率。
在建模渲染类软件中,GeForceRTX408016G可以利用CUDA为工作提供硬件加速,目前几乎所有的建模软件都会对NVIDIA的GPU有优化,所以能做到效率、稳定和兼容性的共存。比如在常用的渲染工具V-Ray中,可以借助RTX加速的光线追踪,实现高性能最终帧渲染。借助搭载AI的降噪功能,GPU可进一步加速交互式渲染。
在V-RayBenchmark中,RTX4080获得了3060分,可以顺利应对大部分的建模渲染需求。
得益于光追性能的提升,GeForceRTX408016G在V-RayGPURTX中的分数也提高到了4155分,足以应对实时光追的高压力渲染。
最后我们跑一下另外一款渲染软件Octane,它可以藉由RTX加速的光线追踪和搭载AI的OptiX降噪可实现快速的交互式渲染。GeForceRTX408016G最终的测试结果来看,其渲染能力大约相当于10块GTX980同时工作,从GTX980到RTX4080,算力的提升令人恍如隔世。
此外,NVIDIA还为RTXGPU提供了NVIDIABroadcast这个神器。它通过人工智能技术,实现了音频降噪、绿幕抠像、人像聚焦等实用效果。对于希望买一张高端显卡的主播们来说,有了NVIDIABroadcast+AV1的高效编码,只需要一台机器就可以完成全链路直播。
总结:RTX30系列旗舰的接班人从定位和定价来看,RTX408016G的目标是相当明确的,就是取代RTX30系列的所有高端卡,成为下一代的4K游戏旗舰。在我们的测试中,它也的确能做到4K最高画质通吃所有3A大作。如果支持DLSS3的话,那更是可以实现4K高帧游玩。我们可以看到,距离4090发布会仅仅1个月时间,就有10款DLSS3游戏完成了适配,后续肯定会有更多游戏支持。并且在我们的实际使用中,RTX4080的功耗始终在200多W,这个能效比可以说是相当的出彩。笔者已经开始期待搭载RTX40系列LaptopGPU的游戏本了。
价格方面,GeForceRTX408016GFounderEdition的建议零售价是9499元。从售价的提升中也能看出,RTX4080的定位其实与上代的RTX3090是类似的,都是为了想体验4K144Hz的高端玩家,或者靠GPU吃饭的企业用户准备的。笔者认为,可以等AMD7900系列和RTX4080系列显卡都上市后,对比一下两者的价格和性能,再考虑是否要购买。但如果你是一个普通玩家,其实RTX4080的性能也是溢出的,笔者认为不妨期待一下RTX4060、RTX4070,或者直接入手现在价格已趋于稳定的RTX30系列型号。