RTX 4070 SUPER FE评测:生成式AI如何改变游戏和创作

氪新抢先看

作者:氪新抢先看

发布于2024-01-16 22:00:00 +订阅

      代号Ada Lovelace的RTX 40系GPU毫无疑问是电脑游戏技术的革命。无论是极高能耗比的架构设计与和台积电深度合作定制TSMC 4N制程节点的天造地设还是纯光栅、光追与DLSS三大图形性能的全面跃进,以及DLSS 3这种能够极限提升游戏体验的功能,都让这一代显卡成为了玩家们的心头好。同时,AI技术的逐渐成熟也让如Stable Diffusion这样曾经只能存在于科幻电影中的生成式AI应用飞入寻常百姓家,让用户们可以在自己的电脑上为想象力插上名为AIGC的翅膀。为了让用户们能够更不受限地游玩、创作,NVIDIA于2024年CES上公布了RTX 40系GPU的升级款-RTX 40 SUPER家族。我们这次拿到了首发的RTX 4070 SUPER Founders Edition,下面就让我们一起来看看这代SUPER的强度吧。

外观

      我们这次拿到的NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU在外观设计上延续了RTX 40系 Founders Edition GPU的一贯设计语言,采用了黑色的对开包装,仍然十分具有质感,堪称艺术品。

      打开包装,我们看到本次的NVIDIA GeForce RTX 4070 SUPER Founders Edition与之前的Founders Edition GPU最大的区别:原先黑色的X字中框现在被涂成了黑色,左侧的RTX 4070 与浮雕SUPER字样也同样如此,这使得整张GPU在机箱中更为低调。

      整体上来说,由于本次主题色调变更,GPU顶部散热鳍片与分割线之间的衔接也更为流畅,与旧款RTX 40系Founders Edition GPU相比可以说是方向不同但同样美观。

      GPU的正面仍然是我们熟悉的大量鳍片搭配风扇的设计,能够极其高效地将GPU核心在工作中产生的热量发散到机箱处,前后搭配的双风扇设计还能够优化整机的气流通道,让整台电脑能够有效提升性能表现。

      在3DMark的Speed Way重负载光线追踪压力测试下,这张GPU实现了98.6%的稳定性表现,最佳、最差循环分数之间仅有70余分的差距,确保了在长期运行高负载的游戏与生产力应用时足够稳定。

      GPU挡板部分包括四个图形输出接口以及散热系统的出风口。三个DP 1.4a与一个HDMI2.1的配置意味着玩家可以轻松应对多屏高分高刷的需求,应对电视/投影/家庭影院等使用场景也毫无压力。

技术规格

      这次升级的RTX 4070 SUPER GPU与标准款RTX 4070 GPU同样搭载AD104核心,只是具体的子型号有所不同。AD104-350核心拥有7168组CUDA核心、224组第四代Tensor Core AI加速核心与56组第三代光追加速核,规模上远超RTX 4070搭载的AD104-250核心中的5888组CUDA核心、184组Tensor Core与46组光追加速核,因此在性能上十分值得期待。

      同时,延续了Ada架构GPU的一贯特色,RTX 4070 SUPER GPU拥有巨大的48MB L2缓存,搭配12GB的GDDR6X显存,能够毫无压力地应对2K分辨率下各种顶尖3A大作的考验,搭配DLSS 3.5意味着它在4K分辨率下也能够有一战之力。而且,由于L2缓存离GPU核心更近,它能够被更快速与灵敏地访问,这能够有效提升内存子系统整体的性能,在能耗表现、光追性能等方面拥有更好的综合表现。

      当然,更大的核心也同样意味着功耗的上升,但由于TSMC N4制程节点的优良能耗比表现,最终NVIDIA GeForce RTX 4070 SUPER Founders Edition的功耗仅比RTX 4070多出区区20W来到220W。而在频率上,NVIDIA GeForce RTX 4070 SUPER Founders Edition的默认频率仅有1980MHz,但在实际游戏与工作中,看到它飙升到2.8GHz都并非难事。可以说,NVIDIA GeForce RTX 4070 SUPER Founders Edition继续发挥了RTX 40系Ada Lovelace GPU强悍的能耗比特性。

      为了进一步测试NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU的能耗表现,我们使用AOC U27G3X显示器在4K 160Hz的设置下抓取部分场景的功耗表现。可以看出,这张NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU的能耗比表现同样继承了系列一贯的优秀传统,在重GPU负载的游戏/生产力应用之外,即使使用Edge浏览器播放4K流媒体视频,功耗也仅有28W左右,而待机更是仅有8W出头。如果玩家用的是2K QHD甚至1080p FHD显示器,相信功耗表现还能更为出色。

理论性能

      我们使用如图所示的测试平台对这张NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU进行了全面的性能测试。

      使用3Dmark套件,我们对它在多项主流图形技术下的光栅渲染理论性能进行了测试。从测试的成绩可以看出,RTX 4070 SUPER这款GPU在性能提升幅度上十分可观,与RTX 4070与RTX 3070两张老卡拉开了颇为明显的差距。

      而在光追场景中,凭借更多更好的光追加速器,我们的SUPER也是进一步地拉开了差距,在理论图形性能上一骑绝尘。当然,理论是理论,实际是实际,接下来我们也会以实际应用场景来对这张新卡做更严苛的考验。

DLSS 3.5与光线重建

      作为Ada Lovelace架构游戏性能提升的重头戏,DLSS 3技术搭配更先进的硬件光线追踪加速器能够允许玩家在游戏中体验更具临场感的游戏体验,也同样允许创作者在设计时就以更先进的光线技术栈为基础进行打造,实现更加精妙的艺术设计。

      DLSS 3实现实时帧生成的技术核心在于其GPU核心中首次加入的硬件光流加速器。这项技术允许GPU实时分析前后帧并计算出光流场,即用于描述像素移动的数学算法。以此为基础,配合从游戏引擎中直接获取的几何信息(如地理位置、运动向量、速度和深度等),GPU就能够在现有的DLSS 2与光栅渲染管线的基础上无中生有地生成新的游戏帧。由于DLSS 3技术的管线完全独立运行,这意味着它与游戏渲染管线中的其他部分不会互相影响,性能表现也同样能够得到保证,甚至在CPU性能受限的情况下也是如此。在极限情况下,玩家显示器上只有12.5%的像素是由图形渲染管线渲染,剩下的87.5%全部来自DLSS管线,但在视觉上也仍然难以与原生渲染分辨。

      在3Dmark中,我们也同样可以对DLSS 3下的理论性能进行测试。我们使用质量模式进行性能测试,下文的游戏测试中也一样如此,因此玩家们会发现在实际上手后还能压榨出比我们给出的数据更优秀的性能表现。在2K分辨率下,帧数表现从原生的60.38帧一跃飙升至119.96帧,表现翻倍;而在4K分辨率下,从27.97帧到72.54帧更是有260%的提升,表现十分强劲。

      除了游戏帧数的进一步提升,随着DLSS 3.5技术的发布,另一项先进的图形技术也开始大展拳脚,这就是光线重建。通过使用AI工具对游戏渲染管线输出的帧进行统一降噪,并使用与DLSS 3相比扩充五倍的数据量训练的超级模型,DLSS 3.5技术加持下的游戏与工作站应用能够同时实现更真实的画面表现与更流畅的性能体验。最重要的是,由于它仅仅是在光线追踪与DLSS管线上进行拓展,使用RTX 20系Turing GPU或RTX 30系Ampere GPU的玩家们也可以在自己的RTX GPU上启动DLSS 3.5光线重建技术,体验极富沉浸感的画面效果。

      例如,在《赛博朋克2077》中,玩家可以使用光线追踪:超速模式下实现极具竞争力的全景光追游戏画面,并通过DLSS 3.5技术实现画面、性能双丰收。从图上可以看到,在夜之城昼夜不息的霓虹灯光下,车水马龙的街头巷尾处光照效果十分真实,而且性能表现颇为出色。

      由于我们测试开启了路径光追,可以明显看到在未启用DLSS 3.5光线重建技术的前提下,游戏的性能损失极其明显,尽管在2K分辨率下仍然能够以平均24帧这种第八世代水平的电影级帧数游玩,且1% Low帧也相对稳定,但对于赛博朋克2077这样一款拥有大量动作射击元素的游戏来说显然不够合适。而开启DLSS 3.5光线重建技术之后,游戏的平均帧与1% Low表现都得到了显著的提升。

      在4K分辨率下,我们也看到了类似的表现,而且由于分辨率更高压力更大,帧数表现也是更加悬殊。在原生渲染下仅仅10帧出头的平均帧表现无论以哪个世代的标准来说都是完全不可玩水平,但在开启DLSS 3.5光线重建技术之后游戏的表现来到了平均32帧、1% Low 23帧的水准。考虑到这张显卡的定位和规格,这一表现已经足够被定义为可玩了。

      而当我们将这个数据与上一代的RTX 3070显卡做对比,可以看到在《赛博朋克2077》中,RTX 4070 SUPER GPU凭借着规模、架构与DLSS 3.5的三大优势,无论在原生渲染还是DLSS 3.5的性能表现上都实现了极大提升。对于目前仍然在使用RTX 3070显卡的玩家们来说,NVIDIA GeForce RTX 4070 SUPER Founders Edition可以说是一款十分具有竞争力的升级选项。

      另一款以全景光追+光线重建技术闻名遐迩的游戏就是前段时间刚刚发售的《心灵杀手2》。作为Remedy十年磨一剑的巨作,这款游戏继承了Remedy对于游戏叙事艺术以及先进图形技术的深度打磨,在图形技术栈方面颇为激进,使用了包括路径追踪在内的大量先进技术,在提供业界一流的画面表现的同时也对玩家的硬件提出了极高的要求。可以看到,在启用DLSS 3.5光线重建技术后,画面整体的观感更为清晰,无论是角色衣服上的细节还是远处草地上的叶片都更为生动灵活,提升相当显著。

      由于应用了相当激进的图形技术栈,在2K分辨率下,我们可以看到心灵杀手2的性能要求甚至比开启了路径追踪的赛博朋克2077还要更高,我们的NVIDIA GeForce RTX 4070 SUPER Founders Edition在不使用DLSS技术的前提下只能跑出23帧左右的成绩,对于心灵杀手这种玩法上极度注重手电筒和枪支使用的游戏来说显然是难以流畅体验的,但在开启了DLSS 3.5之后,平均帧数和1% Low帧都有显著提升,能够流畅游玩。

      而在4K分辨率下,我们看到了与《赛博朋克2077》相当类似的数据趋势:若不开启DLSS 3.5光线重建,则大量光线计算将会彻底压垮GPU,12帧左右的平均帧表现甚至在角色说话时都会出现卡顿,但开启DLSS 3.5之后,游戏的性能却来到了一个可玩的帧数。这也同样印证了我们在前文提到的观点,尽管RTX 4070 SUPER这款GPU并非定位4K满画质3A游戏,但在DLSS 3.5这样现代的图形技术加持下,它在4K分辨率下仍然是有一战之力的。

      作为微软第一方少有的满分游戏,《极限竞速:地平线5》可以说十分忠实地还原了墨西哥的风土人情,让玩家能够驰骋在多种多样的地形环境中,辅以有趣的主、支线任务以及广袤的地图上的各种收集品,让它即使在本家正座《极限竞速8》推出之后仍然有大量玩家。

      同时,作为一款支持DLSS技术的游戏,我们同样能够使用DLSS技术实现颇具竞争力的游戏体验。在2K分辨率下,地平线5给出了一个十分不错的性能表现,原生渲染也能实现110帧往上的平均帧表现,在现代GPU上运行得相当不错,而当我们看向1% Low帧水平,就会发现在开启DLSS之后,1% Low帧性能有相当显著的提升,从95帧提升到111帧,这在驾驶中能够让玩家更灵活地调整方向,实现更优秀的驾驶体验。

      而在4K分辨率的数据中,情况也是如此,且由于分辨率提升带来的压力提升,DLSS带来了更大的性能提升,让玩家们可以有更好的游戏体验。

      前段时间,Epic游戏商城举行了年末送游戏的活动,而作为最后收尾的重头戏选手就是Square Enix开发的《漫威银河护卫队》。这款游戏于2021年在Steam平台发售,吸取了之前《漫威复仇者》的教训,凭借精妙的单人战役与天马行空但不背离故事基调的全新剧情体验广受好评。同时,一流的画面与不错的优化也让这款游戏的性能表现十分优秀。考虑到很多读者应该已经领取了这款游戏,我们也来蹭个热度,来测试一下它在NVIDIA GeForce RTX 4070 SUPER Founders Edition上的表现吧。

      在我们的测试中,这款游戏的一流优化水平展露无遗。例如,在2K分辨率下,开启DLSS后游戏的平均帧在原来就过百的优秀基础上再添加了60余帧来到162帧,表现十分惊艳;而在1% Low帧上,从76.8帧跳到103.4帧的表现对沉浸在战斗中的玩家们来说想必也是颇有感知。

      而在4K分辨率下,我们也能看到类似的性能提升,尤其是1% Low帧成绩。原先的25.9帧表现对于这样一款充斥着格斗、TPS等元素的游戏来说显然不够合适,在激烈的战斗中可能让玩家错失战机影响游戏体验,但在开启DLSS后,63帧的1% Low成绩就足以确保游戏的流畅程度了。

      除了游戏之外,DLSS 3.5光线重建技术还在诸多3D建模类的生产力应用中能够起到十分显著的作用,著名的国产3D渲染器-D5渲染器就是其中的佼佼者。由于这款渲染器采用了自研的D5 GI高精度实时全局光照解决方案,随着场景逐渐复杂,不同光源与材质之间的联系会极大程度地对GPU造成压力,且会造成画面的图形失真,因此尽管设计软件并不像游戏那样追求高度实时性,DLSS 3.5技术带来的光线重建仍然能够为它带来十分显著的提升。

      我们使用一个相当复杂的场景作为测试素材,并分别在开启/关闭光线重建技术的情况下尝试渲染出图。可以看到,在开启光线重建后,无论是远处休闲躺椅的布料材质还是桌面、椅脚等反射度较高的场景的效果都得到了显著的提升,且整体画面也更加清晰,十分适合设计师出图等场景。

      同时,在性能方面,我们也得到了颇为不错的结果,从原来的9帧直接跃进到33帧,操作更为流畅,能够方便创作者对内容进行实时的修改或导览。

NVIDIA Reflex与电竞游戏

      当我们谈到NVIDIA GeForce GPU带来的现代游戏体验,一个绕不开的技术就是NVIDIA Reflex。这项从鼠标到显示器全覆盖的低延迟游戏解决方案能够有效降低游戏中整体渲染延迟,对玩家来说能够带来极强的竞争力。从代号Maxwell的GTX 900系列GPU开始引入这一技术以来,它就成为了电竞玩家们的心头好,如今大多数主流的电竞游戏都会对这一技术进行支持。

      例如,在最新的《反恐精英:全球攻势》中,我们就可以在设置中开启这一功能,在游戏中实现极低的延迟表现。然而,《反恐精英:全球攻势》并不对DLSS提供支持,因此我们这里只能对比高画质预设下2K、4K分辨率的延迟表现。

      可以看到,在游戏中,无论是2K还是4K分辨率,开启DLSS功能后游戏的延迟表现都有显著的提升,尤其是在如Dust 2这样短兵相接的近距离地图中,玩家能够从降低的延迟中获得显著的对战优势。

      除此之外,由于DLSS 3技术需要使用光流加速器生成游戏帧的特性,我们会发现所有支持这一技术的游戏也同样绑定Reflex技术,例如《使命召唤:现代战争3(2023)》。因此,在这款游戏中,我们可以同时看到DLSS 3技术和NVIDIA Reflex技术带来的综合性能提升。

      在2K分辨率、原生渲染的情况下,现代战争3的表现已经十分优秀了,但DLSS 3技术下表现还有进一步提升,而延迟更是直接从44.25砍到25毫秒不到,近乎腰斩,尤其是本作强调机动性的150血多人对战模式下,更是能够让玩家有更高的胜机。

      而在4K分辨率下,我们看到DLSS 3在帧数上带来的相当不错的提升,但延迟方面更进一步,从30毫秒直接一步到位砍到13毫秒,让玩家能够拥有更舒适的竞技体验。

NVIDIA AI与生产力应用

 

      随着CUDA生态、深度学习生态的发展,从前只能在科幻作品中见到的诸多技术也随着新一代GPU的普及成为现实。尤其随着NVIDIA AI与TensorRT等技术栈的发布,诸多先进的生成式AI技术能够在用户的电脑上使用GeForce RTX家族的游戏显卡展开。

      例如,在Stable Diffusion中,我们可以使用TensorRT显著加速SDXL大模型图像生成。我们使用官方提供的TensorRT拓展包训练了基于TensorRT的SDXL加速引擎,并使用1024x1024尺寸、采样50步、CFG SCALE 7的配置生成10批单张图片进行性能测试。

      可以看到,不启用TensorRT加速时,NVIDIA GeForce RTX 4070 SUPER Founders Edition花了237.4秒才生成图片。毫无疑问,考虑到我们给到的参数,这个成绩也十分值得赞誉,但在开启TensorRT加速后,SDXL的性能更是提升到一个更新的水平:区区118.3秒,近乎腰斩。而随着用户生成的图片数量/参数提升,使用TensorRT能够毫无疑问节约更多的时间和算力。考虑到NVIDIA GeForce RTX 4070 SUPER Founders Edition拥有12GB的VRAM空间,这张GPU十分适合新入行的专业人士作为创作平台。

      除了Stable Diffusion之外,还有很多应用也能够使用NVIDIA AI加速。例如,On1 Resize AI 2023就是一款有效使用了NVIDIA AI技术栈的图像无损放大工具。

      我们使用这一工具对几张图片进行了尺寸放大,可以看到,在AI技术加持下,画面的细节得到了良好的保留。

      而在速度方面,每张图片的生成时间都在十秒以内,表现可以说是优秀了。

      当然,除了基于AI、DLSS等技术栈的诸多工具之外,也有很多工具更依赖传统意义上的GPGPU能力。好在,Ada Lovelace家族凭借多年以来在计算机图形学领域的深耕,在这些方面也同样不落下风。

      例如,随着RTX 40系推出的新一代NVENC硬件加速视频编解码器对H.264、HEVC/H.265与AV1三大主流视频格式提供了全面的支持,且其性能表现十分可观。我们使用DaVinci Resolve 18软件对一段ProRes 422 HQ格式的视频转码至AV1。

      我们使用的素材来自Blender开源电影项目《钢铁之泪》,原素材使用ProRes 422 HQ格式编码,有4K和8K两个分辨率。使用DaVinci Resolve,我们在80000KB/s的码率下分别将两个分辨率的视频片段编码为H.265与AV1两个格式。可以看到,无论是4K还是8K分辨率,我们的NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU凭借最新一代NVENC视频编解码器表现十分优异,能够以极高的效率完成素材编解码。

      而在更注重传统工业应用领域(如3D建模、医学图形等)的SPECviewperf 2020中,我们也观测到NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU的表现十分出色,即使是在Game Ready驱动下也能够提供相当优秀的工作站体验。

总结

      从我们的测试结果来看,如果说NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU在外观配色上做出的选择还略有争议的话,那么它在性能上的强势就毫无疑虑可言。继承了前辈RTX 4070 2K甜品的定位,它凭借着更巨大的规模能够轻松应对2K分辨率下最具挑战的3A游戏需求,即使是4K分辨率用户也可以在DLSS 3.5等现代图形技术的帮助下获得颇为可观的游戏体验。这张NVIDIA GeForce RTX 4070 SUPER Founders Edition GPU十分适合想要在2K分辨率下体验极限画质游戏的玩家们入手。

      同时,伴随着以TensorRT SDK为代表的NVIDIA AI生态与技术栈的演化与更大规模的Ada加速器,我们看到新一代RTX 4070 SUPER GPU凭借着高达568 TOPS的AI算力在AIGC场景下也同样拥有十分强劲的性能表现,也同样十分适合入门级专业生成式AI用户选购.

      英伟达GeForce RTX 40 Super系列现已上市,请到京东DIY Super超能年货节上选购GeForce RTX 4070 Super/80 Super 公版和合作伙伴显卡

分享到:

APP精彩推荐

相关资讯
热门资讯
下载APP可查看更多精彩资讯