七彩虹战斧GeForce RTX 4090豪华版首发评测:争当AI创作全能手



在NVIDIA公版Founders Edition解禁一天后,又到了非公版全面开花的时间点。GeForce RTX 4090 FE可以千篇一律,但使用旗舰级显卡的用户却有着各种各样的要求,这时候就是该AIC厂商发挥实力的时候了。那么有没有一款RTX 4090定位与FE公版相同,但更容易买到,且沉稳低调的型号呢?眼前的七彩虹战斧GeForce RTX 4090豪华版似乎就给了一个很好的例子。



虽然没有iGame那般张扬的外形和RGB,但七彩虹战斧GeForce RTX 4090依然是实打实的三槽设计。厚重的散热模组设计,时刻都在暗示里面装载着当下最强GPU,搭配经典的战斧系列红黑配色,有了一种西装暴徒的即视感。



那么与Founders Edition看齐的七彩虹战斧GeForce RTX 4090豪华版表现究竟如何?现在就让我们献上首发评测。



来自Ada Lovelace的“核”动力


Ada Lovelace名字背后多少带着一些传奇色彩,她是英国数学家,以及拜伦之女,整理阐述分析机文章后,建立了沿用至今循环和子程序概念,并在180年前预言了计算机用途将不限于计算,同时也成为了世界上第一个编译器发明者,被誉为程序之母。用来作为新一代的消费级GPU代号,也正好与商业CPU+GPU的Grace Hopper遥相呼应。



七彩虹战斧GeForce RTX 4090正是使用的是代号Ada Lovelace,型号AD102-300-A1的GPU,NVIDIA利用台积电4N定制工艺和改良的电路设计进一步扩大了芯片规模,时钟频率为2.52GHz,是以往NVIDIA GPU都未曾达到的高度。但同时TGP功耗则可以做到与GeForce RTX 3090 Ti相当,同样为450W,相当于GeForce RTX 4090的每瓦性能是GeForce RTX 3090 Ti的2倍。



从整体上看,完整的AD102包含了12个图形处理集群(Graphics Processing Clusters,GPC),72个纹理处理簇(Texture Processing Clusters,TPC),144个流式多处理器(Streaming Multiprocessors,SM),以及搭配了12个32-bit控制器的显存接口,共计384-bit。


但由于AD102-300-A1禁用了1个GPC核心,七彩虹战斧GeForce RTX 4090总共包含了11个GPC,64个TPC,128个SM,16384个CUDA Core,512个第四代Tensor Core,128个第三代RT Core。这里不妨让我们放出GeForce RTX 4090与GeForce RTX 3090 Ti,GeForce RTX 3090的规格进行对比:



在核心结构上,Ada Lovelace最大的变化是相对Ampere架构增大了L1和L2缓存,其中L1缓存可以达到18,432KB,比Ampere的10,752KB多出71.4%。总共98,304KB的L2缓存,也比Ampere的6144KB提高了16倍,这让光线追踪,尤其是路径追踪从中获得巨大收益,最终让第三代RT Core的射线/三角形求交测试模块数量直接翻倍。



NVIDIA增大缓存容量是有原因的。我们知道从GeForce RTX时代开始,RT Core与Tensor Core性能成为了GPU实现实时光线追踪技术以及DLSS深度学习超采样技术的关键。


第三代RT Core在第二代RT Core的基础上,再次将射线/三角形求交测试吞吐量。意味着射线/三角形求交测试模块由原来的2个再次增加到4个,相对Turing架构的1个射线/三角形求交测试模块翻了4倍,并额外增加了下图左下角的透明度微图引擎(Opacity Micro-Map,OMM)和右下角的位移式微型网面引擎(Displaced Micro-Mesh,DMM)。



其中透明度微图引擎(Opacity Micro-Map,OMM)让第三代RT Core拥有2倍速度的透明度遍历(Alpha Traversal),OMM通过减少几何图形透明度(Alpha)测试数量,最终减少着色器的透明度计算。这个新功能可以让开发人员紧凑的描述不规则形状,或者半透明物体,比如蕨类植物、栅栏等等。如果用下图举例,OMM可以让RT Core有效避免第二张图蓝色部分的的计算,从而更有效的执行光线追踪效率。



位移式微型网面引擎(Displaced Micro-Mesh,DMM)则可以用10倍的速度执行BVH。DMM也是全新的单元,它用来处理RT Core本地微求交结构网格,通过使用较少的基本求交三角形来描述比以往更复杂的几何形状。



第三代RT Core还引入了着色器执行重排序(Shader Execution Reordering,SER)技术,通过与游戏设计团队配合,更有效的分配次级射线的排序权重,从而获得更高效的线程排序执行,避免光追运算陷入无意义的次级射线运算的等待中 。



第四代Tensor Core的FP16、BF16、TF32、INT8、INT4性能相对前一代提升两倍以上,并增加了商业Hopper GPU架构中出现的FP8 Transformer Engine。得益于AD102 GPU中SM处理器增加,每个SM包含了4个第四代Tensor Core数量自然也同步增加,最终实现了AI计算性能的显著提升,并衍生出了性能提升神器DLSS 3,之后我们会分单独一个章节详细说明。



战斧装甲参上


如果开头所言,为了支撑AD102-300-A1性能持续输出,七彩虹战斧GeForce RTX 4090同样使用了三槽设计的超大散热模组,并覆盖经典红黑撞色装甲,在保持低调的同时展现出力量感。



这样的力量感同样延续到显卡背板,战斧GeForce RTX 4090使用了镂空设计,配合侧面露出大面积散热鳍片,更利于热量的快速释放。



为此,散热模组与GPU的相接处使用了真空冰片技术,通过扁平密闭腔体内充冷凝液,在吸收热量后通过相变原理快速导出热量。而在鳍片与热管之间,沿用了一套“回流焊”工艺,使热管与鳍片间紧密相连。



最后配合98mm直径的三风扇设计,搭配2*Φ6+4*Φ8热管,组成了战斧GeForce RTX 4090眼前这套散热系统。



由于使用了16pin(12VHPWR)接口,供电相数为14+3,战斧GeForce RTX 4090随机提供了一套3x8pin转16pin电源转接线,相对公版的4x8pin转16pin少了1个8pin,但从实际表现来看,战斧GeForce RTX 4090并没有与4x8pin的RTX 4090产生明显差距。



在压力测试中,战斧GeForce RTX 4090,能够看到通道供电接近500W,GPU功耗450W,与公版表现相当。与此同时,GPU最高温度为65 ,相对公版的68 更低一些。


这里放上红外线散热图,可以看到最高温度集中在扇热鳍中段。



顺带一提,在接口配置上战斧GeForce RTX 4090与公版保持同步,包括1个HDMI 2.1和3个DisplayPort 4.1a。



加速AI创作


又到了喜闻乐见的测试环节,由于战斧GeForce RTX 4090更注重创意内容制作上的表现,我们也准备了一套内存和容量更大的测试平台,比如32GB DDR5-4800 X2,共64GB。以及2TB PCIe SSD,并使用24线程的Core i9-12900K处理器,Z690主板,1250W电源等,参考配置如下图,除此之外,作为对比我们使用GeForce RTX 3090、GeForce RTX 3090 Ti进行陪跑。



在基础性能测试中,惯例引入检测DirectX 11和DirectX 12的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal和VRMark Blue Room进行检测。



可以看到,相比GeForce RTX 3090 Ti,战斧GeForce RTX 4090能够轻松提升50%到80%,特别是4K性能和光线追踪性能差距明显,第三代RT Core以及更多的CUDA Core、GPU缓存起到了显著的作用。



为了考验GPU的实际水平,我们也是用了几个常见的3A游戏作为参考,其中包括《地铁:离乡》,《古墓丽影:暗影》,《边境》,《光明记忆:无线》,《Wolfenstein: Youngblood》等,测试主要聚焦于4K最高画质最高光追效果。


可以看到,战斧GeForce RTX 4090帧率能够轻松跨越4K 100FPS大关,4K最高画质拉满光追对于GeForce RTX 4090不再是问题。



简单的热身之后,让我们进入内容创作实战环节。从参数上看,战斧GeForce RTX 4090的GDDR6X显存仍然为24GB,但实际上通过与美光合作实现了电路设计以及信号上的优化,显存峰值显存带宽已经提升到了1TB/s,24GB显存容量将能够更轻松的构建4K乃至8K的内容。这也是为什么接下来的我们的内容创作测试都会围绕更高分辨率的内容创作形式作为参考。


不仅如此,GeForce RTX 4090也首次加入AV1双编码器。AV1编码是由英特尔、微软、亚马逊、谷歌、网飞等网络巨头组成的开放多媒体联盟AOMedia所推出的免费编码格式,在国内已经获得了哔哩哔哩、爱奇艺支持。它的特点是能在相同文件体积下拥有更高清的画质,或者相同清晰度的画质下拥有更小的体积。



如果与GeForce RTX 30系列进行对比,GeForce RTX 40系列的AV1编码器能比H.264编码器效率高出40%。这意味着AV1编码器能够利用现阶段可以进行1080p串流视频的带宽,实现1440p甚至更好的画质。如果视频平台支持AV1实时直播推流,在同样的带宽占用下,可以轻松播放2K或者4K的视频,而播放4K的带宽也将可以用来播放更高分辨率的内容。



得益于24GB的显存容量,战斧GeForce RTX 4090融入了2个AV编码器,组成了双编码的形式,这是12GB以上RTX 40系列GPU才拥有的特权,能够实现同时处理4个4K 60FPS视频,1台电脑完成多路4K画质60FPS输出等以前不敢想象的玩法。


在实际测试中,我们先使用了Resolve 18对4K 30FPS和8K 30FPS的视频进行编码,由于GeForce RTX 3090不支持AV1编码,这里使用H.265替代。能够看到,战斧GeForce RTX 4090的效率加速了将近60%。



渲染能力则主要围绕Blender Benchmark进行。Blender Benchmark主要测试了GPU的渲染输出能力,在Moster、Junkshop、Classroom按个场景中,战斧GeForce RTX 4090相对GeForce RTX 3090最高提升了102%的性能。


而在V-Ray 5 Benchmark中,则会考验到GPU的CUDA性能和光线追踪性能,能够看到战斧GeForce RTX 4090提升也是翻倍的。



在经常被利用于创建模型的Octane Render RTX会对GPU的光线追踪性能以及渲染输出有着很高的要求。在复杂测试场景下,会考验GPU每秒产生的样本率。可以看到战斧GeForce RTX 4090最高性能提升也能达到110%以上。



Tensor Core的AI性能也已经成为GPU测试项目之一,利用AI实现低分辨率图片无损向高分辨率图片输出变得更为常见。这里我们使用了ON1 Resize AI 2022作为参考,分别将五张9MB左右,4000x6000分辨率图片,输出成更大的8000x12000图片,也就是将图片横向与纵向分辨率放大一倍,容量也达到了将近60MB。这里让我们先来看一下输出的最终效果。



如果战斧GeForce RTX 4090与上一代GeForce RTX 3090比较,可以看到实际运行时间压缩了40%以上。



最后在放出测试常客SPECviewperf 2020,这是一款包含3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等诸多专业软件,由于SPEC组织基于工业标准的OpenGL图形显示卡效能测试分析软件。测试本事使用C语言编写,主要用于测量运行在OpenGL API下的3D图形性能。


能够看到战斧GeForce RTX 4090相对GeForce RTX 3090最低提升40%左右,最高可达130%以上。



简而言之,更多数量的CUDA,强劲的第三代RT Core和第四代Tensor Core,以及更快的24GB GDDR6X显存,都让战斧GeForce RTX 4090在创作性能上有了成倍的提升,鉴于售价与上一代GeForce RTX 3090想等,甚至更低,战斧GeForce RTX 4090在内容创作环节已经突出了强有力的性价比。


必杀:DLSS 3


对于一款旗舰级显卡而言,创作性能爆表远远不够,因为战斧GeForce RTX 4090另一个必杀技是DLSS 3,这项技术伴随着新显卡推出,并且已经获得了市面上35款主流游戏的支持。



与我们以前理解的DLSS 2.X不同,DLSS 3已经不再是传统意义上的单一技术,它是一个软件与硬件协同的技术合集,包含了DLSS 2超分辨率技术,AI生成帧,加入对NVIDIA Reflex支持。在硬件层面,依靠第四代Tensor Core与光流加速器共同协作,实现像素级的测量场景,并云端的NVIDIA超级计算机则夜以继日的寻找提升高质量图像的途径。在软件层,DLSS 3包括DLSS 2超分辨率技术,AI生成帧,加入对NVIDIA Reflex支持。


换而言之,DLSS 3开启的本身也意味着原生开启了NVIDIA Reflex技术,能够有效提升系统响应延迟,在毫秒必争的电竞赛事中是非常有必要的。



新光流加速器与DLSS 3搭配,能够计算出场景中的所有像素是如何从一个像素移动到另一个像素的,其中就包括阴影、光反射和粒子等光流场信息。同时通过神经网络分析,分析之前帧与当前帧,最终获得一个高清且自然的效果。



简单的说,战斧GeForce RTX 4090拥有DLSS 3之后,游戏帧率更高的同时,画质也更好了。为了让大家有更直观的感受,我们将GeForce RTX 3090的DLSS 2与战斧GeForce RTX 4090的DLSS 3进行对比。


在传统的3DMark DLSS 2 2K分辨率测试中,能够看到战斧GeForce RTX 4090性能提升70%以上,似乎在情理之中。



如果把分辨率提升到4K甚至8K,那么GeForce RTX 3090将会被战斧GeForce RTX 4090甩数条街,战斧GeForce RTX 4090在DLSS 3加持下,性能直接提升了125%和170%,8K分辨率下能够流畅的运行93FPS画面,4K 168FPS画面,达到了相当离谱的程度。



在游戏中也是如此,我们从35款DLSS 3游戏中选出了《赛博朋克2077》、《微软飞行模拟》、《瘟疫传说:安魂曲》、《逆水寒》、《F1 22》作为参考,并引用《Unity Enemies》《Unreal Engine 5: Lyra》两款DEMO作为对比。


在与GeForce RTX 3090的对比中,战斧GeForce RTX 4090可以轻松拿下200%以上的帧率提升,最高提升甚至可以达到420%。



不仅如此,《逆水寒》DLSS 3版本首次使用了路径追踪也就是全景光线追踪作为测试场景,因此最终导致了GeForce RTX 3090原始帧率只有7FPS,而GeForce RTX 4090在开启DLSS 3之后能够达到79FPS,差距非常大,也印证了DLSS 3搭配全新光流加速器达到了很好的画质提升效果。



这里我们奉上一段ICAT截取的画面作为参考,DLSS 3不仅流畅度更有保障,光影效果也处理得更为自然。



AI光影加速一把手


在一轮性能与体验的轮番轰炸后,七彩虹战斧GeForce RTX 4090豪华版给我们留下了深刻的印象,战斧GeForce RTX 4090设计简约却相当有力,发挥出了Ada Lovelace AD102核心应有实力,通过优化后的电源与散热设计,将GPU的通道功率推到了500W,但核心温度控制在了70 以下,并保持足够安静的运行,做到这几点都是相当不容易的。



更重要的是,战斧GeForce RTX 4090所搭配的24GB GDDR6X显存,AV1双编码器,第三代RT Core、第四代Tensor Core以及DLSS 3,都成为了性能提升的杀手锏。仔细想想,上一次在隔代旗舰级显卡之间较量,性能轻而易举提升100%甚至300%的景象,已经很久没有发生了。



战斧GeForce RTX 4090通过强大的硬件堆叠以及巧妙的技术结合,实现了一套1+1大于2的效果,这不免也让人期待起七彩虹iGame系列的强力表现。总归而言,在Founders Edition之外,战斧GeForce RTX 4090的表现,足够成为设计师们或者想体验高性能游戏体验玩家们不错的选择。毕竟在剥离RGB之后,还能有如此强劲表现的显卡,在当下的选择中其实也是不多的。

展开阅读全文

页面更新:2024-04-12

标签:战斧   角形   编码器   能手   射线   显存   画质   豪华版   分辨率   性能   测试   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top