当前位置: 代码网 > 科技>电脑产品>显卡 > 性能更强 功耗更高! GeForce RTX 5090 D显卡天梯榜首测

性能更强 功耗更高! GeForce RTX 5090 D显卡天梯榜首测

2025年02月12日 显卡 我要评论
时隔两年又三个多月,英伟达终于带来了全新的geforce rtx 50系显卡。然而受到相关规定(满足综合运算性能tpp不超过4800的限制)的影响,rtx 5090的命运和rtx 4090一样,化身r

时隔两年又三个多月,英伟达终于带来了全新的geforce rtx 50系显卡。然而受到相关规定(满足综合运算性能tpp不超过4800的限制)的影响,rtx 5090的命运和rtx 4090一样,化身rtx 5090 d进入国内市场。同时,rtx 5090 d是没有公版(founder edition)的,因此,高端玩家们就只能从一众非公显卡里面去挑选适合自己的那一款了。

而说起耕升的踏雪系列,可能大家第一时间更多会想到纯白设计、中高端定位,很难会将过往最高只搭载过rtx 4070 ti super芯片的它和旗舰显卡联想到一起。不过,当英伟达正式进入rtx 50系显卡时代之后,踏雪也迎来的蜕变,出现在了耕升的rtx 5090 d的产品名单里面。在了解耕升 geforce rtx 5090 d 踏雪之前,我们先来简单回顾一下英伟达rtx 50系显卡到底有什么新的特点。

关于rtx 5090 d

相较于上一代rtx 4090 d来看,rtx 5090 d在芯片的规模上有了较大幅度的升级。虽然制程工艺不变,依然是定制的tsmc 4n,但是,凭借更大的芯片面积和新一代的blackwell核心架构,后者的晶体管数量从763亿个增加至922亿个,cuda核心数量增加将近50%,而且同样是12个gpc,rtx 5090 d每个gpc里的tpc和sm数量增多了,tpc从6个增至8个,sm从12个增至16个。编解码器同样进行了迭代加码,新增了4:2:2色度采样视频编解码的能力,节省cpu的负担,提升内容创作者的工作效率。此外,rtx 5090 d还用上了容量更大、性能更强的gddr7显存,位宽也从384-bit增至512-bit。显示输出接口升级为3×displayport 2.1b+1×hdmi 2.1b的配置,借助dsc技术最高支持4k@480hz或8k@140hz。

不过,这次的rtx 5090 d的命运并不像rtx 4090 d一样在核心规格作出调整。我们从表面参数上基本看不出与rtx 5090有什么区别,对游戏性能造成的影响肯定是远小于rtx 4090 d当初的。至于ai性能嘛,rtx 5090 d则从rtx 5090的3352 ai tops降至2375 ai tops,降幅约29%。

blackwell架构有多牛

不断壮大的核心规模

其实,完全体的 blackwell gb202共有12组gpc、24576个cuda核心,rtx 5090 d上的gb202-250则用了其中的88.5%。从整体结构图上还能看到,gigathread engine调度器隔壁多了一个叫做ai-management processor(ai管理处理器,简称amp)的帮手。amp是一个位于管线前端的risc-v处理器,支持windows硬件加速gpu计划,能够更自由地管理gpu。cuda、rt core和tensor core三大部分在它的带领下可以协调工作,实现ai响应速度提高的同时,游戏画面也不会受到影响。

gpc段中,它所包含的tpc从ada lovelace的6组扩展到了8组。不过布局上还是一样的,一个独立的光栅引擎,两个rop分区(每个包含8个rop单元),而每组tpc包含两组sm。

sm段的变化是比较大的。现在所有的32个cuda核心都能执行fp32/int32运算了,因此int32的算力可以说是增加了一倍。不过在一个时钟周期里面,核心只能二选一运算。nvidia表示,这种设计是为神经着色器优化的。

tensor core和rt core自然也有升级。第5代tensor core继承了上一代架构的特性,并新增了fp4、fp6的支持,还把fp8 transformer engine更新到了第二代。其中,fp4是个比较值得关注的点,它相比常规的fp16模型需要的显存更小,在tensorrt模型优化器的支持下能够做到几乎没有质量损失。

现在,blackwell上的ser(着色器重排序) 2.0还可以将神经网络的负载直接发送至tensor core处理,加速神经网络渲染,效率达到了ada lovelace上的2倍,降低开销之余还能提高精准度。

同时运作的话,llm的响应时间变慢,游戏帧率也会受影响

而第4代rt core中,新增的组件包括有triangle cluster intersection engine、triangle cluster compression engine以及linear swept spheres。同时,blackwell提供了两倍于上一代ada lovelace的ray-triangle交叉检测吞吐量。它们的出现,与mega geometry技术息息相关,起到一个打基础的作用。

mega geometry是在tlas(顶层加速结构)和blas(底层加速结构)两个层级的架构上做改进。blas一侧的cluster-level acceleration structures(clas,簇级加速结构)最多能把256个三角形簇打包好,并将其作为bvh的基础部分输入,最后组成bvh树。同时,clas不仅能在游戏里面按需创建,还能缓存到硬盘里面,后面的帧要用的话直接从硬盘加载。这样一来,系统要处理的事情就少很多了。

tlas还有个兄弟叫partitioned top-level acceleration structure(ptlas,分区顶层加速架构),是针对复杂场景设计的。nvidia表示,在很多游戏里面,场景内有不少物品比如建筑都是固定不变的,但是如果每一帧都要给它们构建一次tlas,肯定就不划算。而正如名称中的partitioned分区所示,ptlas把场景内的物体分成了多个区域,一些用来放置静态的物品,然后一个全局分区用于处理动态的物品,同样可以做到减轻了系统的压力,提高运算效率。

值得一提的是,所有rtx显卡都能支持mega geometry,但跟所有新技术一样,blackwell是目前支持最好的。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com