04rdna架构详解
接下来我们来详细的聊聊这次的rdna架构都有什么变化,工作机制是怎么样的。不过由于芯片设计非常复杂,也欢迎大家在评论区讨论,增加细节。
在过去的几代中,amd的gpu已经利用了很久的基于gcn架构的计算单元。gcn多年来一直很好地服务于amd,并且非常适合各种工作负载,但是对于radeon rx 5700系列和navi,amd的gcn已经不能继续满足了,因此他们推出了rdna(radeon dna)。
rdna采用台积电的7nm工艺节点制造,gddr6显存,支持pci express 4.0接口。gpu还采用了新的radeon media和radeon display引擎,以更好地满足流媒体和内容创作者的需求,并引入一系列新的显示技术。
navi中的新compute unit设计具有多级缓存层次结构和简化的图形管道,不仅可以提高每时钟性能,还可以提高时钟频率。新的cu提供双倍的gcn指令速率,并且具有两倍的标量单位数和调度程序数。通过资源池,两个cu可以协调并充当工作组处理器。例如,64个线程可以分组为两个wave32指令,并在单个时钟中执行。cu的灵活性和集中资源的能力提高了单线程性能,gpu利用率和效率。
navi还具有新的缓存层次结构。amd为其增加了一个新的l1缓存,并将l0缓存的负载带宽加倍到alu。新的缓存层次结构减少了每个级别的缓存延迟,并提高了有效带宽。
navi中的dcc(delta color compression)算法也得到了改进,并且也可用于缓存子系统的更广泛部分。使用navi,着色器现在可以读取和写入压缩的颜色数据。新的显示单元还可以读取帧缓冲器中的压缩数据,而无需先对其进行解压缩。最终结果是整个gpu的有效带宽更高。
navi中的整个图形管道也已得到改进,可提高效率,实现更好的每时钟性能,并且gpu还具有更高效的时钟门控功能,可提高整体电源效率。 相对于gcn,rdna提供超过50%的每瓦性能提升和25%更好的整体性能提升。据amd称,超过50%的改进来自架构优化;gpu的7nm工艺和频率改进也得到了提升。
那么一块完整的rdna架构里面都有什么呢?40个rdna计算单元,包括80个标量处理器,2560个流处理器和160个64位双线性滤波器单元。gpu具有4mb l2缓存,512k l1和双倍v \$ l0负载带宽,支持整个芯片的dcc(delta color compression)。简化的图形引擎具有新的几何引擎,64像素单位和4个异步计算引擎。 根据amd的说法,navi的40 cu设计性能比vega64提高了约14%,功耗降低了23%。并且具有小得多的芯片尺寸。(navi 10的面积为251平方毫米,作为对比vega 64上面的那颗为495平方毫米。)
发表评论