二、架构解析之全新内核体系
既然是一个全新设计的架构,我们就要好好看一看这个以计算机科学之父、人工智能之父艾伦·麦席森·图灵(alan mathison turing)命名的turing图灵新架构到底有哪些过人之处,不过硬件架构总是伴随各种高深晦涩的技术名词、技术原理,即便专业人士也得好好研究才行,所以这里我们仅从高级层面,介绍一下新架构的大致设计、技术概况,以及能带来的实际好处。
在以往,nvidia为专业级计算卡、消费级游戏卡设计的都是统一架构,只是具体内部模块布局、技术支持、核心大小不同。好处是可以统一开发,降低成本,坏处是缺乏针对性,技术资源要么浪费要么不够。
这一次,nvidia选择了分而治之。针对高性能计算、图形渲染、人工智能、深度学习等专业应用的是volta伏特架构,目前只有一个超大核心gv100,是迄今为止gpu历史上最大的核心,台积电12nm工艺制造,集成多达210亿个晶体管,核心面积达815平方毫米,妥妥的怪物级核弹。

而针对游戏显卡的就是turing图灵架构,也是台积电12nm(有说法称最初计划使用三星10nm),其中最大的核心tu102集成189亿个晶体管,核心面积754平方毫米,是仅次于gv100的史上第二大gpu核心。
相比上代pascal帕斯卡家族的大核心gp102,它的晶体管数量增加了55%,面积则增大了60%,甚至是次级新核心tu104都超越了gf102,拥有136亿个晶体管、545平方毫米面积。

新架构核心之所以如此庞大,除了cuda核心规模继续增大、升级shading着色渲染之外,更关键的是rt core光线追踪核心、tensor core人工智能核心的加入,这也是新架构革命性变化的根本支撑。
拥有全新着色性能的sm cuda核心阵列、支持高达每秒100亿条光线计算的rt光线追踪核心、为实时游戏画面导入ai人工智能加速的tensor核心,三者就构成了图灵架构的三大支柱,各自有不同分工又互相协作,共同实现新的游戏渲染画面。


同时,nvidia强调新架构的单个cuda核心着色渲染性能是帕斯卡架构的1.5倍,第一次可以在4k分辨率、hdr开启的情况下,提供流畅的游戏体验,真正开启4k时代。
按照nvidia的说法,rtx 2080就能基本实现4k分辨率下60fps的游戏帧率,rtx 2080 ti更是能够达到70-80fps。当然具体还要看游戏需求,以及游戏设置,特别是某些高要求的技术特性,光线追踪打开后别说4k了,就连1080p就比较吃力。

图灵架构的基本组成单元之一还是cuda核心与sm流处理器阵列,这也是2006年的g80以来nvidia gpu的基石。
事实上,图灵架构的sm阵列也融合了伏特架构的不少特性,相比帕斯卡架构差别还是挺大的,比如每一组tpc里的sm阵列由一个增至两个,同时sm内部的组成方式也截然不同。
帕斯卡架构每个sm阵列集成128个fp32浮点单元,图灵架构则改成了2个fp64双精度浮点单元、64个fp32单精度浮点单元、64个int32整数单元、8个tensor核心、一个rt核心。支持浮点和整数并发操作,并有新的执行数据路径,类似伏特架构汇总的独立线程调度。
按照nvidia的统计,每执行100个浮点指令,平均会有36个整数指令,两种指令可以并发执行。
如此一来,帕斯卡架构的整数和浮点计算就可以分配得更加均衡,并与新的tensor、rt核心相配合,更合理、高效地完成各种负载。
整体而言,图灵核心的cuda阵列可以每秒执行14万亿次fp32浮点操作、14万亿次int32整数操作。

缓存架构也彻底变化,由两个载入/存储单元牵头,一级缓存和共享缓存整合在一起,而且容量灵活可变,可以是64kb+32kb,也可以是32kb+64kb,大大降低了延迟,带宽也翻了一番。
二级缓存容量则从3mb翻倍到6mb。

nvidia宣称,新架构每个cuda核心的着色渲染性能比上代平均提升50%,部分游戏可达70%左右,vrmark虚拟现实测试成绩甚至翻了一番还多。
当然这只是基础理论上的数字,实际性能还要看其他部分和整体指标。

图灵架构还首发搭配新一代gddr6显存,目前业界最快,等效频率高达14ghz,搭配352-bit位宽可以带来616gb/s的惊人带宽,相比于gtx 1080 ti在位宽不变的情况下提升了27%,也比用了2048-bit hbm2高带宽显存的amd rx vega 64高了27%。
而且关键是,gddr6的成本比hbm2低得多。
另外,nvidia还对新显存进行了各种优化,信号窜扰降低了40%,更利于运行稳定和进一步超频。
发表评论