四、架构解析之tensor核心、ai加速
nvidia在伏特架构上引入了全新的专用处理模块tensor core,也就是张量计算核心,重点用来支持深度学习、高性能计算(也是晶体管大户)。
图灵架构则是在游戏卡上引入tensor core,同时针对游戏图形应用做了大量的调整优化,尤其是浮点精度方面。
tensor的意思是张量,不同于我们常见的标量(零维)、矢量(一维)、矩阵(三维),拥有三维或者更高维度,简单地说就是一个数据容器,可以包含多个维度的数据。

现在火热的深度学习,就运用了超大规模的数据运算,其中就经常会用到矩阵融合乘加(fma)运算,tensor核心就是为这种矩阵数学运算专门服务的。
它可以对两个4×4 fp16浮点矩阵进行相乘操作,然后将结果加入到另一个4×4 fp16/fp32浮点矩阵中,最终输出新的4×4 fp16/fp32矩阵,这叫做混合精度数学运算,因为输入矩阵是半精度,结果则可以达到全精度。
每个时钟周期内,图灵架构的tensor核心可以执行64个fma运算,从而大大加速矩阵运算,可用于新的神经实时图形渲染、深度学习训练和推理。

图灵架构每个sm阵列里有8个tenor核心,总计576个,完整支持114tflops fp16浮点运算(每秒114万亿次),同时支持228tops int8、455tops int4整数运算(每秒228亿次、455亿次),后者是伏特架构里没有的。
nvidia把看起来高深莫测的tensor核心放到游戏卡里,显然不是做专业运算的,其深度学习能力也是为游戏服务的,结合新的神经图形框架(neural graphics framework),简称ngx,可以在游戏中实现dlss深度学习超采样抗锯齿、ai super rez超级分辨率、ai slow-mo慢动作、ai inpainting等等。
这些计算繁琐、资源消耗巨大的操作,在以往也可以实现,但会付出很大的代价,效果也不尽如人意,如今有了新的tensor核心,就可以建立属于gpu核心自己的dnn深度神经网络,将ai融入游戏。

nvidia已经向游戏引擎开放ngx api,将其融入其中,实现底层加速。
另外和很多ai应用类似,nvidia geforce experience软件的作用也非常重要,它会自动匹配显卡型号,从云端训练的ai模型哪里下载相应的ngx软件包,并定期更新,达到越用越好、甚至是因人而异的效果。
ai super rez:有点类似高清视频中常见的up scaling,但是引入了人工智能和深度学习之后,可以实现近乎“无损放大”,原来的画面分辨率放大2倍、4倍乃至8倍,仍然清晰锐利。
ai slow-mo:超级慢动作我们并不陌生,现在不少高端手机都支持240fps、480fps乃至是960fps的慢动作视频录制。图灵架构可以对普通的30fps视频进行智能插帧运算,得到240fps/480fps的慢动作视频,也就是说你不需要专门的高帧率摄像头,就可以获得很流畅的慢动作视频。

ai inpainting:可以抹掉画面中不需要的内容,也可以智能补全缺失的内容,完全超越ps抠图的存在。它同样来自现实中大量真实世界图片的训练推理。
其实,慢动作和修图这两项在之前就曾有相关报道,显然nvidia在硬件、算法两个方面都实现了真正的突破。

接下来就是重中之重的dlss(深度学习超采样抗锯齿)。
我们知道,传统的光栅化图形渲染画面会存在各总各样的锯齿(狗牙),所以gpu厂商都会在后期处理中加入各种各样的aa抗锯齿技术,但传统抗锯齿都是由gpu去运算的,效果参差不齐不说,最关键的是会消耗大量的gpu资源,开启之后让游戏卡得没法玩再正常不过了。
dlss深度采样超采样抗锯齿则和传统抗锯齿技术走了一条完全不同的路,它是在nvidia超级计算机上进行训练,而不再消耗gpu本身的资源。
针对每一款游戏,nvidia会在运算建立对应的训练神经网络,收集大量的64x超采样数据,对像素点进行64次偏移着色合成输出,理论上可以获得近乎完美的抗锯齿平滑效果,同时还会对比和普通渲染画面之间的差异,调整网络权重,反复迭代,最后获得更合理的抗锯齿画面效果,还可以避免传统taa时间抗锯齿的运动模糊等问题。
云端训练完成后,nvidia会通过gfe软件将成果分发给玩家,再用到游戏中,而且随着游戏运行得越多,dlss学习效果就会越来越优化,甚至每个玩家都可以得到属于自己的不同效果。
当然了,这也意味着nvidia需要和每一款游戏或者每一个游戏引擎合作,去进行专门的优化,还是相当费时费力的,不过考虑到nvidia在游戏行业广泛深入的合作关系,这方面倒不必担心。
尤其是随着合作优化的深入,nvidia完全可以建立起属于自己的技术壁垒,让对手望尘莫及,进一步带动大量玩家忠实地跟随nvidia。





更神奇的是,dlss因为基本不需要消耗gpu本地资源,因此可以大大释放gpu性能,让其专心渲染游戏,提升性能。
比如根据官方数据,epic的《渗透者》(infiltrator)游戏里,4k分辨率下1080 ti开启taa平均帧率还不到40fps,2080 ti开启dlss则能达到80fps,提升了整整一倍!
游戏支持方面也不是啥大事儿,rtx 20系列发布之初就有16款游戏(ppt上写错了),现在产品还没完全上市就已经增加到25款。
首发名单如下:
- 《方舟:生存进化》 (ark: survival evolved)
- 《原子之心》 (atomic heart)
- 《无畏》 (dauntless)
- 《最终幻想xv》 (final fantasy xv)
- 《破碎之地》 (fractured lands)
- 《杀手2》 (hitman 2)
- 《奈恩群岛》 (islands of nyne)
- 《逆水寒》 (justice)
- 《剑网3》 (jx3)
- 《机甲战士5:雇佣兵》 (mechwarrior 5:mercenaries)
- 《绝地求生》 (playerunknown’s battlegrounds)
- 《遗迹:灰烬重生》 (remnant: from the ashes)
- 《英雄萨姆4:星球恶棍》 (serious sam 4: planetbadass)
- 《古墓丽影:暗影》 (shadow of the tomb raider)
- 《锻造竞技场》 (the forge arena)
- 《少数幸运儿》 (we happy few)
新增名单如下:
- 《暗黑血统3》(darksiders 3)
- 《飞向月球:财富》(deliver us the moon: fortuna)
- 《恐惧群狼》(fear the wolves)
- 《地狱之刃:塞娜的献祭》(hellblade: senua's sacrifice)
- 《kinetik》
- 《前哨零》(outpost zero)
- 《超杀:行尸走肉》(overkill's the walking dead)
- 《人渣》(scum)
- 《风暴奇兵》(stormdivers)
这其中有5款游戏同时支持rtx光线追踪和dlss抗锯齿技术,分别是《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》。
发表评论