NVIDIA Ampere架构上全新SM单元设计、升级的Tensor Core与RT Core、8nm工艺和GDDR6X显存,一同为RTX 30系列显卡带来了惊人的性能提升幅度,而PCIe 4.0、HDMI 2.1、RTX IO、Reflex等面向未来的新特性则为NVIDIA下阶段的发展打下良好的基础 。
SM单元再优化,CUDA核心翻倍带动性能暴涨
RTX 3090的性能是TITAN RTX的1.5倍 , RTX 3080的性能达到RTX 2080的2倍,RTX 3070的性能略高于RTX 2080 Ti,是RTX 2070的1.6倍 。
一直以来CUDA核心数的计算方式是一个SM模块下的FP32运算单元个数,根据原始的定义方法,需要有一组完整的INT(整数运算单元)+FP(浮点运算)组合才算是一个处理器单元,不过在目前的应用场景下,绝大多数运算(比如游戏计算)主要考察的是FP32单元的性能 。
Turing架构(左)和Ampere架构(右)SM单元示意图
所以老黄从Fermi架构开始 , 就直接用FP32单元=CUDA核心这样的计算方式 , 并且沿用至今 。以Turing示例 , 每SM单元有包含64个CUDA核心 , 看上图数FP32的格子就能数出64个FP32(4x16)单元 。而到了这代NVIDIA Ampere架构后,虽然整体布局结构与Turing差不多 , 中间的一组数据路径依然是全FP32单元设计,但左边的独立INT32单元数据路径则变成“FP32+INT32”单元 。
每一组独立的FP32单元包含16组FP32 CUDA核心 , 每个时钟周期可以执行16条FP32指令 , 而另一条数据路径包含16个FP32和16个INT32核心 , 每个时钟周期最大仍可以执行16条FP32指令 , 在该设计下,每个SM单元里的分区可以选择在每个时钟周期内执行32条FP32指令,或者是16条FP32+16条INT32指令 。
这意味着在全新的Ampere架构中,一个SM单元最多可以在每个时钟周期内执行128条FP32指令,达到了Turing架构的两倍,同时也可以在每个时钟周期内执行64条FP32+64条INT32指令,很好地兼顾性能和通用性 。
RTX 3080核心示意图,拥有68组SM单元
而按照FP32单元=CUDA核心数的计算方式,RTX 3080配备的68组SM单元一共拥有68*128个FP32单元=8704个FP32单元,跟官方标称的CUDA核心数保持一致 。
不过这种方式带来的CUDA核心“翻倍”,并不直接意味着Ampere架构可以凭借“堆核心”实现性能翻倍,因为这种设计下只有在进行纯粹的FP32计算时才能实现性能的直接翻倍,(比如“挖矿”性能,的确实现了近乎翻倍的表现) 。
而在大家更关心的游戏表现和其他实际应用中,虽然FP32单元会被调动得更多(进行浮点运算),但是它也需要调用INT32(进行整数预算)等其他单元的多种运算情况,所以在游戏里实现两倍性能提升的情况几乎不可能存在 。
NVIDIA在官网上关于Ampere架构的简介中,全新SM单元带来的是“2倍FP32吞吐量”,而不是直接标注两倍的FP32单元数量估计也是考虑到字面意思会被曲解,毕竟这种架构下只要进行纯粹的浮点运算时才有可能实现性能翻倍 。
虽然无法通过这种结构直接实现性能翻倍,但是对整体运算效率的提升却是实打实的,也是NVIDIA Ampere架构GPU能在实际应用场景中获得远超Turing架构的性能表现的核心原因之一 。
Tensor Core与RT Core齐升级,4K+光追无压力
光线追踪( Ray Tracing)和度学习超级采样(DLSS)作为RTX 20系显卡两大主打新技术,他们一同将游戏开的画质和性能表现提升到一个全新维度 。
影响实时光追性能的主要是RT Core,Turing架构上的第一代RT Core最多可提供34T的RT性能,而DLSS技术的处理能力主要由Tensor Core决定,Turing上最大能提供89T的Tensor性能,而传统的SM单元,则提供11T的FP32计算能力 。
Turing架构渲染时间(RTX 2080Super)
专门的光追单元可以大幅提升实时光线渲染能力 , 在Turing架构的RTX 2080 Super中,渲染同一演示图像时使用传统着色器需要51ms,使用RT Core渲染一帧图像所需的时间仅为19ms,渲染速度提升了2.68倍,而在打开DLSS后,更是渲染速度缩短至13ms,性能表现进一步提高,这两项技术也为游戏厂商们推出画面表现更出色的游戏打下基础 。
不过在带来比传统的远超光栅化渲染的光线效果的同时,也对显卡的性能提出了严峻的考验 , 即便有DLSS技术的加持 , 这一代的光追游戏始终差点意思,特别在2K甚至4K等高分辨率下,要么为了流畅关闭光追效果,要么为了光追效果忍受帧数下降 。
而来到NVIDIA Ampere架构中,这三种单元的性能都获得了显著提升,SM单元的FP32计算性能提升至30T,提升幅度达到2.7倍;然后是RT Core的RT性能提升至58T,提升幅度是1.7倍;最后是Tensor Core的Tensor性能提升至238T,提升幅度更是高达2.67倍 。
推荐阅读
- 夏季如何给羊群进行药浴,加强羊群保健
- sd卡无法完成格式化 sd卡恢复数据
- 杂交羊肉好吃吗 养殖杂交肉羊的优势和效益在哪里
- 如何提高产羔成活率 如何提高产羔成活率的方法
- 桃胶泡了一夜没泡开怎样办 桃胶泡了一夜没泡开怎样办能吃吗
- 羊三种跛行的治疗方法 山羊跛行病怎么治疗
- 老人节是几月几号 老人节是几月几日2021
- 种羊如何鉴定年龄 如何判定羊的年龄
- 怎样使馒头不粘蒸布的方法 怎样使馒头不粘蒸布