AMD|AMD RDNA3架构深入揭秘：一大分七小、AI/光追飞跃！( 二 )

文章图片

MCD部分比较简单，每颗内部集成一个64-bit GDDR6显存控制器、16MB Infinity Cache无限缓存，后者频率为2.3GHz 。
六颗组成384-bit、96MB的规格，合计带宽最高达5.3TB/s，比RDNA2架构提升了足足2.7倍。
其中单纯由384-bit 20GHz GDDR6显存提供的带宽最高为960GB/s，剩下的超过80％都来自Infinity Cache 。
那么，为什么还是不使用更高频率的GDDR6X显存？
王启尚指出，RDNA 3架构旨在提高能效，而GDDR6X显存需要更高的供电以维持更高的带宽。AMD Infinity Cache这样的创新技术搭配GDDR6，就可以在更低的功耗下，实现更高的显存带宽性能。

文章图片

GCD部分主要可以分为三大块儿，分别是统一计算单元、显示引擎、双媒体引擎，都是全新设计的。
接下来，我们逐一看下这三大件。

文章图片

CU计算单元，仍然是RDNA3的基本组成模块，但这次焕然一新，而且有了新名字，叫做“统一计算单元” 。
【AMD|AMD RDNA3架构深入揭秘：一大分七小、AI/光追飞跃！】何谓统一？就是图形渲染、光线追踪、人工智能可以共享所有的计算资源，提供更高的单位功耗性能、单位面积性能。
计算单元内部又可以分为几个不同功能模块，首先是VGPR(通用寄存器)，负责资源的共享与调度分配，其容量比RDNA2上增加了50％，从而提升了所有功能的性能。
顺带一提，计算单元部分的集成度非常高，单位面积晶体管比上代增加了足足165％。

文章图片

流失处理器模块，RDNA3架构迈进了一大步，采用Dual Issue也就是双路发射设计，能够向Wave32 SMID单元同时派发两路不同的指令。
这个指令可以是整数，可以是浮点，可以是AI，看需要而定。
这就让指令分发效率直接提升了一倍，可以更好地利用计算单元中的所有功能，达成更高的性能、能效，而且混合指令的利用也更加灵活、高效。

文章图片

RDNA3还极大地强化了AI，每个计算单元内有两个AI加速器，并加入新的AI指令，提升AI吞吐量，综合性能提升超过2.7倍，可以轻松满足当下乃至未来AI加速场景的需求。

文章图片

光线追踪也进化为新一代，可实时跟踪的光线数量增加了多达1.5倍，还有新的光追专用指令集、新的光线盒排序与遍历算法。
最终，RDNA3每个计算单元的光追性能提升了多达50％，虽然不能说超越对手，但至少大大缩小了差距。

文章图片

RDNA3架构还设计了新的“时钟频率解耦”(Decoupled Clocks)机制，也就是让着色器、前端的工作频率彼此独立，都跑在最合适的频率上。
其中，前端频率为2.5GHz，比上代提高了15％，可以更高效地处理工作负载；着色器频率为2.3GHz，能效更高，可以节省最多25％的功耗。