投稿|IBM,预言了缓存的未来?( 二 )
除了 L1,L2 缓存有时也是芯片面积的大量消耗者,虽然它(通常)不受其他核心设计的限制,但它仍然必须与需要在芯片上 。任何大型共享缓存,无论最终成为 2 级缓存还是 3 级缓存,通常都可能是芯片的最大部分,具体则取决于所使用的工艺节点 。
实用性也是一个关键因素——我们在 AnandTech 上主要谈论通用处理器,尤其是那些基于 x86 构建的用于 PC 和服务器的处理器,或者用于智能手机和服务器的 Arm,但是有很多专用设计,它们的作用是针对特定的工作量或任务 。如果处理器核心需要做的只是处理数据,例如相机 AI 引擎,那么该工作负载就是一个明确定义的问题 。这意味着可以对工作负载进行建模,并且可以优化缓存的大小以提供最佳性能/功耗 。
如果缓存的目的是将数据靠近核心,那么任何时候缓存中的数据没有准备好,就称为缓存未命中——任何 CPU 设计的目标都是尽量减少缓存未命中,以换取性能或功率,因此具有明确定义的工作负载,
延迟也是设计大缓存的一个重要因素 。
您拥有的缓存越多,访问所需的时间就越长——不仅因为物理大小(以及与核心的距离),还因为有更多的缓存需要搜寻 。例如,可以在短短三个周期内访问小型现代 L1 缓存,而大型现代 L1 缓存可能需要五个周期的延迟 。小型 L2 缓存可以低至 8 个周期,而大型 L2 缓存可能有 19 个周期 。
缓存设计中涉及到的不仅仅是更大等于更慢,所有大型 CPU 设计公司都将煞费苦心地努力尽可能地缩短这些周期,因为通常 L1 缓存或 L2 缓存中的延迟节省提供良好的性能增益 。但最终如果你做得更大,您必须满足这样一个事实,即延迟通常会更大,但您的缓存未命中率(cache miss )会更低 。这又回到了上一段讨论定义的工作负载 。我们看到像 AMD、英特尔、Arm 等公司与其大客户一起进行广泛的工作负载分析,以了解什么最有效以及他们的核心设计应该如何发展 。
IBM 的革命在第一段中,我提到IBM Z是他们的大型主机产品——这是行业的大拿 。它比政府授权的核掩体建造得更好 。这些系统支撑着社会的关键要素,例如基础设施和银行业务 。这些系统的停机时间以每年几毫秒为单位,并且它们具有故障安全和故障转移功能——对于金融交易,当它进行时,它必须无故障地提交给所有正确的数据库,甚至在发生故障的情况下整个链条的物理故障 。
这就是IBM Z的用武之地 。它非常小众,但具有令人难以置信的惊人设计 。
在上一代z15产品中,没有1 CPU = 1系统产品的概念 。IBM Z的基本单元是一个五处理器系统,使用两种不同类型的处理器 。四个计算处理器 (CP) 每个在 696mm2中包含12个内核和256MB共享L3缓存,构建在14nm工艺上,运行频率为5.2GHz 。这四个处理器分成两对,但两对也连接到存储控制器 (Storage Controller:SC),同样是 696mm和14nm,但是这个存储控制器拥有960MB的共享L4缓存,用于所有四个处理器之间的数据 。
文章图片
请注意,该系统没有“全局”DRAM,每个计算处理器都有自己的 DDR 支持的等效内存 。IBM 然后将这五个处理器“drawer”与其他四个处理器组合成一个系统 。这意味着单个 IBM z15 系统是 25 x 696mm
的硅片面积,它们之间有 20 x 256 MB 的 L3 缓存,还有 5 x 960 MB 的 L4 缓存,以全对全拓扑连接 。
可以说,IBM z15 是一头野兽 。但是下一代 IBM Z,称为 IBM Telum 而不是 IBM z16,可能是因为他们对所有缓存采用了不同的方法 。
推荐阅读
- 投稿|一度超越微信登AppStore榜首,但“元宇宙”社交也难逃“月抛”魔咒
- 投稿|陕旅饭店集团破产重整,昔日“混改模范”为何沦为反面教材?
- 投稿|疫情之下,本土自主设备如何突围?中国制造的投机主义和长期主义
- 投稿|即视角|出海正当时:欧美、东南亚、中东、拉美市场观察
- 投稿|“东南亚小腾讯”跌入谷底:受阻的业务飞轮撑不起千亿市值
- 投稿|员工行为几乎全裸?深信服“监控门”背后
- 投稿|信任危机?一场针对民族企业的商业“阳谋”
- 投稿|体量庞大,微软还能突飞猛进吗?
- 投稿|估值近百亿,从下沉市场走出来的书亦烧仙草,凭什么成黑马?
- 投稿|浑水创始人遭FBI搜查,屠龙者终成恶龙?