英伟达透露 Grace CPU 超级芯片设计:台积电 4N工艺上的 144 个内核

Nvidia 将在 Hot Chips 34上面分享了更多细节。

Nvidia在下周的 Hot Chips 34 演示之前宣布了有关其 Grace Hopper 超级芯片的更多细节,显示这些芯片是在 4纳米 工艺上制造的。Nvidia 还分享了更多关于架构和数据结构的信息,以及更多的性能和效率基准。Nvidia 还没有在 Hot Chips 上正式发表演讲——我们将在会议结束后补充更细致的细节——但今天分享的信息让我们大致了解了 Grace 芯片和服务器将在2023年上半年投放市场的情况。

在这里提个醒,Nvidia 的 Grace CPU 是该公司第一款专为数据中心设计的纯 CPU ARM 芯片,在一个主板上包含两个芯片,总共 144 个内核,而 Grace Hopper Superchip 结合了 Hopper GPU 和 Grace CPU同一个板。

在最重要的披露中,Nvidia 终于正式确认 Grace CPU 使用 TSMC 4N 工艺。台积电在其 5nm 节点家族下列出了“N4”4nm 工艺,将其描述为 5nm 节点的增强版。Nvidia 使用这个节点的特殊变体,称为“4N”,专门针对其 GPU 和 CPU 进行了优化。

图片来源于英伟达

随着摩尔定律的减弱,这些类型的专用节点变得越来越普遍,每个新节点缩小晶体管变得更加困难和昂贵。为了启用像 Nvidia 的 4N 这样的定制工艺节点,芯片设计师和代工厂通过使用设计技术协同优化 (DTCO) 为其特定产品调入定制的功率、性能和面积 (PPA) 特性,携手合作。

Nvidia 此前曾透露,其 Grace CPU 使用的是现成的 ARM Neoverse 内核,但该公司仍未具体说明使用的是哪一个版本。然而,Nvidia 透露 Grace 使用 Arm v9核心并支持 SVE2,Neoverse N2平台是 Arm 第一个支持 Arm v9和 SVE2等扩展的 IP。N2 Perseus 平台采用5nm 设计(记住,N4是台积电5nm 系列产品之一) ,支持 PCIe Gen 5.0、 DDR5、 HBM3、 CCIX 2.0和 CXL 2.0。Perseus 的设计是优化的每功率性能(瓦特)和每面积性能。Arm 公司表示,其下一代核心 Poseidon 要到2024年才会上市,考虑到 Grace 2023 年初的发布日期,这些核心不太可能上市。

Nvidia Grace Hopper CPU 架构

Nvidia 的新 Nvidia Scalable Coherency Fabric (SCF) 是一种网状互连,看起来非常类似于与 Arm Neoverse 内核一起使用的标准CMN-700 相干网状网络

Nvidia SCF 在各种 Grace 芯片单元(如 CPU 内核、内存和 I/O)之间提供 3.2 TB/s 的分段带宽,更不用说 NVLink-C2C 接口将芯片连接到主板上的其他单元,无论是另一个 Grace CPU 还是 Hopper GPU。

图片来源于英伟达

该网格支持 72+ 个内核,每个 CPU 有 117MB 的总 L3 缓存。Nvidia 表示,上面专辑中的第一个框图是“用于说明目的的可能拓扑”,其对齐方式与第二张图并不完全一致。

此图显示了具有八个 SCF 缓存分区 (SCC) 的芯片,这些分区似乎是 L3 缓存片(我们将在演示文稿中了解更多详细信息)以及八个 CPU 单元(这些似乎是内核集群)。SCC 和内核以两个为一组连接到缓存交换节点 (CSN),然后 CSN 驻留在 SCF 网状结构上,以在 CPU 内核和内存之间提供与芯片其余部分的接口。SCF 还通过 Coherent NVLink 支持多达四个插槽的一致性。

图片来源于英伟达

Nvidia 还分享了这个图表,显示每个 Grace CPU 支持多达68个 PCIe 通道和多达4个 PCIe 5.0 x16连接。每个 x16连接支持高达128GB/s 的双向吞吐量(x16链接可以分成两个 x8链接)。我们还看到16个双通道 LPDDR5X 内存控制器(MC)。

然而,这张图和第一张图不同ーー它显示了 L3缓存作为连接到四核 CPU 集群的两个连续块,这比前一张图更有意义,芯片中总共有72个核。但是,我们没有看到单独的 SCF 分区或第一个图中的 CSN 节点,这会造成一些混淆。我们将在演示和必要的更新过程中弄清楚这一点。

然而,这张图与第一张图不同——它将 L3 缓存显示为连接到四核 CPU 集群的两个连续块,这比之前的图更有意义,芯片中总共有 72 个内核。但是,我们没有从第一张图中看到单独的 SCF 分区或 CSN 节点,这造成了一些混乱。我们将在演示过程中解决这个问题,并在必要时进行更新。

Nvidia 告诉我们,Scalable Coherency Fabric (SCF) 是其专有设计,但 Arm 允许其合作伙伴通过调整核心数量、缓存大小和使用不同类型的内存(如 DDR5 和 HBM)来定制 CMN-700 网格,以及选择各种接口,如 PCIe 5.0、CXL 和 CCIX。这意味着NVIDIA有可能将高度定制的CMN-700实施用于芯片上结构。

展开阅读全文

页面更新:2024-04-29

标签:内核   芯片   英伟   节点   集群   缓存   分区   内存   性能   核心   两个   工艺

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top