英伟达透露 Grace CPU 超级芯片设计：台积电 4N工艺上的 144 个内核

Nvidia 将在 Hot Chips 34上面分享了更多细节。

Nvidia在下周的 Hot Chips 34 演示之前宣布了有关其 Grace Hopper 超级芯片的更多细节，显示这些芯片是在 4纳米工艺上制造的。Nvidia 还分享了更多关于架构和数据结构的信息，以及更多的性能和效率基准。Nvidia 还没有在 Hot Chips 上正式发表演讲——我们将在会议结束后补充更细致的细节——但今天分享的信息让我们大致了解了 Grace 芯片和服务器将在2023年上半年投放市场的情况。

在这里提个醒，Nvidia 的 Grace CPU 是该公司第一款专为数据中心设计的纯 CPU ARM 芯片，在一个主板上包含两个芯片，总共 144 个内核，而 Grace Hopper Superchip 结合了 Hopper GPU 和 Grace CPU同一个板。

在最重要的披露中，Nvidia 终于正式确认 Grace CPU 使用 TSMC 4N 工艺。台积电在其 5nm 节点家族下列出了“N4”4nm 工艺，将其描述为 5nm 节点的增强版。Nvidia 使用这个节点的特殊变体，称为“4N”，专门针对其 GPU 和 CPU 进行了优化。

图片来源于英伟达

随着摩尔定律的减弱，这些类型的专用节点变得越来越普遍，每个新节点缩小晶体管变得更加困难和昂贵。为了启用像 Nvidia 的 4N 这样的定制工艺节点，芯片设计师和代工厂通过使用设计技术协同优化 (DTCO) 为其特定产品调入定制的功率、性能和面积 (PPA) 特性，携手合作。

Nvidia 此前曾透露，其 Grace CPU 使用的是现成的 ARM Neoverse 内核，但该公司仍未具体说明使用的是哪一个版本。然而，Nvidia 透露 Grace 使用 Arm v9核心并支持 SVE2，Neoverse N2平台是 Arm 第一个支持 Arm v9和 SVE2等扩展的 IP。N2 Perseus 平台采用5nm 设计(记住，N4是台积电5nm 系列产品之一) ，支持 PCIe Gen 5.0、 DDR5、 HBM3、 CCIX 2.0和 CXL 2.0。Perseus 的设计是优化的每功率性能（瓦特）和每面积性能。Arm 公司表示，其下一代核心 Poseidon 要到2024年才会上市，考虑到 Grace 2023 年初的发布日期，这些核心不太可能上市。

Nvidia Grace Hopper CPU 架构

Nvidia 的新 Nvidia Scalable Coherency Fabric (SCF) 是一种网状互连，看起来非常类似于与 Arm Neoverse 内核一起使用的标准CMN-700 相干网状网络。

Nvidia SCF 在各种 Grace 芯片单元（如 CPU 内核、内存和 I/O）之间提供 3.2 TB/s 的分段带宽，更不用说 NVLink-C2C 接口将芯片连接到主板上的其他单元，无论是另一个 Grace CPU 还是 Hopper GPU。

图片来源于英伟达

该网格支持 72+ 个内核，每个 CPU 有 117MB 的总 L3 缓存。Nvidia 表示，上面专辑中的第一个框图是“用于说明目的的可能拓扑”，其对齐方式与第二张图并不完全一致。

此图显示了具有八个 SCF 缓存分区 (SCC) 的芯片，这些分区似乎是 L3 缓存片（我们将在演示文稿中了解更多详细信息）以及八个 CPU 单元（这些似乎是内核集群）。SCC 和内核以两个为一组连接到缓存交换节点 (CSN)，然后 CSN 驻留在 SCF 网状结构上，以在 CPU 内核和内存之间提供与芯片其余部分的接口。SCF 还通过 Coherent NVLink 支持多达四个插槽的一致性。

图片来源于英伟达

Nvidia 还分享了这个图表，显示每个 Grace CPU 支持多达68个 PCIe 通道和多达4个 PCIe 5.0 x16连接。每个 x16连接支持高达128GB/s 的双向吞吐量(x16链接可以分成两个 x8链接)。我们还看到16个双通道 LPDDR5X 内存控制器(MC)。

然而，这张图和第一张图不同ーー它显示了 L3缓存作为连接到四核 CPU 集群的两个连续块，这比前一张图更有意义，芯片中总共有72个核。但是，我们没有看到单独的 SCF 分区或第一个图中的 CSN 节点，这会造成一些混淆。我们将在演示和必要的更新过程中弄清楚这一点。

然而，这张图与第一张图不同——它将 L3 缓存显示为连接到四核 CPU 集群的两个连续块，这比之前的图更有意义，芯片中总共有 72 个内核。但是，我们没有从第一张图中看到单独的 SCF 分区或 CSN 节点，这造成了一些混乱。我们将在演示过程中解决这个问题，并在必要时进行更新。

Nvidia 告诉我们，Scalable Coherency Fabric (SCF) 是其专有设计，但 Arm 允许其合作伙伴通过调整核心数量、缓存大小和使用不同类型的内存（如 DDR5 和 HBM）来定制 CMN-700 网格，以及选择各种接口，如 PCIe 5.0、CXL 和 CCIX。这意味着NVIDIA有可能将高度定制的CMN-700实施用于芯片上结构。

展开阅读全文

页面更新：2024-04-29

标签：内核芯片英伟节点集群缓存分区内存性能核心两个工艺

1 2 3 4 5

英伟达透露 Grace CPU 超级芯片设计：台积电 4N工艺上的 144 个内核

这可能是全网最详细的小米手环发展史！它陪伴了一代人的青春

A股周末消息汇总！三个方向有爆发潜力

突然集体涨价

「科技历史」有史以来最好的 6 款英伟达显卡

高端旗舰的细节做工都是怎么处理的？盘点那些值得一看的手机设计

10万以内的新能源车什么车首选

山东科技职业学院获首届世校赛工业机器人技术应用赛项铜牌

网友强烈推荐你安装BdTab新标签页插件，到底怎么样？

2022第三季度AICE测评昨日开启，覆盖全国所有省级行政区域

提出了为环保生产节约资源的方法

Nat. Commun.：用于有机物分离的光定制异晶共价有机骨架膜

台积电或将赴美建3nm工厂，到底意欲何为？

甜味剂行业专题研究报告

海景房已经沦为白菜价，未来将何去何从？（续）

房贷利率下调到4.25%，那么当初利率6.3%的人怎么样了？

「科技历史」有史以来最好的 6 款英伟达显卡

高纯石英砂龙头，石英股份：矿源壁垒+提纯技术打造核心竞

128G、256G还是买512G，现在的手机内存应该买哪个最合适

秋日时髦“闺蜜装”上线！3个核心技巧在手，又飒又靓气质

涛涛不绝：芯片、原材料价格松动传统新能源能否更进一

国内首款自主研发消防专用核心芯片亮相北京科技周

风留痕：中美关系的两个压舱石正在碎裂？

性能相近的98寸大屏电视价格却相差五六万，原因是什么？

仿淘宝大流量高并发电商领域核心项目已上线（完整流程 +

访问非法内存为什么不会出错？