Intel推出新芯片,推理性能比英伟达H100快50%

在今天的 Vision 2024 活动中,Intel 宣布了一系列重大消息。其中包括其新款 Gaudi 3 AI 处理器的详细信息。Intel 称这些处理器在训练性能上比英伟达提高了 70%,在推理性能上提高了 50%,在效率上比英伟达市场上占主导地位的 H100 处理器高出 40%,而且价格更加亲民。此外,Intel 还推出了其数据中心 CPU 组合的新品牌,将 Granite Rapids 和 Sierra Forest 芯片重新命名为新的 'Xeon 6' 系列。这些芯片预计将在今年上市,支持新的、能够提升性能的标准化 MXFP4 数据格式。

Intel 同时宣布,正在开发一款适用于 Ultra Ethernet Consortium 标准网络的 AI 网络接口卡 ASIC(AI NIC ASIC),以及一款将被应用于未来的 XPU 和 Gaudi 3 处理器的 AI 网络接口卡芯片组(AI NIC chiplet)。这些产品不仅将用于 Intel 自家产品,还将通过 Intel Foundry 提供给外部客户。不过,关于这些网络产品的更多细节,Intel 没有透露太多。

英伟达在 AI 基础设施和软件领域的领导地位毋庸置疑。尽管如此,面对英伟达在 AI GPU 领域的长期供应短缺,Intel 与 AMD 一样,正在努力成为英伟达的主要替代者。为此,Intel 详细阐述了其 AI 计划的全貌,这些计划涵盖从硬件到软件的各个方面,旨在在英伟达和 AMD 目前主导的繁荣发展的 AI 市场中获得一席之地。Intel 正在努力发展其合作伙伴生态系统,以提供完整的 Gaudi 3 系统解决方案,同时也致力于构建一个开放的企业级软件栈,以此作为英伟达专有 CUDA 技术的替代方案。

Intel 还提供了 Gaudi 3 架构的深度解析,并展示了与现有英伟达 H100 GPU 的多项令人信服的性能对比数据(目前还没有 Blackwell 系统的数据)。接下来,让我们更深入地了解一下 Gaudi 3 架构的精妙之处。


Gaudi 3 规格

Intel 的 Gaudi 3 是继 Gaudi 加速器系列的第三代产品,这一系列产品源于 Intel 于 2019 年斥资 20 亿美元收购 Habana Labs 的成果。Gaudi 加速器预计将于 2024 年第三季度开始大规模生产,并首次应用于 OEM 系统中。此外,Intel 还计划在其开发者云中提供 Gaudi 3 系统,为潜在客户提供一个快速体验和测试这些芯片的途径。

Gaudi 有两种形式,其中 OAM(OCP 加速模块)HL-325L 是在基于高性能 GPU 的系统中常见的一种形式。这种加速器配备了 128GB 的 HBM2e 内存,提供了高达 3.7 TB/s 的带宽。它还配备了 24 个 200 Gbps 的以太网 RDMA 网络接口卡。HL-325L OAM 模块的热设计功耗(TDP)为 900W(更高的 TDP 也是可能的,尤其是采用液体冷却时),并且它的 FP8 性能评级为 1,835 TFLOPS。OAM 通常按每服务器节点 8 个的方式部署,可以扩展至多达 1,024 个节点。

Intel 声称 Gaudi 3 提供了前代产品两倍的 FP8 性能和四倍的 BF16 性能,以及两倍的网络带宽和 1.5 倍的内存带宽。

OAM 被安装在一个通用底板上,该底板可以容纳 8 个 OAM。Intel 已经向其合作伙伴发送了 OAM 和底板,为今年晚些时候的大量上市做准备。在 HLB-325 底板上部署 8 个 OAM 可以将性能提升到 14.6 PFLOPS 的 FP8,而其他指标,如内存容量和带宽,均实现线性增长。

Intel 还推出了一款 TDP 为 600W 的 Gaudi 3 PCIe 双插槽加入卡。这款卡也配备了 128GB 的 HBMeE 内存和 24 个 200 Gbps 的以太网网络接口卡 —— Intel 表示,为了实现扩展,使用了双 400 Gbps 的网络接口卡。Intel 称这款 PCIe 卡的 FP8 峰值性能与 OAM 相同,为 1,835 TFLOPS,尽管其 TDP 低了 300W(在长时间运行的工作负载下可能无法持续)。然而,由于设计上的限制,箱内的扩展能力更受限,它被设计为以每组 4 个的方式工作。Intel 表示这款卡也可以扩展以构建更大的集群,但没有提供具体细节。

Dell、HPE、联想和 Supermicro 将为 Gaudi 3 的推出提供系统支持。Gaudi 空冷型号的样品已经出炉,液冷型号的样品将在第二季度推出。这些产品预计将分别在 2024 年第三季度和第四季度进行批量生产并大量上市。PCIe 卡也将在第四季度上市。

Gaudi 3 采用了与前代产品相同的架构和基本原理,但使用了比 Gaudi 2 加速器所用的 TSMC 7nm 工艺更先进的 TSMC 5nm 工艺。

OAM 设计包含了两个中央的 5nm 芯片,它们之间共享了 96MB 的 SRAM,提供了 12.8 TB/s 的带宽。这些芯片周围是 8 个 HBM2E 封装,总共 128GB,提供高达 3.7 TB/s 的带宽。两个芯片之间有一个高带宽互连,可以访问两个芯片上的所有内存,从而使其在软件看来表现为一个单一设备(尽管延迟可能有所不同)。Gaudi 3 还配备了一个 x16 PCIe 5.0 控制器,用于与主处理器(CPU)通信,并可以采用不同比例的 CPU 和 Gaudi 加速器。

计算由 64 个第五代张量处理核心(TPC)和 8 个矩阵数学引擎(MME)处理,工作负载由图编译器和软件栈在两个引擎之间协调。Gaudi 3 芯片包还包括了 24 个 200 Gbps 的 RoCE 以太网控制器,提供箱内(scale-up)和节点间(scale-out)的连接能力,将 Gaudi 2 上的 100 Gbps 连接提高了一倍。


Gaudi 3 的可扩展性

在当今 AI 训练和推断工作的竞争中,一个关键因素是将加速器有效地扩展成更大的集群。Intel 的 Gaudi 采用了与英伟达即将推出的 B200 NVL72 系统不同的策略。Gaudi 通过快速的 200 Gbps 以太网连接将 Gaudi 3 加速器相互连接,并将服务器与叶片和主干交换机配对,以形成集群。

英伟达的系统级架构利用 PCIe 接口上的 NVLink 来实现 GPU 之间的箱内连接,并通过其 NVLink 交换机使用无源铜缆将整个机架连接起来。AMD 则采用了自己的方式,使用 PCIe 接口和 Infinity Fabric 协议来处理服务器内 GPU 之间的通信,并使用外部网络接口卡与其他节点通信,这种方式比 Intel 将网络 NIC 直接集成到芯片中的方法更加增加了网络成本和复杂性。

多亏了加倍的网络带宽,Gaudi 3 可以从一个包含 8 个 OAM Gaudi 的单节点扩展到最多包含 1,024 个节点(服务器)的集群,这个集群可以容纳多达 8,192 个 OAM 设备。

每个服务器由 8 个 Gaudi 3 加速器组成,它们通过每个加速器 21 个 200 Gbps 的以太网连接进行相互通信。每个设备上剩下的 3 个以太网端口用于通过叶片交换机与集群外部进行通信。该交换机将这些连接汇总为六个 800 Gbps 的以太网端口,并配备 OFSP 连接器,以便与其他节点通信。

每个机架通常包含四个节点,但这取决于机架的功率限制和集群的大小而有所不同。最多 16 个节点可以形成一个单独的子集群,这些节点通过三个以太网叶片交换机连接到主干交换机,主干交换机通常拥有 64 个端口,用以形成更大的集群。在 800 Gbps 叶片交换机上的 64 个端口中,一半连接到这 16 个节点,而另一半则连接到主干交换机。

根据集群的大小,使用不同数量的主干交换机。例如,Intel 提供了一个使用三个主干交换机的例子,用于由 512 个节点(4,096 个 Gaudi)组成的 32 个子集群。Intel 表示,这种配置为所有服务器之间的连接提供了等量的带宽(非阻塞全互连)。通过添加另一层以太网交换机,可以支持多达数万个加速器。


Gaudi 3 与 Nvidia H100 性能对比

Intel 将 Gaudi 3 与公开可用的 Nvidia H100 系统基准测试进行了比较,但由于缺乏与英伟达即将推出的 Blackwell B200 的实际比较数据,所以没有进行比较。同样,Intel 也没有提供与 AMD Instinct MI300 GPU 的比较,因为 AMD 一直避免在业界认可的 MLPerf 基准测试中发布公开的性能数据。

Intel 提供了 Gaudi 3 与 H100 在训练和推断工作负载上的大量比较,例如 LLAMA2-7B(70 亿参数)和 LLAMA2-13B 模型分别使用 8 和 16 个 Gaudi,以及使用 8,192 个 Gaudi 加速器测试的 GPT 3-175B 模型,所有这些都使用 FP8。有趣的是,Intel 没有与英伟达的 H200 进行比较,后者比 H100 的内存容量多 76%,内存带宽多 43%。

在推断性能的比较中,Intel 与 H200 进行了比较,但只涉及单卡性能,而不是集群的扩展性能。结果显示,LLAMA2-7B/70B 的五个工作负载比 H100 GPU 低 10% 到 20%,而有两个与 H200 相当,一个略高。Intel 声称,Gaudi 在更大输出序列中的性能扩展性更佳,使用 Falcon 180 亿参数模型和 2,048 长度输出时,Gaudi 的性能提升高达 3.8 倍。

在推断工作负载的功耗方面,Intel 也声称有高达 2.6X 的优势,这一点在考虑数据中心的功率限制时尤为重要。但对于训练工作负载,Intel 没有提供类似的基准测试。在这些工作负载上,Intel 测试了公共实例中的一个 H100,并记录了 H100 的功耗(由 H100 报告),但没有提供单节点或更大集群推断的示例。在处理更大输出序列时,Intel 再次声称有更好的性能和效率。


Gaudi 3 软件生态系统

正如英伟达通过 CUDA 所展现的那样,软件生态系统与硬件一样,都是极为关键的因素。Intel 称赞其一体化的软件栈,并表示目前 “大部分” 工程师都在致力于加强支持。Intel 当前的重点是支持多模态训练和推断模型,以及 RAG(检索增强生成)。

Hugging Face 拥有超过 600,000 个 AI 模型检查点。Intel 表示,通过与 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作,简化了软件移植过程,从而加快了部署 Gaudi 3 系统的周转时间。Intel 指出,大多数程序员在框架层面或更高层面进行编程(例如,只使用 PyTorch 和 Python 编写脚本),并非如人们普遍认为的那样广泛进行低层次的 CUDA 编程。

Intel 设计的工具旨在简化移植过程,并在此过程中隐藏底层的复杂性。OneAPI 作为底层的核心和通信库。这些库遵循由包括 Arm、Intel、高通和三星等在内的行业联盟统一加速器基金会(UXL)制定的规范,意图提供 CUDA 的替代方案。针对 Intel CPU 和 GPU 的推断和训练,PyTorch 2.0 已经优化以使用 OneAPI。此外,Intel 还表示其 OpenVino 工具也在快速普及,今年迄今已经有超过一百万次下载。


思考

如前所述,Intel、英伟达和 AMD 都在走不同的路线,以提供关键的 AI 训练和推断工作负载所需的集群可扩展性。每种方法都有各自的优势,但英伟达的专有 NVLink 解决方案最为成熟和广泛应用,其能够扩展到机架级架构的能力是一个明显优势。然而,Intel 使用基于以太网的网络,提供了一个开放的解决方案,支持多个供应商的网络交换机,为定制提供了丰富的选择,并且其内置的网络接口卡(NIC)在成本上也比 AMD 的 Instinct MI300 系列有优势。

但是,英伟达基于 Grace 的产品和 AMD 的 MI300A 提供了复杂的融合 CPU+GPU 方案,这在某些工作负载中将难以匹敌,而 Intel 由于取消了融合 CPU+GPU 的 Falcon Shores 版本,仍依赖于单独的 CPU 和加速器组件。据报道,英伟达的新 GB200 CPU+GPU 服务器占据了该公司 Blackwell 订单的大部分,这凸显了行业对这种紧密耦合产品的巨大需求。

Intel 未来的 Falcon Shores 产品将作为纯 AI 加速器设计推出,因此仍将能够与英伟达和 AMD 的 GPU-only 集群竞争。我们也看到 Gaudi 3 的下一代可能从 HBM2E 转向 HBM3/E,AMD 和英伟达在其 AI 产品中都采用了这种更快的内存。虽然 Intel 没有分享具体数据,但表示计划在定价上积极竞争,这可能是一个强有力的策略,因为英伟达将继续面临其 GPU 由于巨大需求而造成的短缺问题。

Falcon Shores 也将与为 Gaudi 优化的代码兼容,提供向前兼容性。Intel 引用过去几个季度 Gaudi 2 平台 3 倍的改进作为其平台日益增长采用率的一个例子。

值得注意的是,Intel 在此次活动中并未大力推广其 Ponte Vecchio GPU,鉴于其取消了下一代 Rialto Bridge GPU,因此我们预计该公司的 AI 工作将主要集中在 Gaudi 3 上,同时为明年推出 Falcon Shores 做准备。

空冷型 Gaudi 3 模型已经向合作伙伴提供样品,预计将在第三季度广泛上市。液冷型将在第四季度推出。

原文链接:https://www.tomshardware.com/pc-components/cpus/intel-details-guadi-3-at-vision-2024-new-ai-accelerator-sampling-to-partners-now-volume-production-in-q3

展开阅读全文

页面更新:2024-04-12

标签:英伟   性能   以太网   推断   节点   加速器   负载   集群   交换机   芯片   工作

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top