公众号记得加星标⭐️,第一时间看推送不会错过。
NVIDIA 的 Vera 数据中心 CPU 要到今年晚些时候才会全面上市,但我(指代本文作者Michael Larabe,下同)最近有机会试用了这款专为智能 AI 工作负载设计的全新 ARM 架构 CPU。NVIDIA 的 Vera CPU 搭载了自主设计的 Olympus CPU 核心,性能强劲,足以与 Intel/AMD 的 x86_64 CPU 相媲美,这种实力是我在其他任何 ARM 或非 x86_64 处理器中都未曾见过的。
接下来,我们将介绍 NVIDIA Vera CPU 在 Linux 系统上的早期基准测试结果。

Vera 是 NVIDIA 的下一代数据中心 CPU,专为智能 AI 和类似的现代数据中心工作负载而设计。Vera 最显著的特点是与 NVIDIA NVL72 Vera Rubin 搭配使用,作为驱动这些强大 AI 机架的主机 CPU,同时它也可以独立用于 CPU 机架。与使用 Arm Neoverse-V2 内核的 NVIDIA Grace 不同,Vera 采用的是 NVIDIA 自研的“Olympus”内核设计。
Vera 搭载 88 个 Olympus 核心,据称性能是其前代产品的两倍,同时还能保持领先的能效。Olympus 核心兼容 Armv9.2 指令集架构,支持 FP8 精度,通过空间多线程技术实现总共 176 个线程,并搭配 LPDDR5X 内存,可提供高达 1.2TB/s 的内存带宽。与 Grace 相比,Vera 还拥有双倍的 L2 缓存(每个核心 2MB)、更大的统一 L3 缓存(164MB),并支持 PCIe Gen 6 和 CXL 3.1 连接。
本次基准测试中使用的 Vera CPU 的峰值 TDP 为 450 瓦(插槽端)。搭配 LPDDR5X 内存时,功耗约为 50 瓦或更低。

NVIDIA Vera 数据中心 CPU 仍按计划于今年下半年出货,但在正式上市前,NVIDIA 邀请我前往其位于圣克拉拉的总部,对这款搭载 Olympus 核心的新 CPU 进行了一些首批公开基准测试。本文将介绍这些初步测试结果。但在讨论性能之前,首先需要了解的是其 Linux 支持情况。由于 Vera 尚未正式发布,我并不清楚上游 Linux 内核的支持情况,也不清楚 NVIDIA 对主流 ARM64 Linux 发行版的计划等等。幸运的是,NVIDIA Vera 在上游 Linux 内核支持方面已经做得相当不错。Linux 7.1 及更高版本已经提供了关键的驱动程序支持,Vera 应该可以在 Ubuntu、Fedora 等 ARM64 服务器 Linux 发行版上运行。NVIDIA 还将继续提供基于 Ubuntu 的 Base OS,其中包含所有 Vera 补丁。由于采用了 ACPI,因此在 Linux 上使用 NVIDIA Vera 无需处理令人头疼的设备树或其他问题。

由于 Vera 兼容 Armv9.2 并符合 Arm 的服务器基础系统架构 (SBSA),因此它使用了许多常见的 ARM Linux 驱动程序来提供支持。这也是在硬件可用之前,难以在发布前追踪上游内核支持状态的原因之一。所使用的常见 ARM Linux 代码中,就包括正在进行的 Arm Confidential Compute (CCA) 项目,该项目旨在为 Vera 支持的虚拟机提供机密计算支持。
去年,GCC 和 LLVM Clang 都增加了对 Olympus 核心的支持。这意味着,要为 Vera 构建优化的二进制文件,需要 GCC 16.1+ 或 LLVM Clang 21+ 版本。NVIDIA 如此早地推出对 Olympus 编译器的支持,既出色又富有远见,值得称赞。相比之下,NVIDIA 直到 2025 年 3 月才将 Olympus 支持提交到上游,而 AMD Zen 6 (znver6) 的支持直到去年 12 月才添加到 GCC,LLVM/Clang 的支持则在今年 2 月才出现。NVIDIA 将 Olympus 编译器提交到上游的做法,类似于我们多年来一直看到的 Intel 的提前支持。很高兴看到 NVIDIA 在 Vera 编译器和其他相关领域也采取了类似的积极主动的做法。希望这种做法能够延续到未来的 NVIDIA CPU 代中。

我无法测试在 NVIDIA Vera 或其他类似设备上加载不同的 Linux 发行版,但根据我在 NVIDIA 了解到的情况,上游开源 Linux 对 Vera 的支持已经相当完善。我的测试是在 Ubuntu 24.04 LTS 上进行的,其基础操作系统配置为已打补丁的 Linux 6.18 LTS 内核搭配 GCC 16.1。
搭载 Olympus 核心的 NVIDIA Vera 在 Linux 系统上运行良好。但需要注意的是,部分电源管理优化仍在向上游提交。我之前报道过NVIDIA 正在开发对 Linux 的 ACPI CPPC v4 支持,这似乎与此相关。由于电源管理优化仍在进行中,NVIDIA 要求在本次基准测试的第一轮测试中不要启用 CPU 功耗监控。同样,CPU 频率监控也不允许在第一轮测试中进行。此外,NVIDIA Vera 的基准测试是在其预生产的开放平台系统上进行的,而实际应用中,例如在 2026 年晚些时候推出的封闭式服务器机箱设计中,功耗和频率的测试结果将更具参考价值。
NVIDIA 还要求仅测试与 Vera 在数据中心中预期应用场景相关的特定工作负载。因此,第一轮 Vera 基准测试并未涵盖所有可能的工作负载,而是仅限于他们认为最相关的基准测试——再加上我只在 NVIDIA 办公室待了一天。对于这些初始的 NVIDIA Vera 基准测试,他们希望测试范围仅限于他们认为最符合其现代数据中心客户需求的特定用例。本文并非赞助文章,但我为了运行这些初始的 Vera CPU 基准测试而接受了他们的要求。希望在接下来的几个月中,Vera 的后续测试能够提供更广泛的基准测试,以满足那些对 Olympus CPU 核心整体性能感兴趣的人的需求。同样,一旦他们的电源管理代码完成优化,我们也能够报告其能效和每瓦性能。
NVIDIA Vera 基准测试

为了量化 NVIDIA Vera 的性能,我们测试了以下配置/处理器:
NVIDIA Vera ——NVIDIA Vera 拥有 88 个核心/176 个线程的完整配置。(关于 SMT 开启/关闭的对比,我们将在另一篇文章中进行探讨)配备 8 条 96GB LPDDR5-9600MT/s 内存。本次测试的 Vera CPU 峰值 TDP 为 450 瓦。
NVIDIA Grace - 当前一代 NVIDIA Grace CPU,配备 72 个 Arm Neoverse-V2 核心,并搭配 256GB LPDDR5-8533 MT/s 内存。
两颗 AMD EPYC 9455 处理器——这是 NVIDIA 推荐的 AMD Zen 5 架构下 Vera 的对比配置。两颗 AMD EPYC 9455 CPU 在核心/线程数方面与 Vera 最为接近。每颗 EPYC 9455 拥有 48 个核心/96 个线程,基础频率为 3.15GHz,全核睿频可达 4.1GHz,最高睿频可达 4.4GHz。因此,两颗 EPYC 9455 共拥有 96 个核心/192 个线程,而 Vera 则拥有 88 个核心/176 个线程。EPYC 9455 的 TDP 为 300 瓦。所有测试的 AMD EPYC 配置均配备了 12GB(双路配置为 24GB)64GB DDR5-6400 内存,这是 AMD EPYC 9005 系列支持的最高内存配置。
2 x AMD EPYC 9475F - 同样是单路48核心的处理器,EPYC 9475F是高频版本。AMD EPYC 9475F单路48核心96线程,基础频率为3.65GHz,全核睿频可达4.4GHz,最高睿频可达4.8GHz。EPYC 9475F的TDP为400瓦。
1 x AMD EPYC 9575F - AMD 推荐用于 AI 服务器核心 CPU 的顶级 EPYC Turin 架构处理器是 EPYC 9575F。这款 64 核/128 线程的高频处理器拥有 3.3GHz 的基础频率、4.5GHz 的全核睿频以及 5.0GHz 的最高睿频。它是 AMD EPYC 9005 系列中唯一一款能够达到 5.0GHz 的处理器。EPYC 9575F 也是一款 Turin 架构的 CPU,TDP 为 400 瓦。
2 x AMD EPYC 9575F - 这款高频 64 核处理器在 1P 和 2P 配置下都进行了测试,分别安装在 Vera 唯一的 88 核配置的两侧。
1 x AMD EPYC 9755 - AMD 的旗舰级(非高密度)EPYC 9755 处理器,拥有 128 个核心/256 个线程。EPYC 9755 的基础频率为 2.7GHz,最高睿频可达 4.1GHz。AMD EPYC 9755 的 TDP 为 500 瓦,与 Vera 类似。
2 x AMD EPYC 9755 - 顶级配置的 AMD EPYC 9005 系列 2P 设置,不采用 Turin Dense SKU,以展示 NVIDIA Vera 和 AMD EPYC Zen 5 之间的顶级性能。
1 x Intel Xeon 6980P - 用于 Granite Rapids 覆盖范围的是我唯一一台用于测试的 Xeon 6 P 配置,即 128 核的 Xeon 6980P。Intel Xeon 6980P 拥有 128 个核心/256 个线程,基础频率为 2.0GHz,全核睿频频率为 3.2GHz,最高睿频频率为 3.9GHz。Xeon 6980P 的 TDP 为 500 瓦。
两颗英特尔至强 6980P双路 Granite Rapids 处理器,共计 256 个核心/512 个线程。测试时使用了 12/24 通道 MRDIMM-8800 内存。
所有测试均在 Ubuntu 24.04 LTS 上进行,同时升级到最新的 GCC 16.1 编译器。

我们使用了一系列单路和双路英特尔/AMD处理器,以便全面比较Vera与竞争对手在核心/线程数量上的性能,并展示其在多线程工作负载下的性能表现,以及哪些工作负载能够很好地扩展或扩展。此外,我们还测试了某些工作负载,由于NUMA局部性,这些工作负载在多路配置下的性能可能不如单路配置。当然,双路配置也需要考虑总体拥有成本(TCO)因素,例如需要两倍数量的内存模块。
由于手头CPU数量有限,测试样品的选择也受到限制。因此,英特尔方面只有Xeon 6980P处理器参与测试,因为我手头只有这一颗Xeon 6 Granite Rapids处理器作为评测样品。同样,由于Ampere Computing在最初的评测/测试后需要收回他们的AmpereOne评测样机,我也没有最新的Ampere硬件来进行对比。但根据与EPYC/Xeon的对比数据,可以很容易地得出结论:Vera是我迄今为止测试过的最具竞争力的ARM服务器CPU,无论是在裸机还是在公有云环境中。
代码编译性能

首先,我们进行了一些代码编译基准测试,因为这是 Phoronix 读者最喜欢的领域之一。NVIDIA 的 Grace CPU 是所有测试处理器中最慢的,而 NVIDIA Vera 的性能则突飞猛进,在双路配置下,使用 Gem5 编译基准测试时,其性能几乎与 AMD 的旗舰级 5.0GHz 高频 AMD EPYC 9575F 处理器(或多个处理器)相当。NVIDIA Vera 则是所有单路 CPU 中最快的。

就 Gem5 编译的单核性能而言,Vera CPU 的性能介于 EPYC 9575F 和 9475F 高频处理器之间。


在 NVIDIA Vera 上编译 Godot 游戏引擎时,与 Grace 相比,节省了大量时间,并继续与 AMD 的高频 Turin 处理器展开竞争。


Node.js 的编译性能最为惊人,Vera 编译大型代码库所用时间不到 NVIDIA Grace 的一半。Vera 与 5.0GHz 的 EPYC 9575F 并列成为 Node.js 单核编译性能最佳的处理器。

有趣的是,当在所有测试的处理器上构建 x86_64 默认配置时(在 ARM64 CPU 上交叉编译到 x86_64),NVIDIA Vera 是构建默认 x86_64 内核速度最快的 CPU,仅需 20 秒。

在所有模块的 x86_64 内核构建中,NVIDIA Vera 的性能仅略逊于拥有更多核心/线程的双路 AMD EPYC 9575F 和 9755 处理器。在所有测试的单路解决方案中,Vera 的速度最快。

但如果按每个核心来衡量构建性能,NVIDIA Vera 及其 Olympus 核心提供了最快的构建速度。
流内存性能

对于 Stream 内存基准测试,NVIDIA 直接使用了上游 Stream 的原始代码,而一些厂商则更倾向于使用他们定制的版本或自家的编译器工具链进行构建。NVIDIA Vera 使用上游 Stream 代码,并全部采用 GCC 编译,展现了其令人印象深刻的内存带宽能力。



NVIDIA Vera 凭借其 LPDDR5X 内存,在内存性能方面展现出远超当前 Intel Xeon 和 AMD EPYC 处理器的惊人优势。而 EPYC Venice 和 Xeon Diamond Rapids 等处理器升级到 DDR6 内存而非 DDR5 后,性能表现又将如何,值得我们拭目以待。

如果比较这些不同处理器的单核性能,NVIDIA Vera 在 7-Zip 单核性能方面略胜一筹,略微超过了 5.0GHz 的 AMD EPYC 9575F。这真是了不起的成就!Grace 到 Vera 的性能提升幅度一直超出我对处理器代际性能提升的预期。


从每个核心的 7-Zip 解压缩性能来看,NVIDIA Vera 遥遥领先。当然,几个月后 EPYC Venice 的表现还有待观察,但就目前而言,Vera 在这方面领先。可惜的是,我们今天没能获得 CPU 功耗指标的数据。
AV1视频编码


对于那些对使用 NVIDIA Vera CPU 服务器进行视频编码/转码感兴趣的人来说,Vera 在流行的开源 SVT-AV1 编码器方面取得了显著的代际性能提升。即使是 Grace 处理器,其速度也往往优于 Intel Xeon 6980P,而 Vera 现在与测试的 AMD EPYC 9005 系列处理器不相上下。



当使用 SVT-AV1 处理 4K 10 位视频内容时,NVIDIA Vera 的性能开始超过测试过的 EPYC Zen 5 服务器处理器——即使是最高频率达到 5.0GHz 的 SKU 也超过了它们。


从 Grace 到 Vera,其代际进步令人印象深刻,而且它绝对是我测试过的最具竞争力的 ARM64 处理器。
Python性能

鉴于 Python 编程语言在人工智能领域的流行程度,NVIDIA 对 Python 在 NVIDIA Vera 上的性能感到非常自豪。



根据不同的Python基准测试,NVIDIA Vera的性能往往与AMD的EPYC 9005系列高频处理器非常接近,在某些情况下甚至更胜一筹。Vera的性能也几乎全面超越了Intel Granite Rapids。




在Ubuntu Linux系统上,NVIDIA Vera处理器为当前一代AMD EPYC Turin处理器提供了极具竞争力的Python性能。
OpenJDK Java工作负载

在OpenJDK Java工作负载测试中,NVIDIA Vera表现出色。例如在Jython性能测试中,Vera击败了所有测试过的EPYC Turin处理器,仅次于Intel Xeon 6980P Granite Rapids处理器。

或者用 DaCapo 的 Eclipse 基准测试,Vera 击败了 Granite Rapids,紧随 AMD EPYC 9575F 5.0GHz Zen 5 处理器之后,同时领先于其他受测的 Turin 型号。

NVIDIA 的 Grace 到 Vera 技术在这些 Java 工作负载方面也带来了非常不错的代际提升。

在Java工作负载基准测试中,Vera与当前一代x86_64处理器相比极具竞争力。今年晚些时候,它的每瓦性能表现如何,值得关注。

在某些基准测试中,NVIDIA 的性能从最慢跃升至所有受测服务器处理器中最快的。
OpenJDK Java基准测试




无论处理什么 Java 工作负载,NVIDIA Vera 都能提供与当前 AMD EPYC 和 Intel Xeon 处理器非常有竞争力的性能。

在某些情况下,NVIDIA Vera CPU 的性能比任何受测的 x86_64 CPU 都要快得多。


OpenJDK Java 在 NVIDIA Vera 上的表现非常出色。
Zstd 压缩性能

鉴于目前客户对 Zstd 压缩的浓厚兴趣,Zstd 压缩性能也成为 Vera 测试的允许工作负载之一。果不其然,Vera 在 Zstd 压缩方面比 Grace 快得多。Grace 是所有测试 CPU 中最慢的,而现在 Vera 在压缩级别为 3 的情况下,轻松成为速度最快的 CPU,能够满足快速实时性能的需求。

解压缩性能虽然没有那么令人印象深刻,但仍然实现了不错的代际提升,并且超越了英特尔至强 6 Granite Rapids 旗舰产品。


如果追求极致压缩,Zstd 的最高压缩级别 19 使得 Vera 的压缩性能几乎比 Grace 翻了一番。Vera 的速度也远超 Intel Xeon 6980P 服务器,性能与测试过的 AMD EPYC 9005 系列 CPU 相当。




Zstd 压缩级别 19 和长模式使 Vera 与高频 SKU 的 EPYC Turin 相比,在压缩速度方面更具竞争力。



Lua JIT 的性能也得到了极大的提升,从 Grace 到 Vera,以及与 EPYC Turin 一起跳舞,同时摧毁了 Granite Rapids。
正则表达式基准测试

NVIDIA Vera 的性能与 AMD EPYC Turin 高频 CPU 型号在正则表达式速度方面不相上下。



最后,我们测试了ClickHouse数据库服务器在x86_64和ARM64处理器上的性能。NVIDIA Vera凭借其Olympus核心和LPDDR5X显存,在所有测试的处理器中表现最佳。Vera与当前一代的AMD EPYC和Intel Xeon处理器相比,取得了非常漂亮的成绩。
一款前所未见得Arm CPU
在NVIDIA Vera首轮基准测试中,我们测试了各种不同的工作负载,Vera的表现超出了我的预期,我从未见过ARM64处理器能如此出色地与x86_64处理器抗衡。从几何平均值来看,NVIDIA Vera的性能比AMD EPYC 9575F 5.0GHz高频处理器高出10%。与Grace处理器相比,Vera的几何平均值性能提升了1.63倍。而与英特尔目前的旗舰级Granite Rapids处理器——单颗Intel Xeon 6980P相比,NVIDIA Vera的性能提升了1.55倍。

在开始测试之前,我对搭载全新 Olympus 核心的 NVIDIA Vera 处理器并没有抱太大期望。但最终我意识到,它堪称迄今为止对 Intel 和 AMD x86_64 处理器最强劲的竞争对手。NVIDIA Vera 的性能远超 Ampere Computing 或 Google Compute Engine 和 Microsoft Azure 等公有云提供商的定制 ARM 解决方案。事实上,NVIDIA Vera 在众多工作负载下都能与最新的 AMD EPYC 和 Intel Xeon 处理器相媲美。当然,NVIDIA 将初始基准测试的范围限制在其目标市场和应用场景,这其中也存在一些限制。但至少测试范围足够广泛,能够得出一些总体结论,而且这些工作负载大多是我多年来在其他基准测试中一直在运行的。鉴于当今多样化的工作负载和广泛的用户/读者兴趣,今天的测试结果只是我通常偏好的饱和轰炸基准测试方法的一小部分,但希望随着 Vera 在今年晚些时候的逐步完善,我们能够出于乐趣而进行这方面的测试。
由于无法记录 CPU 功耗数据,电源效率/每瓦性能方面仍然存在一些悬而未决的问题。不过,在目前的早期预生产阶段,这些问题可能与客户在今年晚些时候使用生产服务器时遇到的电源调优问题关系不大。因此,我们希望在未来几个月内能够对此有更清晰的了解。同样,对于那些对 Vera 在智能体 AI 基准测试中的表现感兴趣的人,敬请关注今年夏天即将发布的一些重要消息。
NVIDIA Vera 在功耗方面应该会相当引人注目。Vera CPU 的 TDP 为 450 瓦,而 LPDDR5X 内存的 TDP 仅为 50 瓦左右,同时还能提供非常出色的内存带宽。也就是说,Vera 的 TDP 为 500 瓦,而顶级的 AMD EPYC Turin 和 Xeon Granite Rapids CPU 的 TDP 也为 500 瓦。如果 Xeon Granite Rapids CPU 搭载 DDR5 ECC RDIMM 内存或 MRDIMM 内存,并在所有 12 个内存通道都满载的情况下,功耗可能会远超 50 瓦……关于 Xeon 6 MRDIMM/DDR5 内存的功耗(和性能)数据,请参阅之前关于 Xeon 6 的文章。因此,Vera 在整体“墙装功耗”方面应该会胜出,因为它具有更高的能效,但今天还没有具体数据可以分享。正如我们从 Stream 内存基准测试数据中看到的那样,LPDDR5X 内存的性能甚至超过了 Granite Rapids CPU 搭载的 MRDIMM 内存。

鉴于我使用 Vera 的时间有限,且测试项目也受到限制,目前我不想就产品做出任何明确的推荐或结论。但我可以肯定的是,根据现有测试结果,这绝对是我测试过的性能最强的 ARM Linux 服务器处理器。Phoronix 即将迎来 22 周年庆,距离我成立不到两周。我从 Calxeda 服务器时代就开始对 ARM Linux 进行性能基准测试,这些年来也尝试过其他一些有趣的方案,比如用太阳能供电的 ARM 集群搭建在垃圾桶里。在测试的工作负载中,采用 Olympus 核心的 NVIDIA Vera CPU 展现出了与当前一代 AMD EPYC 9005“Turin”处理器相媲美的竞争力。NVIDIA Vera 几乎在所有测试项目中都轻松超越了高端的 Intel Xeon 6980P“Granite Rapids”处理器,即使后者搭配的是 MRDIMM-8800 内存。
NVIDIA Vera的量产时机和定价也将起到重要作用。Vera将于今年晚些时候开始量产。基于Zen 6架构的AMD EPYC Venice预计也将在今年发布,但具体时间和量产计划尚未公开。EPYC Venice有望比EPYC Turin有显著的性能提升,因此一旦量产完成,AMD可能会占据领先地位。与此同时,Intel Xeon Diamond Rapids预计将于2027年某个时候发布。AMD EPYC Venice可能会在Vera设计工作负载之外的各种工作负载中占据领先地位,但或许更重要的是NVIDIA能否迅速推出Vera的继任者。如果NVIDIA继续保持其积极的硬件发布周期,并且能够比AMD大约两年一次的EPYC发布周期更快地进行创新,那么如果他们能够基于Olympus的出色基础迅速发展,他们就有可能在性能方面取得显著且及时的领先优势。
现阶段,NVIDIA Vera 的定价仍是一大未知数,除了超大规模数据中心、人工智能公司和其他市场主导者之外,近期内其供货量如何也尚不明朗。Vera 的市场扩张以及未来几个月的服务器定价走势都将非常值得关注。
鉴于 Olympus 处理器强大的单核性能,桌面/工作站用户或许会翘首期盼 NVIDIA 推出一款桌面/工作站级别的处理器。然而,这似乎不太可能。由于各种总体拥有成本 (TCO) 因素,NVIDIA 似乎并没有计划推出任何低核心数的 Vera 处理器,但我们仍然可以期待未来会有更好的产品问世。
除了NVIDIA Vera在x86_64架构上展现出的强劲性能,以及相比Grace架构卓越的代际性能提升之外,我在NVIDIA工作期间最令人受益匪浅的经历是见证了Vera强大的上游开源支持。由于他们没有依赖繁琐的设备树文件,并且很好地兼容各种Arm标准,NVIDIA Vera的上游内核支持状况良好,进而也适用于现代主流的AArch64 Linux发行版。一开始,我对Vera的了解还很有限,不知道会遇到什么问题,也不知道哪些标准会被打破,或者需要定制的驱动程序解决方案。但有了Olympus核心,看到所有功能都能在主线Linux内核上流畅运行,真是令人欣喜。此外,NVIDIA在Vera发布前就已将其Olympus核心支持提交给了GCC和LLVM Clang编译器。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4419内容,欢迎关注。
★
★
★
★
★
★
★
★
加星标⭐️第一时间看推送
求分享
求推荐
更新时间:2026-05-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号