LPU 与 GPU:GPU 专为图形处理而优化,而 Groq 的 LPU 则专为自然语言处理而优化。

如果您对人工智能、自然语言处理或大语言模型感兴趣,那么您可能已经听说了不同模型与训练方法之间激烈的竞争。致力于创新AI学习方式或扩展其能力的模型数量与日俱增。但支撑这些模型的硬件基石也在经历快速变革与发展——其中包括一项在2025年12月宣布的、具有里程碑意义的行业转变。
语言处理单元是为辅助大语言模型的开发与部署而研发的芯片。LPU自设计之初就以实现快速、高效的语言推理为目标,其价值已得到明确验证——英伟达在2025年12月下旬与Groq达成了一项价值200亿美元的非独家许可协议,获得了LPU技术背后的知识产权、工程团队及硬件栈。
下文,我们将解释什么是LPU,它们与GPU有何不同,近期的行业发展,以及它们的能力所在。
什么是LPU?
LPU代表语言处理单元。LPU是由Groq公司开发的专有芯片架构(不要与埃隆·马斯克领导的人工智能公司的Grok混淆),该公司由谷歌张量处理单元的前首席工程师乔纳森·罗斯于2016年创立。LPU是LPU推理引擎的关键组成部分,这是一种新型的端到端处理单元系统,专为最常见的自然语言处理或AI语言应用及相关工作负载而设计。
在架构上,LPU专为顺序型而非并行型的计算密集型应用而设计。Groq开发LPU的初衷,是使其在处理大语言模型时具备内在的高效性和强大性能。LPU可部署于任何架构,并支持几乎所有的训练模型。配合适当的存储解决方案,LPU能够处理海量数据,并以重塑行业预期的速度高效满足推理任务的计算需求。
Groq的LPU是一种芯片及处理系统,其特性包括:异常快速的顺序性能;依赖具有数百兆字节片上SRAM的单一大规模核心架构;为大规模部署提供同步网络支持;据称可自动编译参数超过500亿的大语言模型;以及具有近乎即时的内存访问和周期级确定性。与依赖外部高带宽内存的GPU不同,LPU的静态执行模型意味着编译器会预先规划整个程序路径,并保证可预测的延迟,没有缓存未命中或停顿。
这些能力源于LPU是专门为促进广泛的自然语言处理应用而定制的,包括文本生成、情感分析、语言翻译等。
ArtificialAnalysis.ai在2024年初进行的独立基准测试证实,Groq的LPU在运行Llama 2 Chat时达到了每秒241个tokens的吞吐量,是其他托管服务商速度的两倍以上。到2025年,Groq在更新模型上展示了更高的性能,测试显示Llama 3 8B达到每秒877个tokens,Llama 3 70B达到每秒284个tokens。
什么是GPU?
GPU,即图形处理单元,是更为人熟知的硬件,是一种专门设计用于处理高要求图形渲染任务的组件。虽然它们最初是为处理输出到显示设备的图像而设计的,但其处理计算密集型操作的能力已催生了更多应用,将其用途扩展到人工智能和科学计算领域。
GPU擅长处理并行工作负载,可近乎即时地提供成千上万次小计算的结果。这种并行处理优势使GPU在需要数据并行性的任务中不可或缺,例如图像处理、模拟和机器学习。
从架构上讲,高端GPU可以拥有数千个核心,这正是其强大之处,能够跨大量处理元件协同进行运算。这使得它们在AI领域日益重要,被用于训练和部署深度学习模型。并行处理加速了复杂的神经网络训练。
GPU的通用性也很强,能够适应各种架构并支持广泛的训练模型。其并行架构结合高速内存、优化的数据吞吐量以及先进的内存管理技术,意味着在存储解决方案优化配置的情况下,GPU可以处理大量数据。英伟达即将推出的Rubin系列和当前的Blackwell GPU依赖于高带宽外部内存(GDDR7或HBM3)以及高度并行的核心布局,可在训练和大批量推理场景中高效扩展。
LPU与GPU的区别
GPU与Groq的LPU之间的关键区别在于并行与顺序处理以及它们的内存架构。GPU擅长将复杂任务分解为数千个可同时执行的微小计算,并利用外部高带宽内存。但许多AI推理工作本质上是顺序的,因此并行处理并非特有优势。LPU是专门为使AI能够实时理解和生成人类语言的任务而设计的,利用片上SRAM消除了外部内存延迟。
在与训练和使用大语言模型相关的任务中,如翻译、聊天机器人和内容生成,LPU优于GPU的最大之处在于单流工作负载的推理速度和能效。GPU在大批量处理时表现最佳,而LPU则针对单token推理进行了优化——这正是聊天机器人托管和实时智能体等实时AI应用所需的确切特性。在用于顺序性自然语言处理任务时,使用LPU的处理时间和能耗都显著降低,基准测试表明,在关键的AI推理工作负载上,LPU相比基于GPU的解决方案可带来约2-3倍的速度提升。
这种效率和速度可能会导致与传统数据存储环境之间的瓶颈。为了维持高性能,LPU需要与其快速处理能力相匹配的存储解决方案。如果数据无法足够快速地送达LPU,或是在处理后无法被快速分类和存储,就可能导致延迟问题并降低整体效率。
像Pure Storage FlashBlade//S™这样的高吞吐、可共享和横向扩展的数据存储架构,其速度足以满足现代支持LPU的AI推理引擎的需求。

英伟达与Groq的交易:对AI基础设施意味着什么
2025年12月,英伟达宣布与Groq达成一项里程碑式的、价值200亿美元的非独家许可协议,这标志着自收购Mellanox以来英伟达最大的人工智能相关交易。该协议使英伟达得以使用Groq的整个硬件栈,包括LPU知识产权、编译器工具链和芯片设计。这一战略举措表明,英伟达认识到超低延迟推理业务对其以GPU为主导的训练业务构成了关键的补充。
该协议的结构旨在允许英伟达将Groq的基于SRAM的确定性架构整合到其产品路线图中,同时避免了全面的监管合并审查。行业分析师预计,英伟达将发布其TensorRT和CUDA库的软件更新,纳入源自LPU的优化技术,而2026年的"Vera Rubin"平台预计将采用GPU-LPU混合设计。这将使单个机架的英伟达硬件能够无缝处理大规模并行训练和超快速顺序推理。
与此同时,GroqCloud继续作为一项独立服务运营,其开发者数量已从2025年初的约35.6万增长到年底的超过200万。在与英伟达达成交易前,Groq已筹集了18亿美元资金,并从沙特阿拉伯获得了150亿美元承诺,用于扩大基于LPU的AI推理基础设施部署。
LPU的适用场景
LPU的理想应用场景是语言相关的AI推理任务,特别是那些需要实时响应的任务。虽然GPU对于训练仍然至关重要,但LPU在推理任务中表现出色,即训练好的模型在生产环境中应用于新数据。这意味着LPU是聊天机器人、需要动态生成内容的应用、机器翻译、本地化和实时AI智能体等模型的绝佳选择——在这些应用中,低延迟和稳定的性能至关重要。
LPU的确定性架构和片上SRAM使其特别适合单序列工作负载,在这类任务中,可预测、可重复的性能比聚合吞吐量更重要。这就是为什么急于扩展实时生成式AI服务的云服务提供商和初创公司对Groq的技术表现出浓厚兴趣。
在本地部署中,像Pure Storage的AI就绪基础设施这样的全闪存存储,能够提供支持运行NLP任务的LPU所需的高速数据访问和吞吐量,确保在不造成存储瓶颈的情况下高效检索和处理海量语言数据。
GPU的适用场景
GPU仍然是图形渲染的当然之选,无论是在游戏、视频编辑还是其他多媒体应用中。GPU的固有优势在于模拟物理现象和同时渲染成千上万个与图形相关的计算,这种主导地位短期内不太可能改变。
即使在LPU兴起以及英伟达战略整合这两种技术的情况下,GPU在AI处理中仍将是非常强大的工具。在训练深度神经网络和处理海量数据集时,并行处理仍然必不可少。在大批量推理和训练工作负载方面,GPU仍然是黄金标准,在这些场景中大规模吞吐量至关重要。GPU也是通用的处理系统,这使得它们成为整体AI应用处理环境中的宝贵组成部分——尤其是在将用于训练的GPU与用于推理的LPU配对的混合架构出现之际。
结论
自LPU首次出现以来,AI硬件格局已发生巨大变化。在拥有能够以足够速度提供数据的数据存储环境支持下,得益于其专为加速顺序处理而设计、并通过片上SRAM实现近乎即时内存访问的架构,LPU可以比其他硬件更快、更高效地处理自然语言推理任务。
GPU擅长并行处理和分工,而Groq的LPU则是专门为确定性、低延迟的顺序处理而设计的。2025年12月的英伟达-Groq交易验证了LPU的架构理念,并预示着一个AI基础设施日益依赖混合系统的未来——将用于训练和大批量工作负载的GPU,与用于实时推理应用的LPU配对。其定制性确实使LPU成为高度专业化的处理系统,对于通用计算或处理任务并非总是理想选择。但在快速、高效、可预测地处理语言推理工作负载方面,LPU技术已被证明是AI加速领域的一项变革性创新。
常见问题解答
什么是LPU,它与GPU有何不同?
LPU,即语言处理单元,是一种专门为高效处理自然语言任务(特别是大语言模型的推理)而构建的处理器。GPU,即图形处理单元,最初为图形处理设计,现因其能并行处理大量数据而广泛用于许多AI工作负载。LPU专注于语言处理的顺序特性,而GPU擅长广泛的并行计算。
更新时间:2026-03-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号