英伟达的「镰刀」,不是AI芯片

在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,还可以给您带来不一样的参与感,谢谢您的支持。

自从硅基研究室再次成为人们关注的焦点,这一次并不是因为其持续上升的业绩,而是因为OpenAI、谷歌等人工智能领军企业开始产生异议。据The Information报道称,在下个月的年度开发者大会上,硅基研究室计划推出首款专门用于训练和运行大型语言模型(LLM)的芯片。

同时,OpenAI也正在考虑制造自己的人工智能芯片,并已经投资了至少3家芯片公司。此外,谷歌最新版本TPU(张量处理器)已迭代到第五代。

有分析师爆料称谷歌拥有比OpenAI、Meta以及CoreWeave加起来还要多得多算力资源,并且这主要来源于该公司庞大数量TPU存在优势。那么为什么这些企业都纷纷涉足探索自己设计制造芯片呢?市场上已经有很多解释:GPU价格过高、产能不足等等问题导致需求旺盛。

通过进行自主研发和制造芯片,他们希望削弱在人工智能领域定价权,更具备战略性地位. 但事实证明是否自主制造芯片真的能使企业减缓资金损失呢?实际上,市场上H100 GPU已经涨价到原始价格的两倍还供不应求。即便像谷歌这样拥有自研芯片并大量采购GPU资源,仍然无法满足需求。

为什么会出现这种情况?其实很多人对英伟达误解较多,他们简单地将之视为一家硬件公司,而忽略了公司软件工程师数量远超过硬件工程师。事实是英伟达真正的核心优势并非来自于源源不断推出新型芯片(当然这也不能否认),而是来自于其软硬件生态系统,并且CUDA正是构成该生态系统中至关重要的组成部分。

CEO黄仁勋在2019年密尔沃基工学院发表演讲时曾说过:“一个接着一个领域、从分子动力学、计算物理学到天体物理学和粒子物理等各个科技领域开始使用我们创造性科技前进。” 这项创造性科技就是CUDA。

CUDA 是一种用于并行计算架构,在它加持下,GPU才得以战胜CPU称霸今天运行大数据计算的基石。相同任务下,支持CUDA系统的GPU速度能比CPU快10倍至100倍。

那么为什么CUDA有如此强大的魔力呢? CPU和GPU都是计算机处理器,它们可以执行各种计算任务,但不同之处在于CPU更擅长线性计算,而GPU则善于并行运算。一个常用类比就是将CPU看作一位大学教授,能够独立解决复杂问题, 但需要按部就班进行;相对来说, GPU像一群小学生--单个核心运行效率不如 CPU高 , 但由于其庞大数量优势,并且具备同时执行多项运输功能。

而 CUDA 就像调动这群小学生指挥棒。借助 CUDA , 研究人员和编程人员得以通过编程语言与硬件设施交流沟通从而将复杂数学问题转化为许多简单子问题分发给 GPU 的多个核心进行并行计时操作.正如黄仁勋所说,CUDA 是英伟达成功逆袭背后真正王牌 —— 它扮演着决定性角色构建起软硬件融合完美护城河领域能力——也是创造出加速现代AI应用实践中标志性产品和技术的关键。

经过不断的发展与创新,超级计算机成为科学向前发展的最佳解决方案。在10月11日,橡树岭国家实验室发布了他们研发的超级计算机“顶点”。

该计算机具备可达每秒20亿亿次峰值浮点运算速度,接近于“神威·太湖之光”超级计算机两倍的性能。这台巨大而强大的设备搭载了将近28000块GPU。

而恰好是作为第一批广泛采用「CUDA+GPU」套餐技术并进行研究工作应用于各个领域中之一—橡树岭国家实验室所取得这一突破。事实上,“CUDA+GPU”技术自2006年推出以来,在涉及到各个领域中几乎已经形成了一个标志性存在。

例如航空航天、生物科学、机械和流体模拟以及能源探索等众多领域80%以上都依赖着 CUDA 技术基础进行相关研究工作。此外,随着长时间内现有人才配置规模下等问题所带来影响加剧,并且越来越多人参与其中。

根据该公司2023财年的年报显示,目前有约400万开发者正在积极合作使用 CUDA 技术。在过去12年中,人数达到了200万名开发者;而在过去两年半时间内这一数字已经翻倍增长至目前的数量,并且 CUDA 的下载量超过4000万次。

同时,CUDA 生态系统不断扩大进展并推出软件加速库集合CUDA-X AI。这些库建立在 CUDA 之上并提供了深度学习、机器学习和高性能计算所需的重要优化功能,因此成为数据科学加速端到端平台必不可缺少元素。

正是由于CUDA生态如此之盛行, 这也使得GPU成为消费者们首选设备,并获得了巨额利润。然而,在面对如此巨大诱惑时自然会有竞争对手试图分羹无愧咬牙切齿之事情发生。

例如 AMD 推出具有兼容多种计算框架功能以及适用范围广泛等特点的 ROCm 生态平台;OpenAI 旗下 Triton 被认为是 CUDA 最潜力挑战者之一; 开源结构 OpenCL 在设计后转交给 群晖组织 并尽可能地支持 GPU 或其他加速器等多核 CPU 的运行;谷歌则通过"TPU+TensorFlow+云"模式吸引开发者并拓宽客户群体。虽然这些竞争对手在理论上看起来似乎能够成为 CUDA 的替代选择,但实际工作中却暴露出了各种问题。

今年2月,半导体研究和咨询公司Semi Analysis的首席分析师Dylan Patel撰写了一篇名为《Nvidia 在机器学习领域的 CUDA 垄断如何被打破(How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0)》的文章。而该文章下方有位程序员留言表示:“我想这是可能的,但是我非常怀疑。

因为我的所有东西都是建立在CUDA之上进行操作,并且没有任何NVidia硬件支持就无法正常使用。“ 实际有效与理论有效存在巨大差异。

很多我们使用和依赖只具备 ROCm 理论支持技术, 结果实践中,在试图将其应用时会遇到诸多大小不同错误、甚至发生系统崩溃或工作异常等情况。” 由此可见,在软硬件兼顾之间已经确立稳定头把交椅并且培养市场约20年的英伟达面前,至少在现阶段中尚无对手能够真正超越其地位。

捏住了CUDA这张王牌的英伟达帝国在2006年推出CUDA并将其应用于GPU上。18年过去了,虽然GPU的运算能力被证明未来有可能超过CPU,但由于应用程序匮乏、编程繁琐以及缺乏底层语言支持,程序员们对其敬而远之。

为与2003年推出的4核CPU竞争,在首席科学家大卫·柯克博士提议下,黄仁勋决定发展统一计算设备架构技术即CUDA,并使所有英伟达GPU都必须支持它。尽管围绕着CUDA存在质疑直到AI时代前夜才消退, 年市值常常低于10亿美元水平,股价甚至因为与业绩相关联额外成本降至1.5美元。

不少股东多次要求集中精力提高盈利能力. 2010年曾有消息称当时最强劲竞争者若是愿意收购英伟达,则价格不是问题,关键是给黄仁勋一个怎样 的职位也没有取得一致意见.然而,在市场看空英伟达这些暗淡岁月里,Huang从未放弃对 CUDA 的信念和价值.为了吸引开发人员编写应用程序并展示 GPU 优势,他首先利用当时已拥有大量游戏玩家市场地位的GeForce GPU来作为 CUDA 的基础,然后创建了一个名为GTC的会议,在全球范围内不知疲倦地推广CUDA。近年来最突出的例子是2016年,Huang亲自访问刚成立不久的OpenAI,并赠送一台搭载8个P100芯片DGX-1,这是英伟达当时最强大的浮点运算GPU。

对许多人而言,此举被视为Huang明智之举.但Huang本人认为,这无非是确保CUDA 成为空前科学研究者惯用框架再次尝试.相比之下,CPU时代中曾经主导CPU领域 的Intel公司放弃在2010年实现CPU和GPU融合计划后对与英伟达正面竞争失去了兴趣。(可也可以说陷入纳米制程停顿等原因.)2020年,英伟达将目光转向了新的战场——DPU和DOCA。

他们以69亿美元对价收购了以色列网络芯片公司Mellanox Technologies,并推出了BlueField-2 DPU,将其定位为第三颗主力芯片,继CPU和GPU之后。那么什么是DPU呢?DPU的核心功能是取代CPU,在数据中心建立起以数据为中心的计算架构。

通常来说,CPU不仅负责运行应用程序和执行计算任务,还扮演着控制数据流量、在GPU、存储、FPGA等设备之间传递数据的角色。简单来讲就好比校长提出一个难题后,老师(即CPU)拆分其中复杂部分并解决它自己,而较容易但繁琐部分则交给学生(即GPU)去做. 随着题目数量增加,老师需要投入更多时间进行拆分与下发这些工作. 要提高整体运算效率,则需要聘请专门负责拆分与下发工作人员(DPU). 因此,DPU成为提升系统效率关键所在。

近年来,在大规模建设云服务业、网络带宽需求爆发及海量数据快速增长等因素影响下,C PU性能的增长速度开始放缓,已不能很好地适应未来计算芯片的需求。于是DPU应运而生,成为数据中心基础设施的先进计算平台.除了BlueField-2 DPU外,英伟达还推出了DOCA软件生态系统。

通过DOCA,开发者可以创建软件定义、云原生和使用DPU加速的服务来编程未来数据中心基础设施,并支持零信任保护以满足不断增长需要性能和安全性要求。与过去黄仁勋用CUDA支撑GPU市场一样,DPCA同样为他量身定做了一套软件生态系统. 然而,DPU市场竞争远比当年GPU激烈得多.Marvell、NXP半导体及AMD等海外厂商都在研发自己的DPU产品或对位产品.国内也涌现出许多初创企业如云豹智能、中科驭数、芯启源、云脉芯联以及星云智连大禹智微都投入到该领域之中.至于在中国公司方面,AWS 和阿里巴巴早已开始大规模商用DPUs架构,Tencent 和字节跳动也加入到了DPUs开发行列并推出水杉与银杉两代DPU。

DOCA的推出意味着英伟达无需再费力向市场证明其独到眼光,DPU的火爆已足以证明这一点。GPU计算的奇迹吗?全球范围内,各个国家和企业之间都在激烈竞争着算力资源,而在生产能力受限且DOCA生态系统尚未完全形成的情况下,竞争对手们并不是没有机会。

展开阅读全文

页面更新:2024-03-13

标签:英伟   芯片   镰刀   开发者   生态系统   数量   领域   数据   市场   技术   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top