「分析」长电科技或是英伟达产品的封装厂商

随着生成式人工智能时代的开启,CPU与GPU的重要性之争似乎已经落下大幕。无论是大模型的训练效率,还是资本市场的反映,显然GPU都已经赢了。2023年5月25日,英伟达创造了新的历史新高,单日上涨24%,与此同时,昔日王者英特尔盘中巨幅下挫7%,收盘时仍跌5%。

2023年5月29日,英伟达 CEO 黄仁勋在 2023 台北电脑展大会上发布了多项重磅消息,其中最引人注目的是其 Grace Hopper 超级芯片。这些芯片是英伟达新推出的 DGX GH200 人工智能超级计算平台和 MGX 系统的核心组件,它们专为处理海量的生成型人工智能任务而设计。

据了解,DGX GH200 人工智能超级计算平台是英伟达针对最高端的人工智能和高性能计算工作负载而设计的系统和参考架构,目前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一个单元。

关于该超级计算机的细节暂时还不太清楚,但可以确认的时英伟达使用了一种新的 NVLink Switch 系统,包含 36 个 NVLink 开关,将 256 个 GH200 Grace Hopper 芯片和 144TB 的共享内存连接成一个单元。英伟达 CEO 黄仁勋表示,GH200 芯片为“巨型 GPU”。这是英伟达第一次使用 NVLink Switch 拓扑结构来构建整个超级计算机集群,英伟达称这种结构提供了比前一代系统高出 10 倍的 GPU 到 GPU 和 7 倍的 CPU 到 GPU 的带宽。它还设计了提供比竞争对手高出 5 倍的互连功耗效率和高达 128 TB / s 的对分带宽。该系统有 150 英里(约 241.4 公里)的光纤,并且重达 4 万磅,但是呈现出来就像一个单一的 GPU。英伟达表示,256 颗 Grace Hopper 超级芯片将 DGX GH200 的“AI 性能”提升到了 exaflop(一百万万亿次)。

Grace Hopper 超级芯片是英伟达开发的基于 Arm 架构的 CPU+GPU 集成方案,它将 72 核的 Grace CPU、H100 Tensor Core GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中,共有 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间惊人的数据带宽,高达 1 TB / s,为某些内存受限的工作负载提供了巨大的优势。从而不再需要传统的CPU至GPU PCIe连接。与最新的PCIe Gen5技术相比,这也将GPU和CPU之间的带宽提高了7倍,将互连功耗减少了5倍以上,并为DGX GH200超级计算机提供了一个600GB的Hopper架构GPU构建模块。

看到这里,是不是很熟悉,这一幕当年也出现过。2022年春季,苹果M1 Ultra横空出世,采用台积电 CoWoS-S 封装技术,苹果也称之为“UltraFusion封装架构”,通过两颗M1 Max晶粒的内部互连,打造出一款性能与实力都达到空前水平的SoC芯片,拥有1140亿晶体管,20核心CPU,64核心GPU,支持128GB内存。最令人吃惊的是,人们从中看到了 Arm 架构的巨大潜力。而今天,英伟达站在历史的交叉点“AI的iPhone时刻”,其产品NVIDIA Grace Hopper再次证明了 Arm 架构的强大,以及不仅由制程带来的性能提升,系统级集成的高性能。先进封装正在开创属于自己的未来。

这不禁令我想起了今年1月份长电那则令大众沸腾的新闻。

1月5日,全球领先的集成电路制造和技术服务提供商长电科技宣布,公司XDFOI Chiplet高密度多维异构集成系列工艺已按计划进入稳定量产阶段,同步实现国际客户4nm节点多芯片系统集成封装产品出货,最大封装体面积约为1500mm²的系统级封装。

当时我也强调过,4nm 封装技术世界领先,但我们的关注点应该更多放在后半句的“多芯片系统集成封装产品出货,最大封装体面积约为1500mm²的系统级封装”。有兴趣的朋友欢迎回阅《谈谈近期长电科技上涨的逻辑》,此文写于2023年1月13日。

当我今天再次回想这句话,我忽然感到一切都串联起来了。

先说结论,长电科技提到的国际客户4nm节点多芯片系统集成封装产品,有极大的概率是英伟达的NVIDIA GH100 CPU+GPU 模块。以下是我的一些分析和判断依据。

严格意义上说,不存在4nm的工艺节点,之前5nm的工艺节点的下一代正式节点是3 nm。现在我们看到的4nm工艺,都是台积电(TSMC)在5nm的技术基础上改良推出的N4(4nm),以及针对HPC推出的N4X(4nm)。国际客户,而且能设计而大规模流片 4nm 芯片的企业非常少,只有苹果、高通、三星、英伟达、联发科,AMD也可以设计,但是目前它并没有推出4 nm制程的产品,通富微电的封装技术也还在5 nm节点上。因此,候选企业可能是苹果、高通、三星、英伟达、联发科。

多芯片系统集成封装产品,也就是“小芯片(Chiplet)”。已知的Chiplet产品,苹果的M1 Ultra(5nm,不是4nm),因此苹果可以排除了。高通还没有推出类似的产品。联发科当时没有类似产品。三星自家4nm都没人用,而且三星自己也可以封装。

英伟达当时在长电发布Chiplet出货之前的几个月恰好推出了新的H100,正好也是4nm制造。从普及的方向上看,通常最先进的制程会被用于当年最先进的手机处理器上,但是显然现在Chiplet离移动端商用的那一天还有一些距离,这一点上看,基本上市面的4nm芯片产品都是移动端的,可以全部排除了,只剩下英伟达的产品。

NVIDIA GH100 利用 NVIDIA NVLink-C2C 将 Grace 和 Hopper 架构相结合,为加速 AI 和高性能计算 (HPC) 应用提供 CPU+GPU 相结合的一致性内存模型。从面积上看,H100 为 814 平方毫米,GH100大概在1000平方毫米左右,Grace CPU的面积规格查不到,但CPU+GPU的总封装面积在1500 平方毫米左右是非常合理的。

而且 GH100 的功耗巨大,当时消息人士预测 GH100 的功耗可能会达到 1000W,需要专用的水冷散热装置才可以为其冷却。这里再结合长电2022年末的一些公告消息看看,发现有什么关联呢?熟悉的朋友会发现,长电经常提到它的散热技术。

这里有朋友会说,之前投资者平台有人问过长电是否与英伟达有合作,官方回答是“有过合作”。意思很明确,以前有过,现在没有。那上面推论就解释不通了?先看一下下面这则消息。

台积电的CoWoS并不是只有台积电才能做。

早在两年前,据业内消息人士称,台积电已将CoWoS封装业务的部分流程外包给了日月光、矽品、安靠等OSAT,尤其是在小批量定制产品方面。

据《电子时报》援引上述人士称,对于一些需要小批量生产的高性能芯片,台积电只在晶圆层面处理CoW流程,而将oS流程外包给OSATs,类似的合作模式预计将在未来的3D IC封装中继续存在。这种模式的基础在于,台积电拥有高度自动化的晶圆级封装技术,而oS流程无法自动化的部分相对较多,需要更多的人力,且OSAT在oS流程上处理的经验更多,这导致了台积电选择将这部分流程外包。

事实上,在过去的2-3年里,台积电已经陆续将部分封装业务的oS流程外包给了上述企业,包括硅中介层集成或扇出晶圆级封装(FOWLP),以及需要使用CoWoS或InFO_oS封装工艺进行小批量生产的各种HPC芯片。对台积电来说,除先进工艺外,最赚钱的业务是晶圆级SiP技术,如CoW和WoW,其次是扇出和中介层集成,oS的利润最低。由于异构芯片集成需求将显著增长,预计台积电采用更灵活的模式与OSATs合作。

该人士强调,即使台积电最新的SoIC技术在未来得到广泛应用,代工厂和OSATs之间的合作仍将继续,因为SoIC和CoWoS一样,最终将生产出“晶圆形式”的芯片,可以集成异质或同质芯片。

因此,虽然英伟达和长电当下没有直接合作,但是通过台积电CoWoS外包的方式,是有可能间接达成合作关系的。综上所述,个人认为,长电科技提到的国际客户4nm节点多芯片系统集成封装产品有极大的概率是英伟达的NVIDIA GH100 CPU+GPU 模块。

展开阅读全文

页面更新:2024-03-20

标签:三星   英伟   人工智能   节点   架构   芯片   流程   厂商   系统   产品   技术   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top