太初元碁的硬件研发中心实验室里,科研人员在进行一道关键工序:将经过筛片测试的国产AI芯片集成为AI加速卡,并安装至对应集成服务器中,进行大规模软硬件协同加压调试。至此,这台服务器就初步具备了为大模型提供稳定AI算力的能力。
芯片是整个算力系统的“心脏”,当大模型走出实验室,进入万千应用场景,推理算力已成为大国博弈与科技竞速的下一个制高点。近日,南方+记者奔赴江苏无锡、泰州兴化等地探访国产算力芯片的“破局”之路。
国产算力“跑”起来
在无锡惠山科创太初算力中心,计算机柜中灯光闪烁,国产算力服务器搭载着一款在研AI大模型,正在信息高速公路上全力“奔跑”。
而同在无锡的太初元碁硬件研发中心实验室里,研发人员正为AI加速卡的测试做准备。一块完成技术验证的电路板,将搭载AI芯片和各类板载元器件,组合成一块块砖块大小的AI加速卡,嵌入服务器,静待用户的“激活”。

实验室内科研人员正在调试产品 受访者 供图
成立时间仅5年的太初(无锡)电子科技有限公司(简称“太初元碁”),已自主研发国产AI芯片并以此推出AI加速卡、算推力一体机等产品,参与国内多个高性能计算集群建设,并搭建软件栈和算力管理服务平台,为人工智能大模型训练推理、气象预报、地球科学、工业仿真等领域提供了大量算力支持。
而在200公里外的泰州兴化市,汉腾科技自主可控国产算力服务器产线上,正汇聚龙芯中科、太初元碁、台达集团等企业,形成国产算力的“梦之队”。

产线一隅 受访者 供图
这条长达148米、目前国内最长的直通式算力服务器产线正在进行最后调试。从裸板上线到整机下线,一台4U 8卡算力服务器走完全程,满产状态下只需要5分钟。后续,它们将被发往承德、石家庄、兴化等地的万卡集群项目,成为国产智算中心的一块块基石。

受访者 供图
这是当前国产芯片热气腾腾的一个缩影。例如,在天气预报中,过去依靠的是专家经验和高性能计算,而当把AI与高性能计算有机结合,通过气候气象模拟仿真,用训练好的AI模型来做预测,可将短临预报(未来3小时内的天气预报)从原来的6小时缩短至1小时乃至更短来完成模拟预测,让气象服务走向个性化、精准化与智能化。
值得一提的是,如果赛道技术更迭太快、路线尚未收敛,之前产出的芯片,是否转眼就会被性能更先进的产品取代?
国家超级计算无锡中心相关负责人介绍,其实,中国各行各业存在着多元丰富的应用场景,这些场景还没有被充分满足,因此,这就考验各大算力中心的生态建设能力。
而在汉腾科技董事长王皓霆看来,即便国产算力制程并非全球顶尖水平,这就好比修建的国道,可以先让拖拉机跑起来,把路跑通了,车和路自然会相互匹配、相互升级,而不是一上来就开跑车。
事实上,国产自主算力服务器从研发、设计、投产再到切切实实地落地到场景中用起来,是一条“艰难的路子”。“会有不少质疑的声音,认为这是拼接组装而已,或者有声音戏称像是‘小作坊’。确实,国产算力需要发展,‘卡脖子’难题需要大家一起去攻克,关键是有‘试水’的勇气。产品要能真正落到实处,用起来,才能发挥价值,这也是我们联合不同厂商、企业共同推动的原因,了解场景需求、打通技术脉络,即便是‘作坊’,落地以后也能产生巨大价值,推动行业应用纵深发展。”王皓霆说道。
他甚至认为,未来算力真正可能闲置的,反而是那些远超当前应用场景所需的过高制程产品。
“虽然真正稀缺的是高端算力,但好用且高性价比的算力更能满足需求。”太初元碁首席产品官洪源说,这在倒逼AI芯片企业以高性价比、低延迟和能效优化为指标要求去设计和规划推理产品。
异构创新差异化突破
对太初元碁而言,致力于快速响应并满足AI高速发展带来的算力爆发式增长需求,得益于一直以来坚持的异构众核技术路线。
在太初元碁的研发体系中,不管是加速卡,还是服务器,都有一个硬核大脑,这就是异构众核的技术架构。
太初元碁硬件系统研发负责人吴志勇向记者解释,“异构”从字面上可以理解为不同的架构,但又不能简单地认为异构就是把不同的处理器堆积起来,其核心在于将不同类型的算力与不同特长的硬件核心系统化有机结合,共同完成计算任务。
换言之,这将是一种更为复杂的算力系统。从技术角度理解,首先从计算架构的角度而言,有不同类型的算力,例如CPU擅长调度和控制密集型计算。传统的GPU和VPU则是向量处理器,擅长向量操作,虽然并行处理数据量大,但是每个元素的计算较简单,不适合独立完成复杂任务处理;此外,与CPU间的数据交互性能也受到IO总线能力限制。
国产芯片厂商,正通过架构创新形成差异化突围,推动芯片产业从“补位者”向“中坚力量”跃迁。
快速响应大模型
今年元旦以来,DeepSeek、智谱、千问等国产大模型进入“周更”时代,这意味着,算力底座的响应速度也要加快。
过去,行业习惯的芯片设计流程是先集中精力把硬件设计出来,然后软件团队投入大量人力去建设和完善各种软件栈,把硬件性能充分发挥出来。
“软件定义硬件的趋势日趋明显,换言之,传统先有硬件再与软件相互配合的时代已经落幕。”洪源说,大模型“周更”反向推动AI芯片在更新迭代的方案设计环节,就提前将软件需求纳入考量范围中,全面实现软硬件协同。
另一方面,AI芯片应用到万卡集群、智算中心成为算力底座时,芯片间高速互联也是一项非常关键的技术。近期发布的几款主流大模型的参数规模已达万亿级别,训练时要对海量数据进行大规模计算,必须依托大规模芯片集群完成训练,而且整个过程极度复杂,需要高效稳定的AI算力集群系统。
集群互联的规模、质量、稳定性对算力利用效率、训练时间、训练成本甚至训练成功与否都有显著影响。对太初元碁来说,AI算力集群系统的性能除了考验单芯片性能外,更加考验千卡甚至万卡稳定高效的互联能力。
洪源进一步介绍,突破集群性能、追求极致推理性价比、加速生态和软件工具建设将成为国产AI芯片企业的三大主攻方向。
这可以理解为,大模型训练就是大数据量的“分布式并行计算”,互联能力就是分布式计算的数据传输“高速公路”。前沿大模型的训练已经要求数万张算力卡互联并行工作,国产AI芯片厂商不能只关注单卡性能,需要充分考虑如何构建产品真正的集群性能。
其实,汉腾科技选用太初元碁AI加速卡,其核心也在于其自主可控的异构众核架构、高密液冷带来的极致能效、完善的国产软件生态适配、稳定的大规模部署能力及深度产业链协同能力,并能全面推进国产算力服务器的量产与智算场景落地。
当前先进AI芯片供应受限的情况下,中国算力的竞争力究竟来自哪里?在探访中,国产算力企业给出的答案是:把芯片、算法等要素组合成一个效率更高、成本更低的系统,把算力应用在更多真实需求中,并形成可持续的商业回报。
这种“蚂蚁啃大象”的战术,诠释了中国工程师的智慧:既然单打独斗难以取胜,就用系统级创新弥补个体差距。
南方+记者 郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端
更新时间:2026-03-06
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号