看完这份全栈国产化HPC解决方案,我真想磕一个!

我现在真想磕一个!

老汪站在展位前,看着眼前的展示方案,激动地差点脱口而出。

为啥他这么激动,事情得从前阵子说起——

老汪所在的研究所,要新上一套HPC高性能计算集群

老汪都搞过好几轮HPC了,按说不稀奇,但这一次,他犯难了。

有三个大难点↓

第1难:HPC集群必须纯国产

无论是软件还是硬件,上级单位有明确合规要求:

从HPC服务器硬件(GPU、CPU)、到HPC软件平台(操作系统、集群管理、基础套件),甚至配套的存储、网络,通通要国产化。

第2难:性能必须很能打

不光要纯国产,而且还要性能强悍的纯国产!

老汪他们所,干的都是大活儿,对性能要求极高。

而且老汪知道,这HPC不能光看服务器裸算力,集群搭起来,要进行调优,这是个系统工程。

第3难:应用必须全部能迁移

很多软件都没在国产HPC上跑过,还没有源码,怎么能迅速跑起来?

光有集群,软件都跑不动跑不好,精度也上不来,那这锅谁背?

……

谁能搞定这样的纯国产HPC交钥匙工程?

老汪想破脑袋也没想出来,愁啊……

直到几天前,他收到一张邀请函:

2025全国高性能计算学术大会(CCF HPC China 2025)

这个会老汪以前就知道,还挺有干货的,于是他决定去参会碰碰运气,看有没有新方案能解眼前的燃眉之急。

……

那天,老汪在会场展区上溜达,猛然看到一份方案,太惊喜了,仿佛是为他们单位量身打造的。


这是怎样一份让老汪恨不得“磕一个”的方案呢?

这套「KunLun高性能计算解决方案」,是以KunLun服务器为核心算力单元 ,集结了算、存、网、集群软件全套产品,并支持完整的科学应用软件生态。

这其中的「双生态兼容」,是指兼容全国产化算力生态,又兼容“西方”算力生态。

这个特点让老汪眼前一亮,毕竟自家单位这些年已经建了不少老集群,过去的投入也不少,如果新方案还能向前兼容,那敢情好。

老汪再细品方案,这套方案包含了三大核心组件↓

①KunLun服务器:

这是集群中,提供高性能算力的核心单元,包含多种规格。

有高密度整机柜液冷服务器,也有适用于超智融合的AI服务器,NPU型和GPU型的按需选择。

也有不同规格的通用算力服务器,双路、四路,搭配国产化高性能处理器,满足计算节点和存储节点的需求。

老汪盘了盘,这些可选的服务器,无论从算力指标和国产化合规角度,都够用了。

②KunLun DFS:高性能并行文件存储系统

老汪知道,在HPC场景,如果把算力比作重机枪、数据比作子弹,那么并行文件存储系统就好比弹夹和高速上弹器。

机枪火力再牛逼,子弹要是续不上,也得哑火。

而这套KunLun DFS就相当给力,具备行业领先的存储性能,高聚合带宽、大IOPS,支持多协议互通,数据访问效率极高。

部署方式也很灵活,针对海量小文件场景可以非对称式部署,遇到高带宽需求,可以对称式部署,确保“弹药充足、供应及时”。

③KunLun Center:HPC&AI集群管理软件

基础平台软件包含两部分。

第一部分是集群Portal,负责作业调度、数据管理、应用与权限管理。

KunLun的HPC Portal不仅支持HPC作业,还支持一站式AI模型开发训练部署,为超智融合提供基本盘,这是老汪很看重的一点。

第二部分是KunLun Center,负责一站式部署、可视化管理、健康检测和巡检。

老汪平常在单位就是主管基础设施运维的,他知道这些功能看着轻描淡写,却是保障集群不出幺蛾子的关键。

难道就凭这些,就让老汪彻底服气了吗?

不,接下来,老汪讲出了他的真正的「磕点」——

第一、软硬件全栈自主创新,而且支持超智融合一体化

KunLun这套HPC方案,算、网、存、软件全栈国产,完美契合老汪这次选型的合规要求。

全栈到什么程度呢?

不只是算力服务器、存储系统、无损网络、集群管理和AI软件这些基础设施,还包括了服务器的操作系统、编译器、数学库、通信库、开发套件…

这么说吧,这个国产化“全家桶”,是没有短板的全家桶

同时,老汪对计算芯片用ARM处理器也很放心,因为当今超算TOP500排名第一的富岳(Fugaku),就是基于ARM架构。

KunLun这套ARM架构,具备永久授权,100%自研源代码,完全掌握CPU指令集,是真正的自主可控。

在自主可控的基础上,KunLun还支持多元算力共生,融合东西方算力生态,ARM、x86、NPU、GPU可以组成混合集群,发挥各自优势。

这对老汪来讲,是个意外惊喜,他可以考虑把单位原来的x86集群加入进来,平滑过渡,也可以在集群中引入GPU、NPU,提升AI处理能力。

更让老汪惊喜的是,KunLun这套方案支持SlurmK8S协同调度,一套算力资源池,灵活满足科学计算和AI训推需求,实现超智融合一体化。


第二、调优能力业界领先,集群性能拉满,应用快速迁移

之前,老汪还有两个担心,一是整体集群性能优化的问题,二是担心那些HPC热门应用,在国产化环境下跑不起来。

但看罢KunLun的调优和应用迁移实力,老汪不由暗暗点赞↓

首先,KunLun已经完成了400+行业主流应用的深度适配,覆盖教科研、制造、石油、气象等行业场景。

也就是说,大部分主流HPC应用的国产化适配和优化都已经搞定了。

这个基本盘,完全不需要担心,从x86到ARM的迁移障碍,已被KunLun扫除。

如果遇到新的HPC应用(无论有源码还是无源码),KunLun均可以实现2天完成迁移,2周性能优化,3周精度调优,整体性能大幅飙升。

看这嘎嘎的性能:材料Lammps提升12%,气象WRF提升35%,生信GATK提升87%…

到这里,老汪刚开始开始发愁的那几点,全栈国产、性能优化、应用迁移,全部都找到了满意答案。

但他还有一点不放心:这KunLun团队是什么来头,凭啥这么牛?

仔细一打听,老汪算彻底明白了。

这是一群深耕计算产业20+年的老司机(核心团队是鲲鹏+昇腾原班人马),继承了国产化算力20多年的研发、市场和生态能力。

40+HPC&AI方案研发专家,提供专业咨询和方案设计能力,100+HPC&AI PAE/FAE团队,保障项目实施和应用迁移调优。

正是有这样的资深团队做保障,KunLun才可以成为国产化HPC领域的“扛把子”,深入业务场景,携手100+客户完成测试、调优与项目落地。

说起实战经验来,那是相当丰富,无论是气象预测、有限元分析,还是分子动力学分析、生物信息分析,性能全部拉满!





老汪意犹未尽,继续在展区逛起来,突然,他看到一个熟悉的身影——

省气象局主管信息化的老季,自己多年的老朋友

老朋友见面,分外亲切,于是两个人交流起HPC的国产化选型问题。

没想到,老季是这方面的行家,他们气象局已经用KunLun在干超智融合的事了,现在有三个气象大模型都跑在KunLun国产化HPC上,效果非常棒。

接下来,老季兴致勃勃地给老汪分享了他们的使用经验,对KunLun的产品和服务更是赞不绝口。

按老季的说法,他们气象局的雨量监测、时间序列预测等几个大模型,是典型的AI for Science的项目,需要定制化开发才能搞妥。

推进过程中,遇到了很多挑战,幸亏KunLun团队帮他们做迁移调优,重构关键算子、优化推理性能。

最终两周搞定,模型推理性能提升了40%,算子时延降低25%,让他们气象局的AI for Science项目成了同行标杆。

跟老季聊完,老汪心里更有谱了。

KunLun这么深的底蕴,还有这么多同行都在用,还犹豫个啥?放心上就好。

建设纯国产化HPC集群,迁移无风险,性能有保障,双生态兼容,一站式服务,选KunLun准没错!

展开阅读全文

更新时间:2025-08-21

标签:数码   解决方案   集群   性能   服务器   气象局   方案   软件   生态   团队   单位   气象

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top