在今天举办的“2025龙芯产品发布暨用户大会”上,龙芯中科技术股份有限公司董事长胡伟武先生再次强调了他打造龙芯的初衷。
“全球信息产业构建在美西方主导的X86体系和ARM体系之上,2024年我国工业企业利润率5.4%,其中电子工业利润4.0%(2024年我国电子工业利润总额6408亿元),而苹果公司是937亿美元。利润太低是个问题。”胡伟武接着说。
胡伟武引述国家领导人的观点继续指出,在别人的墙基上砌房子,再大再漂亮也可能经不起风雨,甚至不堪一击。于是,加速推进国产自主可控替代计划,构建安全可控的信息技术体系,就成为了当前工作的重点任务。在胡伟武看来,要将自主可控进行到底,就要做到“三自主”,也就是有自主的指令系统、自主IP核、并基于自主工艺生产。而龙芯则是国内唯一一个坚持三自主路线的CPU企业。
据介绍,龙芯自主研发了很多IP核,当中包括但不限于CPU、GPU、密码IP、高速接口、内存接口、音视频接口以及其他接口。龙芯还基于自主工艺做了很多硬IP。以上这些IP构成了龙芯的基因。“但光有IP还不行,我们需要把这些IP搞成高性能的处理器,还需要很多积累的投入。总而言之,可以归因于两个方面:一是设计优化,一是工艺升级。”胡伟武说。
不过,正如大家所知道,当前我们在工艺制造上落后于国际领先对手,这就迫使龙芯团队去探索,能否通过设计优化提高性能,弥补工艺的不足。事实证明,这是一条行得通的道路。
如图所示,在过去多年的发展中,龙芯通过微架构和工艺的升级,将公司CPU的处理器性能大幅提升。在此期间,公司也形成了三大CPU系列,分别是面向桌面和服务器应用的龙芯3号,面向工控和终端应用的龙芯2号以及面向嵌入式专门应用的龙芯1号。
在这个基础上,龙芯带来了公司3C6000系列服务器CPU。
服务器CPU,重磅亮相
胡伟武回顾说,在2010年到2020年期间,龙芯主要的工作是完成单核性能的“补课”,当中3A1000到3A4000也只是做四核。在服务器市场,公司并没有太多涉及。虽然在3A5000系列的时候,有推出面向服务器的16/32核3C/D5000产品,但这难免有所吃亏。
不过从另一个层面看,这让公司有了更多的积累,继2023年底发布龙芯3A6000桌面CPU后,进而在今天推出了面向服务器的3C6000。
据介绍,本次大会发布的3C6000系列服务器CPU采用自主指令系统龙架构,于2024年上半年流片成功。3C6000单硅片16核32线程,可通过自研的龙链接口通过多硅片封装形成32核64线程的3C6000/D(又称3D6000)及60/64核120/128线程的3C6000/Q(又称3E6000)。
胡伟武表示,除了架构的设计外,龙芯3C6000还有一个杀手锏,那就是“龙链”——一个对标NVLink、CXL,破解Chiplet的关键核心技术,能把多个硅片和多个芯片连在一起。据介绍,将“龙链”应用在算力之间互连,不但规整、简洁,还获得了很高的带宽,降低了延迟。“跟英特尔的UPI和IFIS比,我们的带宽效率更高。此外,我们还全自研物理层接口,兼容PCle电气标准。”胡伟武说。
基于这些领先设计,龙芯3C6000获得了优越的性能表现。
根据中国电子技术标准化研究院测试报告,单路3C6000/S服务器在2.2GHz运行SPEC CPU 2017单核单线程定/浮点分值为5.56/6.93分,多核定/浮点分值为73.2/58.5分;双路3C6000/D服务器在2.1GHz运行SPEC CPU 2017多核定/浮点分值为284/261分;双路3C6000/Q服务器在2.1GHz运行SPEC CPU 2017多核定/浮点分值为450/283分;四路3C6000/D服务器在2.1GHz运行SPEC CPU 2017多核定/浮点分值为547/412分。上述3C6000/S、3C6000/D实测单核/多核性能分别达到Intel公司2021年上市的16核至强 Silver 4314、32核至强Gold 6338的水平,64核3C6000/Q性能超过40核至强Platinum 8380的水平。
结合Intel公司第三代至强可扩展架构服务器芯片出货情况,3C6000系列服务器CPU综合性能达到2023年市场主流产品水平。这个具有高性能、高可靠、高安全、全自主等特点的GPU也可满足通算、智算、存储、工控、工作站等多场景的计算需求。胡伟武更是预言,得益于其优秀的表现,从3C6000开始,性价比将逐步取代自主性成为在服务器领域合作伙伴选用龙芯的主要原因。
在发布服务器CPU的同时,龙芯还带来了终端/工控CPU3B6000M/2K3000。
据介绍,这两款CPU同样采用自主指令系统龙架构,面向终端(笔记本、云终端等)和工控应用,于2024年底流片成功。其中,3B6000M集成8个LA364E处理器核,主频2.5GHz时实测SPEC CPU2006 Base单核定点分值达到30分;集成第二代自研GPGPU核心LG200和独立硬件编解码模块,4K高清视频处理性能达到每秒60帧;集成安全处理器提供可信支持和密码服务,包括SM2/3/4硬件算法模块以及可供软件编程使用的可重构密码模块。
借助本次大会发布的龙芯3C6000系列服务器CPU、3B6000M终端CPU,加上2023年底发布的龙芯3A6000桌面CPU,龙芯形成了桌面、服务器和终端三条线路产品的完整系列,能够为不同领域提供高性能及高性价比的CPU芯片产品。
也正是随着3B6000M/2K3000的亮相,标志着龙芯经过20多年的积累,已经系统掌握了通用处理器、图形处理器、AI处理器及其基础软件设计的关键核心技术,龙芯处理器研制在巩固通用处理器、图形处理器的基础上,进入大力发展AI处理器的新时期。
值得一提的是,在2K3000中,集成了龙芯自研的第二代GPU,这就揭开了公司另一系列产品布局的神秘面纱。
GPGPU,蓄势待发
过去几年,因为人工智能的火热,对AI芯片的关注度空前高涨。而按照胡伟武所说,做AI有两条技术路线:一是英伟达和AMD采用的图形和计算机+AI组成的GPGPU路线;另一条是英特尔和苹果采用的图形是图形、AI是AI的路线。而经过考虑评估,龙芯最后采用的是英伟达那样的GPGPU路线,因为这种设计软件兼容性好。
制定了路线之后,龙芯从2016年开始就投入到GPU研发当中。其中第一代是给CPU做配套的LG100 GPU。据介绍,继承这个GPU的龙芯独显桥片7A2000和SOC芯片2K2000中批量应用迄今也已经卖出上百万片。这些GPU不论是可靠性还是兼容性都经受住了市场的考验,且大幅降低了龙芯电脑的成本。
至于前面提到集成在2K3000中的GPU,则是公司推出的是既有图形又有AI的第二代产品——兼具图形处理和AI处理功能的LG200 GPGPU。
在谈及这个GPU的时候,龙芯中科技术股份有限公司首席工程师、通用GPU处理器研发总监苏孟豪表示,对GPU而言,图形渲染能力是根本,因此在通用计算架构里,我们仍然将图形处理能力作为首要目标加以考虑。但与此同时,GPU的设计思路发生了转变——从以图形为中心转变为以计算为中心。
“之前的设计是以图形流水线为主,在需要的时候组成任务去调用可编程的流处理器,现在的设计是把流处理器资源通用化,图形处理以各种计算任务的形式贯穿流水线。”苏孟豪解析说。他进一步指出,从顶层架构上看,这并没有什么区别,不过这个转变使得公司的图形API可以自然升级到OPEN GL4.0、ES3.2,并且支持通用计算。
苏孟豪透露,随着通用图形处理器架构的成熟,后续的龙芯三号桌面CPU上,都会集成GPU,图形渲染与AI加速能力,进一步提升龙芯CPU的性价比。与此同时,公司也正在谋划新的GPU产品——龙芯9号系列芯片,也就是公司新系列的显卡或加速卡。
据介绍,该系列首款产品是龙芯9A1000。作为技术积累的第一步,9A1000定位为一款入门显卡,用龙芯CPU配套提供更为流畅的图形渲染能力,AI算力的加持也使其智能化应用成为可能。苏孟豪表示,9A1000的GPU核与2K3000的同属一代架构,但在功能、性能、面积、功耗等各个方面都有长足的进步。图形API的磨合推进到OpenGL4.0、ES3.2,解锁了曲面细分、计算角色器等高级特性。
此外,在这个显卡上,龙芯还突破了多图形流水并行架构,为后面进一步堆料打下了良好基础。据苏孟豪介绍,在这个GPU上,龙芯全面优化了其持续路径,使得其工作频率提升25%,优化流处理器设计,面积减少20%,优化低功耗的设计使得在低负载情况下的功耗降低70%。
然而来到性能方面,9A1000的GPU核规模是2K3000的四倍,结合频率优化,总体性能将会有5倍以上的提升。其INT8的AI算力甚至可以达到40TOPS,能满足AIPC要求。据透露,这个显卡的设计已经接近尾声,近期将流片。
继9A1000之后,龙芯还规划了9A2000。作为全功能的GPU,9A2000同样是有图形渲染、通用计算和AI加速能力,面向的中高端显卡设计,应用于桌面和服务器等场景。
苏孟豪透露,9A2000的GPU核将升级到第三代架构,进一步提升单位面积算力,图形API支持会做到头,加入虚拟化支持。同时AI加速能力将更加全面,除了INT8和INT4,该GPU的张量单元中还会增加BF16、FAP8等浮点类型的支持。在规模方面,9A2000是9A1000的四倍,单精度浮点算力达到5Tflps,INT8AI算力达到160Tops,带宽也会达到256GB/S,图形处理能力将按比例提升。
“值得一提的是,9A2000支持双片互连扩展,届时总体性能还会再翻一倍,达到通功易代GPU国际先进水平”,苏孟豪说。
三剑客,全面赋能
胡伟武总结说,经过自2001年以来二十多年的持续努力,龙芯CPU开始从自力更生到自力更省(成本)、自力更生到自力更高(性能)、自力更生到自力更好(生态)的转变。而以3A6000、3C6000、2K3000为代表的龙芯“三剑客”性价比是龙芯上一代产品的三倍以上,具有开放市场的性价比竞争力。
这丰富的产品线让龙芯能够为更多市场赋能。
在发布会上,浪潮计算机、中兴通讯、联想开天、软通计算机、航天706所、超越科技、超云、诚迈科技、云尖、国鑫、国光、宝德网安、207所、中核华辉、升腾、大唐科研总院、太初元碁、华清同创、航天龙梦、联硕、黄河信产、航天联诚、天融信、上海宽域、雷神、腾凌科技、鲸鲨软件、百代存储、上海芮宣、铵泰克、众达科技、湖南兴天、深圳芯创、原基科技、湖南博匠、万数科技、储迹、恒生数字、北联国芯、攀升科技、派能信创、通明智云、国建大数据、擎毅科技、天安星控、中博数智、天创者、云晓科技等48家企业发布了基于龙芯3C6000系列处理器的通用服务器、存储服务器、工业服务器、网络安全设备等主板、整机及解决方案产品,在党政、国防、金融、能源、电信、云计算、AI等关键领域具有广阔应用前景,其中部分主板和整机强调核心元器件100%国产化。
与此同时,华龙讯达、盛博科技、道莅智远科技、众达科技、米联客、湖南兴天、国科亿道、北方星空、航宇创通、航力安太、新松佳和、眺望电子、嘉擎信息、中嵌科技、上海宽域、中科云、中邦自控、吉斯凯达、赛飞特、上海合亿、瑞腾信息、国科鸿飞、研域、迅龙软件、艾宝科技、升腾、航天龙梦、卓怡恒通、创智成、六联智能、宝新创、智微智能、高能计算机、麒麟信安、艾讯云等35家企业在发布会现场同步发布了基于龙芯2K3000/3B6000M处理器的板卡、工业控制器、工控一体机、工业平板、笔记本、云终端等工控及终端产品,具有高性能、高可靠、强安全等特点,适用于复杂工业环境、推理场景,可广泛应用于能源、交通、制造等领域,守护能源安全、助力交通智行、赋能新型工业化。
展望AI方面未来的发展,龙芯方面则强调。公司的AI处理器将坚持融合图形计算和AI计算的通用GPU技术路线,聚焦推理类应用,从端侧应用做起,坚持自主研发、迭代发展,不断提高性能并完善软件生态。
如大家所见,过去几年国产GPU的发展证明,底层硬件只是基础,要真正把国产GPU用起来,关键还要看软件生态。有见及此,龙芯经过调研之后在算力生态方面提出了兼容主流、拥抱开源、应用牵引、迭代发展原则,启动构建龙芯加速计算平台的新征程。
据介绍,龙芯加速计算平台整体架构分为四个层次:最底层是基础支撑层,包括GPU构建、内核驱动、图形编译器、算力编译器;在基础支撑层上面是驱动与运行时,里面核心组件有Open GL图形驱动、算力运行时Vulkan图形驱动以及VPU驱动;再往下一层是各种算子和性能分析工具;最上层则是AI框架应用层,这层主要由开源社区主导,为开发者和用户提供AI模型训练、推理、优化工具,比如LLlama等等。
“龙芯加速计算平台是一套完整的解决方案,功能全面,支持云、边、端等全领域应用,提供OpenCL扩大兼容等算力编程接口,能够支撑训练推理等全场景应用,支持OpenGL等三维图形编程标准,支持主流视频格式编解码加速,能够对算力、图形、编解码等硬件处理单元进行统一的管理。”苏孟豪表示。
“龙芯要把中国信息产业发展放在自己力量的基点上,以自力更生实现更低成本、更高性能、更优生态。站在新的历史转折点上,龙芯中科将始终坚持‘为人民做龙芯’的根本宗旨,坚持自力更生、艰苦奋斗的工作作风,坚持实事求是的思想方法,在构建信息技术体系和产业生态的新征程上勇毅前行,为实现我国信息产业自立自强而努力奋斗!”龙芯中科董事长胡伟武重申。
更新时间:2025-06-27
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号