中国算力网如何从“可用”到“好用”

编者按:

算力建设被设定为“十四五”时期重点任务之一,在一批云厂商的积极布局下,一座座算力中心已建成落地。在全社会算力需求急剧膨胀背景下,如何盘活算力资源成为关键所在,由此,算力网络已成为国家、社会、产业发展的战略要求。

全文约6168字,建议阅读时间16分钟。

在智能时代,算力将成为社会发展的关键生产力。算力规模的增长不仅与 GDP 的增长呈正相关,且正在改变科学创新的模式,使得以往需要耗费大量时间、人力、物力的实验可以通过计算机来完成。

在此基础上,如同电力从水电、火电等各类发电类别跨越到统一服务的电力网,算力网是算力基础设施发展的一个必然趋势。


从算力到算力网

算力正在成为改变经济增长模式的一种重要方式,算力的规模也正在成为衡量一个国家经济增长幅度的一个重要指标。根据清华大学与互联网数据中心(IDC)共同编制的《2021—2022全球计算力指数评估报告》(见图1),算力和经济增长具有很强的正相关性。算力指数每增长1个点,就可以带来约1.8‰的GDP增长和3.5‰的数字经济增长。截至目前,算力指数最高的是国家美国,第二是中国,随后依次是日本、德国、英国、法国等。

算力不仅与经济有很强的正相关,在科学创新领域也正带来巨大的冲击。蛋白质分子的三维结构预测是困扰结构生物学领域长达50多年的一个难题。在过去几年中,由于智能算力的快速发展,原本需要依靠生物学家反复实验来预测的蛋白质结构,现在通过计算机和Alphafold2算法就可以精确预测绝大部分蛋白质结构。所以,基于人工智能的智能算力也正在改变科学创新的模式。


中国算力发展现状

中国已经成为世界算力发展的主要生力军之一,特别是在算力涨幅方面,中国是领跑者。目前全球算力规模排在前两位的是美国和中国,然后是日本、德国、英国、法国、加拿大、韩国、澳大利亚等国家,印度、意大利、巴西则是刚刚起步。但就算力发展涨幅来说,我国排在世界第一,达到13.5%,美国是5.0%。像经济发展一样,我国正以非常高的算力发展涨幅继续往前冲。对我国网络未来发展来说,算力优势将不再仅限于算力体量,而是更高的计算效率、更广泛的新兴技术应用,以及更健全的基础设施支撑

从网格计算到算力网络

2003年网格计算(grid computing)的概念被提出后,全世界很多超算领域的科学家纷纷参与,深入推动了网格计算的发展。现在,在x86 CPU的同步处理器上可以做到数据中心的互联,而且带宽和计算力的成本都较低。过去20年中带宽的性价比提升了100~1000倍,计算能力的性价比也提高了15倍。因此今天在讨论算力和算力网络的时候,整个背景和环境与20年前的网格计算相比都有着天翻地覆的变化。

当今社会,发展较为成熟的是电力网络。电力网络把电力发送到用户需要的地方。电力是由各种不同的电力源组成,包括火力发电、水力发电、太阳能发电,风力发电等从各种各样不同的电厂发送出来的电。用户并不关心电力来自哪里,其得到的电力也有可能以一定的比例来自不同的电厂,比如火力发电占了60%,水力发电占了40%。如今太阳能和风力发电等新型绿色电源的比例也在逐渐地扩大,但并不会影响终端用户的使用体验。这就是电力网络起到的作用。我们国家的电力网络包括特高压工程、“源网荷储”全网协同、“西电东送”直流特高压、智能电网等,都发展得非常好。

将算力网和电网做个类比,算力网中的算力基本包含三大类:超算、智能算力和云算力。在使用的时候,我们希望能够设计一个算力网络,把这些不同的算力封装起来,输送到用户需要的地方。这个算力网络可以考虑各种各样的因素,对社会、经济、科学等都有所裨益。

算力网络可能的技术途径

发展一个算力网络需要4个技术步骤(见图2):第一步是应用在单个数据中心提交任务、数据并运行;第二步是对同构的数据而言,应用可以在同构的环境但不同的数据中心进行提交,算力调度器统一调度资源,应用还在单个数据中心运行;第三步是应用可以跨多个同构的数据中心运行,也可以跨异构的数据中心统一提交,但最终还是在单个数据中心运行;第四步与电网类似,完全面向算力的用户,用户只需要提交应用需求,然后算力网络从网络进行资源调度,通过网络的兼容层把不同异构的算力整合起来统一使用。这时一个应用可以跨多个异构的数据中心同时运行得到结果。

第一步到第二步的跨越是从单算力中心到同构多算力中心,这是目前应该解决的一个问题,包括同构多算力中心的利用率不均衡问题,主要的应用包括离线数据处理、模型训练、科学计算等。面临的主要技术挑战包括:应用的封装技术、算力网络调度器、数据的快速迁移、计费、权限与数据安全保障等。因此首先需要对应用进行容器化封装,就像集装箱一样,以前轮船、卡车、火车运货,都用各自的仓储结构装载,中间环节需要各种各样的挖斗、吊车甚至是人工将货物从一个容器运送至另一个容器,有了集装箱以后,整个流程就变得简单高效。对于应用也是类似的,到这个阶段,算力网络也应该做好应用的容器化封装,这有益于对同构的硬件系统封装兼容,完成对算力资源、数据的集中输送等。

算力网络调度平台包括资源管理、作业调度、调度策略等方面,这样就使不同计算中心之间的资源和应用的数据能够通过算力网络调度资源管理来进行很好的适配。调度策略包含多种多样的策略,一种策略是采用全域原数据理念建立全域统一的数据目录,快速查找关联的数据,这样就能对数据和资源的存放一目了然。另外两种策略,一个是数随算走,一个是算随数走。“数随算走”,即算力在哪,数据就在哪,一般应用于数据量比较小的场景。

第二步到第三步的跨越包括两个阶段(见图3),第一个阶段是同构多算力中心向同构跨算力中心跨越。这样做的好处是,应用顶层的软件都是同类的,尽管可能版本不一,但绝大部分情况下都能减小适配难度,这时可以通过同构的数据中心统一提交,慢慢做到跨多个同构的数据中心提交和运行。这一阶段主要解决单中心算力不足以及数据不出域的问题。主要应用包括:大模型训练、联邦学习、联邦查询等。面临的主要技术挑战是算力中心网际互连与传输技术、面向跨算力中心网络的并行应用通信优化技术、隐私计算和联邦学习技术等。算力中心网际互连与传输技术中比较重要的是网络互连、感知网络编排、算网原生数据传输及表达。在面向跨算力中心网络的并行应用通信优化技术阶段,需要解决一些优化任务,例如考虑不同数据中心之间的通信模式、中间的任务划分,算力和带宽的分配,等等。

第二步到第三步跨越的另一个阶段是同构多算力中心向异构多算力中心跨越。在同构多算力中心上采用的CPU、算力资源等都是一样的,因此其上的封装以及调度较为容易。而在异构多算力中心上,其封装和调度的适配难度大大增加。由于其使用的是不同的算力资源,因此需要对异构的数据和资源提出更好的适配手段。

对于整个编程环境而言,资源的管理组织、负载平衡是一个较大的挑战,需要在异构平台上统一编程与优化技术,现有兼容层,如MPI(科学计算)、PyTorch和Spark(大数据),其中AI对各种人工智能加速器的移植性仍然是痛点问题。这涉及到算力底层算子的优化,例如对于一些异构算力,包括英伟达的GPU等提供的计算资源,需要提出一个统一的编程异构架构,来支持它们的算子优化。另外,工作流级别的异构调度的挑战相对更大,须利用不同算力中心的优势,协同解决问题。前人在分布式计算方面有一些有效的尝试,可以借鉴来解决这类问题。

第三步到第四步是向异构跨算力中心的跨越。从同构的算力中心到完全异构的跨算力中心的使用,要在算力网络的调度和算力网络兼容层的问题都解决之后才能进一步向异构的数据中心进行统一的提交,并跨多个异构数据中心运行,目前来看还需要花费较长的时间才能完成。它的主要应用包括大模型训练、联邦学习,以及与其他类型业务任务结合的工作流等。


鹏城实验室的鹏城云脑II实践

鹏城实验室设计完成了E级智算平台“鹏城云脑Ⅱ”,既能满足广东省和深圳市本地的计算需求,也能为国家战略提供一些支撑;既能用于理论研究支撑,也能用于核心技术管理和开发,同时也能满足一些智能应用需求。

面向AI的专用架构

鹏城云脑Ⅱ是专门面向AI的一个架构(见图4),它具有100亿亿次的半浮点运算操作能力,配备的存储达到64PB,任意节点之间的延迟只有2微秒,是一个全节点交叉互联的机器。

鹏城云脑的构建需要超级处理能力的人工智能专用加速硬件、开放的软件体系架构以及完备的开源生态环境。鹏城云脑Ⅱ达到了E级的算力,是计算密度、算力规模、训练速度均达到世界领先水平的AI基础设施,能为中国人工智能的发展提供最好的支持和服务。

鹏城云脑Ⅱ性能评估

鹏城云脑Ⅱ从2020年10月上线至今已先后参加了5次lO500的打榜,均为第1名,IO性能非常出众。在AI计算能力方面,2020年、2021年和2022年,连续三年在中国超算领域由CCF、ACM SIGHPC的专家联手推出的AIPerf500榜单上排名第1。除此之外,华中科技大学的金海教授团队将他们的程序在鹏城云脑Ⅱ上进行优化后,在今年GRAPH500的两个赛道上分别获得了第一和第二的好成绩。

鹏城云脑Ⅱ上线以来已经支持了很多大模型的训练,包括鹏程盘古、鹏程神农、鹏程大圣、鹏程扁鹊、鹏程通言、鹏程常羲等,也提供给国内一些顶尖的机构进行大模型训练。

鹏城云脑Ⅱ从上线至今折算后累计全机分配约492.78天,分配率为96.53%,实际的使用率为77.17%,对超级计算机而言是一个相当高的使用率。鹏城云脑Ⅱ有25.76%由鹏城实验室自己使用,60.92%提供给共建合作单位,7.53%提供给公益机构,2.45%提供给高校,3.34%提供给其他一些相关机构。鹏城云脑Ⅱ作为科学装置,体现了很好的开放性。不仅对科研单位,也对本地的政府和中小企业提供支持,例如广州实验室、深圳湾实验室、深圳市卫健委、交警局、云天励飞等都在使用这台机器。鉴于对鹏城云脑Ⅱ的大需求量,鹏城实验室正在考虑设计鹏城云脑Ⅲ,它的算力大约是鹏城云脑Ⅱ的16倍,能够进一步满足科学计算的超大算力需求。


中国算力网的挑战与展望

发展愿景和目标

中国算力网(China Computing NET, C2NET)建设的愿景是:像建设电网一样建设国家算力网,像运营互联网一样运营算力网,让用户像用电一样方便地使用算力。为了达成以上愿景,中国算力网建设的主要目标包括:构建自主创新的算力网络技术体系,建成覆盖国家超算中心、智算中心、数据中心等大型异构算力中心互联互通、高效协同的国家级算力网络基础设施,推动实现算力供给模式的变革。

中国算力网面临的若干挑战

第一,网络挑战。算力中心分散在全国各地,通过“超高压”的远程高速通信,让所有算力网节点实现异构算力资源的共享,亟须突破超宽带、超低延迟的网络连接,比如带宽达到100 Tbit/s 以上、延迟每200公里不超过1毫秒;多芯光纤、相干光通信、波分复用等是可能的突破技术。

第二,算力多样性挑战。集中的大型云算力节点(CPU集群)、智算中心节点(GPU集群)、超级计算机节点(混合集群)、分散的边缘节点(嵌入式设备),亟须实现异构节点直联互通。

第三,芯片和指令系统的异构挑战。底层芯片异构,提供CPU的包括Intel x86、AMD、ARM英伟达、摩尔线程、天数智芯等不同厂商;AI芯片异构,来源包括华为NPU、英伟达GPU、寒武纪MLU、海光DCU、平头哥含光NPU等厂商。不同芯片厂商对异构算力中心的统一适配和调度的研究和开发意愿低,而倾向自治管理。如何获得底层芯片厂商的支持,实现算力中心的统一适配与调度是一大挑战。

第四,运营商各自为战的挑战。网络运营商专注于用户体验和效益,不同企业之间难以互通,算力网络建设期投入量大但产出滞后,如何提升企业意愿也是一大挑战。

算力网鹏城探索(C2NET-0.1)

在国家发改委的部署与支持下,鹏城实验室于2019年启动中国智算网建设预研项目,研发了兼容多种异构AI芯片的核心软件栈与分布式调度平台,建设经费达3.5亿元。2022年6月完成验收。集合的算力总量为超过2.3E半浮点精度的运算能力。

2021年12月,人工智能产业技术创新战略联盟(AITISA)正式成立智算中心和智算网络专题组,统筹推进智算中心和智算网络的标准化研制工作。鹏城实验室联合多家单位在智算专题组提出了《人工智能算力网络》系列标准规划(见图5),截至目前共提交了5份技术提案,7份需求提案。将不同的异构的智能算力分为不同层次进行标准化,方便封装、数据定义和资源的统一调配。

算力网络异构互联技术也在快速发展。鹏城实验室正在考虑采用高速、超宽带、低延迟的专用网络实现机器节点的之间的连接。例如在鹏城云脑和广州超算开展10 TB的全光网络互联;鹏城云脑与济南超算SD-WAN互联,鹏城云脑与中科大类脑MPLS互联。同时开展基于全光网络的360公里长距离WRDMA传输技术研究,为实现全国算力中心互联“大交换机”提供支撑。

节点间超宽带低延迟通信是目前主攻的技术,目前在实验室里已经可以做到超过100 Tbit/s 的带宽,超过2000公里传输距离的实验。未来在中国算力网1.0和2.0,预计可实现“东数西算”所有集群节点间的100 Tbit/s直连通信。所谓直连,就是光纤从一个点直接连接到另外一个点,中间可能会有一些放大,但是没有路由器的交换,因此中间的延迟是可控的,不仅有带宽的保障,并且延迟非常低。


中国算力网一期规划

中国算力网一期规划(C2NET-1.0)的时间是从2022年7月至2025年12月,项目得到了国家科技部的支持,现在正在推进和实施,其总体建设目标包括三项内容(见图6)。第一,算力汇聚,构建不同节点的高速网络互联,研制云平台,实现算力的统一运维管理与弹性分配,为大模型提供可以跨节点分布学习的超级算力网络。第二,资源汇聚,集合最全的公共数据资源,实现不同节点间公共数据、模型等资源的安全开放、拉通共享、可信流动。第三,自生态汇聚,构建最强的生态聚合平台,实现不同节点间模型能力统一开放,共享不同节点间的应用创新成果,运营以智算网络为底座的开源社区。


总结

如同从电力跨越到电力网,算力网是算力基础设施发展的必然趋势,通过算力的弹性调配实现应用程序在异构跨算力中心高效执行。在此目标的引领下,算力网的建设会带动一批核心关键技术的突破,包括异构算力资源的标准化封装,以及算力节点的超宽带低延时通信等,使我国在算力技术上率先进入无人区。未来,鹏城实验室将按照国家发改委和科技部的要求,联合国内各方战略科技力量,全力推动中国算力网的研发与建设。

来源:CNCC2022特邀报告

作者:高文



展开阅读全文

页面更新:2024-02-19

标签:中国   鹏程   同构   节点   数据中心   数据   资源   技术   中心   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top