文|ho侯神
编辑|ho侯神
要知道,平时我们刷短视频不卡顿、AI生成图片秒出、基站保障千万人通话,这些日常里的舒服体验,全靠“算力”在背后撑着。
但很少有人知道,全球算力这块儿,长期被国外的数字计算技术攥在手里,不仅技术上卡脖子,还存在个大问题。
要处理基站信号、AI大模型训练这些活儿,得解特别复杂的“矩阵方程”,可传统数字计算的办法又慢又费电,就连国外顶级GPU处理个128×128的矩阵,居然也要整整一天。
全球科学家卡了几十年的“世纪难题”还在这儿摆着,中国北京大学的团队突然拿出了新芯片,不仅让模拟计算精度追上数字计算,算力还比国外顶级GPU超了千倍,这芯片到底咋打破国外垄断的?
要明白这芯片的厉害,得先搞懂算力领域的“卡脖子”到底卡在哪,不管是基站处理信号,还是AI大模型调参数,本质上都是在解“矩阵方程”,就是把海量数据排成矩阵,再算出结果。
过去这么多年,行业全靠“数字计算”干这活儿,而国外企业在高端数字处理器上搞垄断,咱们想用好算力,就得看人家脸色。
可数字计算的短板太明显了,为了算得准,得把数据拆成一个个小单元慢慢算,不仅费时间,能耗还高得吓人。
有数据说,一座大型数据中心光处理AI训练,每年耗电量就抵得上一个中等城市的居民用电,随着数据量越来越大,数字计算的“效率天花板”也越来越明显。
国外顶级GPU处理128×128的矩阵方程,要花24小时,这对需要实时响应的5G通信、自动驾驶来说,根本不够用。
这时,“模拟计算”重新被盯上了,它不像数字计算那样“逐个算”,而是像电流在电路里一起流那样,靠器件物理特性并行运算,理论上又快又省电。
可问题是,全球研究了几十年,就是跨不过那道坎,想让模拟计算算得准,就处理不了大规模任务,想处理大任务,精度就掉下来。
比如国外有团队做过模拟芯片,处理小规模数据还行,矩阵一超过32×32,误差就飙到1%以上,根本没法用在通信、AI这些对精度要求高的领域。
也正因为这样,国外才敢稳稳攥着数字计算的霸权,他们觉得,模拟计算永远破不了这个局。
而就在国外团队盯着“单一优化”钻牛角尖时,北京大学人工智能研究院的孙仲团队,联合集成电路学院的研究者,走了条“融合创新”的路。
他们没只盯着器件升级,也没光优化算法,而是把“新型信息器件”“原创电路”“经典算法”凑在一起,像拼拼图似的严丝合缝,最后做出了“基于阻变存储器阵列的全模拟矩阵方程求解器”。
最关键的突破是,首次把模拟计算的精度提到了24位定点精度,这可是数字计算处理复杂任务的“标准线”。
可能有人不懂“24位定点精度”是啥概念,其实说白了就是误差特别小,处理16×16的矩阵时,经过10次迭代优化,相对误差能低到10-7量级,相当于算1亿次,误差还不到1次,完全够得上通信、AI的精度要求。
而做到这点,靠的是团队独创的“迭代算法+位切片”组合,先靠模拟低精度矩阵求逆,快速算出个“大概答案”,像画一幅画先勾轮廓。
再用“位切片”技术把数据按“位”拆开来,逐位精细调整,就像给轮廓填细节,慢慢把误差压到最低。
这种“三招联动”的思路,刚好避开了国外团队的误区,国外要么只升级器件,想靠新材料提精度,却没考虑电路能不能适配,要么只改算法,又忽略了硬件扛不扛得住。
孙仲团队从一开始就想明白了,要解决“精度和可扩展性”的矛盾,必须让器件、电路、算法“一起发力”。
比如他们选的阻变存储器,不仅能存数据还能直接运算,省了数据在“存储”和“运算”之间传输的损耗。
原创的电路设计,保证了并行运算时不会受信号干扰,再配上经典迭代算法,既够准又能处理大规模数据,就是这套“1+1+1>3”的办法,让咱们跳出了国外的技术框架。
一款芯片好不好,最终得看数据,孙仲团队公布的测试结果,每一项都在打国外顶级处理器的脸,精度上,16×16矩阵的24比特定点求逆能实现,10次迭代后误差低,不光超了所有模拟芯片,还跟国外32位数字处理器精度持平。
性能上,处理32×32的矩阵求逆时,这芯片单核算力已经超过国外高端GPU,等矩阵规模到128×128,计算吞吐量直接是国外顶级处理器的1000倍以上,说直白点,国外GPU干一天的活儿,咱们这芯片1分钟就搞定了。
更惊喜的是“能效比”,同样精度下,这模拟芯片的能效比传统数字处理器高100倍以上。
这意味着要是用它替换数据中心里的国外GPU,一座大型数据中心的年耗电量,可能从“中等城市规模”降到“小区规模”,企业能省一大笔电费,还能帮着实现“双碳”目标。
比如有通信企业算过,用这芯片处理大规模MIMO信号检测,原本要10台高端服务器跑24小时,现在1台搭这芯片的服务器1小时就完事,电费直接省了90%多。
实际应用测试也没让人失望,团队把芯片用在“大规模MIMO信号检测”上——这可是通信领域的核心活儿,直接关系到手机信号稳不稳、快不快。
测试结果显示,只需要3次迭代运算,芯片恢复的信号图像就和原始图像几乎一样,误码率跟32位数字计算的效果没差别。
要知道,5G基站对信号处理的延迟要求特别高,超过1毫秒就可能断通话,这芯片的快速响应,意味着以后咱们在高铁上、偏远山区,都能用上稳定的5G,甚至6G的“万物互联”,也能因为它来得更快。
10月13日,这项研究的论文发在了《自然·电子学》上,这可是电子领域的权威期刊,能上这儿,说明中国团队的突破得到了全球科学界的认可。
这打破了国外在“新型算力芯片”领域的话语权垄断,以前《自然·电子学》上关于模拟计算的论文,几乎全是国外团队的,还大多停留在“理论阶段”,而咱们不仅拿出了理论,还做出了能实际用、性能碾压的芯片产品。
国外媒体都评价说“中国团队把模拟计算从实验室概念变成了产业级方案,这会彻底改全球算力格局”以前国外企业靠数字计算垄断,不仅高端芯片卖得贵,还在技术转让上设各种门槛。
比如有国外GPU巨头,给中国企业供货时,不仅价格高,还不准用在科研突破上,现在咱们有了这款模拟芯片,相当于在数字计算之外,开了条全新的“算力赛道”。
以后不管是AI训练、基站建设,还是量子计算、自动驾驶,都不用再依赖国外数字处理器,靠自己的技术就能突破。
孙仲接受采访时说“我们证明了模拟计算能以极高效率和精度,解决现代科学和工程的核心计算问题”,这句话背后,是中国科技从“跟跑”到“领跑”的转变。
这芯片不光是“算力超国外千倍”,更给全球算力发展指了条“又多又省电”的路,现在数字计算能耗越来越高,模拟计算的低功耗优势,能帮人类摆脱“算力涨、能耗也涨”的怪圈。
未来咱们可能会看到,数据中心不再是“耗电大户”,AI设备能在手机、手表上高效运行,甚至太空探索的航天器,也能用低功耗的模拟芯片做复杂运算。
这背后是中国科研团队打破国外技术霸权的贡献,咱们不仅解决了全球几十年的难题,还打开了一个“算力无处不在、又绿色又高效”的新时代。
更新时间:2025-10-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号