编辑丨&
随着 AI 模型的规模和使用范围的增长,电子芯片的性能上限和能耗障碍问题逐渐凸显。如今,计算机晶体管的性能趋于稳定,计算力的需要几乎把电子硬件的性能压榨到极限。
为了实现更可持续的未来,基本的数据处理硬件需要彻底改革。在过去的数十年中,光子学研究探索了张量运算,为 AI 发展打下了基础。区别于电子芯片(晶体管)的性能不足,现如今满足了芯片互连的光子集成电路展示了其高效而稳定的潜质。
最近,国内外两家光子计算初创公司各自在同一期《Nature》上发布了他们的研究成果。
通用光子 AI 加速
光子计算机芯片开发商 Lightmatter,他们的研究「Universal photonic artificial intelligence acceleration」于 2025 年 4 月 9 日发表在《Nature》,文中提出了一种通用光子 AI 处理器。
论文链接:https://www.nature.com/articles/s41586-025-08854-x
该处理器在高级任务上实现了接近 32 位数字浮点系统的精度,即使不需要微调和量化感知训练等高级技术,也能验证其计算完整性。它能够承载最先进的神经网络,包括 transformers、卷积网络分类和分割以及强化学习算法。
处理器的设计在于将六个芯片集成在一个封装中,在垂直排列的光子张量核(PTC)和控制芯片之间使用高速互联通路,从而实现 AI 计算的高效率和可扩展性。
图 1:四核光子处理器。(图源:论文)
在处理器的架构中,RISC 控制代码和设备指令集架构,ISA 通过 PCIe Gen4 x16 总线从主机系统传输到 RISC 内核和专用硬件指令定序器的可共享内存。
该系统使用双缓冲权重来维持不间断的数据流,从而在 MVP 计算期间实现新权重的连续流式处理。这种统一的缓冲区可以跨越控制芯片并管理多个并发内部传输,处理速度达到 2,048 GB/s。
图 2:处理器功能和执行模型。(图源:论文)
执行任务子集时,对于线性和卷积模型,尤其是 ResNet18,即使数据集复杂性增加,也能达到与数字 FP32 平台相当的精度水平;对于分类任务,光子处理器始终表现良好,而处理回归任务时的性能略有下降。
这项工作代表了 AI 光子计算的重大进步,可在复杂的、非标准化的 AI 模型上实现接近数字级别的精度和性能。光子计算的能效随张量核心的大小呈非线性变化,较大的核心提供更高的效率。这里 Lightmatter 团队仅提供了一种研究思路。
超低延迟的集成大规模光子加速器
相较于现在的电计算,光的一大优势就是极低的计算延迟。曦智科技(PhotonEra)在四年前于该领域有了技术突破,推出了一种由 16,000 多个光子元件组成的大规模集成光子加速器。
该光子加速器提供了大小为 64 的标准线性矩阵乘法累加(MAC)功能,实现高达 1 GHz 频率的高速计算和在特定算法下低至每周期 3 ns 的延迟。
该研究以「An integrated large-scale photonic accelerator with ultralow latency」为题,于 2025 年 4 月 9 日开源在《Nature》。
论文链接:https://www.nature.com/articles/s41586-025-08786-6
随着规模的扩大,电计算中的延迟会呈线性增长,相比之下光计算中的延迟对矩阵尺寸的变化并不敏感。
光程长度随矩阵大小线性缩放,与数字电路中的延迟相比,来自时钟周期等因素的影响仍然可以忽略不计。这种对比突出光子加速器在高吞吐量和超低延迟环境下的适应力。
图 3:启发式递归算法的延迟比较和原理。(图源:论文)
为了支持相当大尺寸的矩阵运算与兼顾高集成和一致器件性能,光子计算引擎(PACE)被开发出来。建立一个矩阵大小为 64 的 oMAC 系统,需要不止一万个光学元件与引脚,因此 PACE 采用了 3D 堆叠封装保证器件控制。
在 Ising 问题所代表的典型 NP 完全优化问题中,PACE 系统可以进行有效的解决。原型系统中演示了关于图形最大切割问题的解。
系统 SNR 通过模拟域中激光功率与 TIA 增益的不同配置等进行调谐,以求有效收敛到最终解决方案。PACE 系统通过随机初始状态动态演变,最终收敛到与目标图像相对应的解。
图 4:系统中配置的两个 Ising 模型。(图源:论文)
在两个演示模型中,收敛率可以达到近 100%。这表明 PACE 系统的计算延迟可以达到至少 5 ns。在商用高端 NVIDIA A10 GPU 上运行相同的工作负载时,单次迭代比 PACE 慢了近 500 倍,延迟超过 2300 ns。
曦智团队成功实现了基于商用硅光子技术的高度集成的 64 × 64 光子加速器系统,系统的平均位精度为 7.61 位,并展示了在超低延迟下解决最大切割问题的应用。
光子技术的合作与发展
不久前曦智科技在最新的光子计算卡天枢发布会上,提出「等效光算力」 EOPP,整合了峰值算力、精度和权重刷新频率等影响因素。精度体现了在更大范围的实用性,权重刷新频率则体现了可编程性,相较于单纯的 TOPS,将 EOPP 作为衡量标准对于客户的应用价值更大。
对于 EOPP,曦智科技孟怀宇博士举了一个例子:在实际模型运行的过程里,如果速度,即刷新频率不够高的话,可能就没有办法运行整个模型,不能只通过衡量峰值算力来评判其价值水平。
科研人员在专业范围内的认知也有共通之处。Lightmatter 在论文的补充材料中也提到了类似曦智科技的 EOPP 的一个概念,糅合了他们觉得足以评判性能的参数。
图 5:曦智科技最新光电混合计算卡「天枢」(图源:曦智科技)
两相对比,双方的技术开发水平相近而互有侧重。Lightmatter 凭借精度与带宽在大规模科研环境与通用模型的环境中更加吃香;选择更加灵活且采用光电TSV 封装的天枢系统集成度更高,可以承载更复杂的模型任务,凭借低延迟占据上风。
国内外的光子研究进度趋于相近,但因为电子计算的生态环境不同,光子计算在我国的发展前景极佳,下一步的方向可能会逐步添加环境适配,加入光互联技术等,适应大模型的需求。
在采访中,曦智科技告诉 ScienceAI,未来计算系统的主流方式可能会是光电深度融合。鉴于电计算的算力越来越难以提高,光计算将会改善算力提升方面的疲态。光芯片也会大大提高芯片互连速度,数据传输与矩阵计算的部分将会助力整个光电混合体系在未来的发展。
可以预见的是,未来将会是多重计算范式共存的时代。光子计算已经酝酿了几十年,《Nature》同期刊登两家科技公司的成果也在暗示着光计算的时代即将到来。这些演示可能意味着人类将要利用光来构建更为高效节能的计算系统。
更新时间:2025-04-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号