1月12日晚,DeepSeek与北京大学联合发布论文《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》,提出全新的“条件记忆”架构,有望成为下一代稀疏大模型的核心原语。
论文指出,当前Transformer架构在处理静态知识检索时需低效重复计算,浪费算力。团队为此引入条件记忆模块Engram,实现神经计算(MoE)与静态记忆的优化分工——让专门模块分别负责推理与知识存储,显著提升效率。
研究发现,采用Engram的混合稀疏分配严格优于纯MoE基准,在通用推理、代码和数学任务上表现尤为突出。论文已开源该记忆模块。
业内分析,此项研究或为即将发布的DeepSeek V4奠定技术基础。此前消息称V4有望在春节前后亮相,并在编程能力上超越当前顶级模型。DeepSeek对此未予置评,但新论文的发布已引发行业高度关注。
来源:第一财经
图片:百度
投稿及建议,请发送邮箱:jinzhaonews@126.com
商务合作请联系:18910159522 (同微信)
更新时间:2026-01-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号