刚刚！DeepSeek V4 技术架构曝光！梁文锋署名

DeepSeek V4春节左右发布，未见其人先闻其声，最近围绕V4的消息满天飞，深度求索公司是懂营销的。

今天凌晨，梁文锋署名的最新论文里，给Transformer加了个外挂，叫：条件记忆（Conditional Memory）。有啥用呢？论文的结论告诉我们：这是下一代稀疏模型，不可或缺的技术组件。

这篇论文在科技界引发了热议，技术含量是非常高的。

一、现在的大模型靠“算”

现在的大模型有个挺尴尬的问题，就算认个人名都是靠“算”的，它记不住。

比如“Diana, Princess of Wales”（戴安娜王妃），模型要用6层神经网络才能认出来。前几层还在那儿琢磨“"Wales是英国一个地区吧”“Princess of Wales好像是个头衔”，绕了半天弯子，最后才反应过来：哦，这说的是戴安娜王妃啊！

这就好比你问一个人“认识马云吗”，他得先想“马是一种动物”“云是天上的水汽”“马云……让我算算……”，费半天劲才想起来这是阿里巴巴创始人。

问题出在哪儿？Transformer架构本身没有“查字典”的能力。它只会算算算，用昂贵的计算资源去重建一个，本该直接查表就能搞定的问题。那些用来推理的算力，被白白浪费了。

二、回到最原始的方法：查表

DeepSeek的解决方案很简单：既然查表快，那就给模型配个超大词典。

他们用了传统的N-gram方法，建了个记忆库，专门存那些固定的实体名称、常见短语。不管词典多大，查起来都是O(1)的速度，秒查。

听起来很复古对吧？N-gram可是前深度学习时代的老技术了。但DeepSeek解决了它的两个致命问题：

存储爆炸：传统N-gram要存所有可能的词组组合，128k词表的话，光3词组合就有128k³种，根本存不下。DeepSeek用哈希函数映射，把无限可能压缩到固定大小的表里。

多义性问题：同一个词在不同语境下意思不同怎么办？他们加了个“门控机制”，让模型自己判断：这个查到的内容跟当前上下文匹不匹配？不匹配就自动屏蔽。

三、意外的发现：推理能力也变强了

按理说，加个记忆模块，应该只是让模型记东西更牢吧？结果实验数据让团队自己都意外了。

知识类任务提升是预期之内的：MMLU提升3分，CMMLU提升4分。但推理和代码能力的提升幅度更大：BBH提升5分，代码任务HumanEval提升3分，数学题MATH提升2.4分。

为什么？因为模型不用再把算力浪费在“认人名”这种琐事上了。原本需要6层才能完成的识别任务，现在1-2层就搞定，省下来的4-5层网络深度，全用来干更复杂的推理。

这就像给学生配了本字典，他不用每次遇到生字都去查部首、数笔画，省下来的时间可以用来思考更难的数学题。

四、记忆和计算的黄金比例

团队做了个有意思的实验：固定总参数量，在MoE专家和Engram记忆之间调配资源，看哪个比例效果最好。

结果画出了一条U型曲线：纯MoE不是最优解，把20%-25%的稀疏参数分给记忆模块时，模型表现最好。

这说明一个道理：记忆替代不了计算，计算也模拟不了记忆。两者得配合着来。

在27B参数规模的实验里，混合了Engram的模型，在几乎所有任务上都碾压同规模纯MoE模型。更夸张的是，当他们把记忆参数扩到40B时，模型还在持续进步，说明记忆容量还没到上限。

不得不说，DeepSeek这篇论文，将对大模型行业有重要的影响。在工程优化方面，中国科技团队确实已经遥遥领先了，相信在春节前后，全世界将会再次惊叹于DeepSeek V4，以及深度求索公司的超凡实力。

神秘的东方力量，再次震撼世界，让我们拭目以待。

展开阅读全文

更新时间：2026-01-14

标签：科技架构技术梁文锋模型记忆深度论文词组稀疏王妃团队参数能力

1 2 3 4 5

刚刚！DeepSeek V4 技术架构曝光！梁文锋署名

AI应用大爆发！指数怎么投？

联想moto X70 Air Pro DXO评分出炉：164分并列第六 6.99mm影像旗舰！

高露洁牙膏称能让“牙缝填上”，博主发帖“打假”

超跑级先锋设计旗舰荣耀Magic8 RSR保时捷设计定档1月19日

用户反馈亚马逊强推AI助手Alexa Plus，回退旧版遭广告轰炸

雷来了，白天涨停，晚上发终止上市公告，今天还出得来吗？

白银大崩盘！单日暴跌12%，46年最大振幅，散户一夜爆仓！

大跳水！利润暴降16.27%！收割中产的“国产葡萄酒一哥”熄火了？

【财经早餐】2026.01.13星期二

谁在“谎报”爆款基？被称“单日吸金120亿”的这只基金紧急宣布限购

1.13利空公告汇总！40+股遭减持+违规处罚，这些股务必警惕

经纬早班车｜特朗普称对伊朗所有贸易伙伴征收25%关税；英国以“最高优先级”调查社交平台X

拆迁全面停止了？今年开始，这5类房子或“全拆重建”，提前恭喜

小盘股春天来了！连续七天跑赢标普500 创七年最长纪录

新年伊始之际，国家一口气出了两个文，释放了怎样的信号和态度？

一周资讯｜青岛啤酒两项科技成果获得权威认证

扫地机器人长出双腿？石头科技CES2026又出新花样！

无人机黑马闯入大疆核心地后，却遭全面压制，动了巨头技术

通富微电、长电科技等10个半导体封测项目迎来新进展

睡了等于没睡！长期这样睡觉的人，会导致记忆力下降、全身

LPDDR6来了！芯动科技LPDDR6子系统IP实现头部客户交付

汉桑科技：公司现有技术可应用于商业航天领域

万里扬：目前公司正在积极开展与多家国内主流人形机器人

顶尖大佬坦白局，只会聊天的大模型没戏了？

东方雨虹：公司坚持以科技创新推动绿色低碳可持续发展