刚刚!DeepSeek V4 技术架构曝光!梁文锋署名

DeepSeek V4春节左右发布,未见其人先闻其声,最近围绕V4的消息满天飞,深度求索公司是懂营销的。


今天凌晨,梁文锋署名的最新论文里,给Transformer加了个外挂,叫:条件记忆(Conditional Memory)。有啥用呢?论文的结论告诉我们:这是下一代稀疏模型,不可或缺的技术组件。


这篇论文在科技界引发了热议,技术含量是非常高的。



一、现在的大模型靠“算”


现在的大模型有个挺尴尬的问题,就算认个人名都是靠“算”的,它记不住。


比如“Diana, Princess of Wales”(戴安娜王妃),模型要用6层神经网络才能认出来。前几层还在那儿琢磨“"Wales是英国一个地区吧”“Princess of Wales好像是个头衔”,绕了半天弯子,最后才反应过来:哦,这说的是戴安娜王妃啊!


这就好比你问一个人“认识马云吗”,他得先想“马是一种动物”“云是天上的水汽”“马云……让我算算……”,费半天劲才想起来这是阿里巴巴创始人。


问题出在哪儿?Transformer架构本身没有“查字典”的能力。它只会算算算,用昂贵的计算资源去重建一个,本该直接查表就能搞定的问题。那些用来推理的算力,被白白浪费了。


二、回到最原始的方法:查表


DeepSeek的解决方案很简单:既然查表快,那就给模型配个超大词典。


他们用了传统的N-gram方法,建了个记忆库,专门存那些固定的实体名称、常见短语。不管词典多大,查起来都是O(1)的速度,秒查。



听起来很复古对吧?N-gram可是前深度学习时代的老技术了。但DeepSeek解决了它的两个致命问题:


存储爆炸:传统N-gram要存所有可能的词组组合,128k词表的话,光3词组合就有128k³种,根本存不下。DeepSeek用哈希函数映射,把无限可能压缩到固定大小的表里。


多义性问题:同一个词在不同语境下意思不同怎么办?他们加了个“门控机制”,让模型自己判断:这个查到的内容跟当前上下文匹不匹配?不匹配就自动屏蔽。


三、意外的发现:推理能力也变强了


按理说,加个记忆模块,应该只是让模型记东西更牢吧?结果实验数据让团队自己都意外了。


知识类任务提升是预期之内的:MMLU提升3分,CMMLU提升4分。但推理和代码能力的提升幅度更大:BBH提升5分,代码任务HumanEval提升3分,数学题MATH提升2.4分。


为什么?因为模型不用再把算力浪费在“认人名”这种琐事上了。原本需要6层才能完成的识别任务,现在1-2层就搞定,省下来的4-5层网络深度,全用来干更复杂的推理。


这就像给学生配了本字典,他不用每次遇到生字都去查部首、数笔画,省下来的时间可以用来思考更难的数学题。


四、记忆和计算的黄金比例


团队做了个有意思的实验:固定总参数量,在MoE专家和Engram记忆之间调配资源,看哪个比例效果最好。


结果画出了一条U型曲线:纯MoE不是最优解,把20%-25%的稀疏参数分给记忆模块时,模型表现最好。


这说明一个道理:记忆替代不了计算,计算也模拟不了记忆。两者得配合着来。


在27B参数规模的实验里,混合了Engram的模型,在几乎所有任务上都碾压同规模纯MoE模型。更夸张的是,当他们把记忆参数扩到40B时,模型还在持续进步,说明记忆容量还没到上限。


不得不说,DeepSeek这篇论文,将对大模型行业有重要的影响。在工程优化方面,中国科技团队确实已经遥遥领先了,相信在春节前后,全世界将会再次惊叹于DeepSeek V4,以及深度求索公司的超凡实力。


神秘的东方力量,再次震撼世界,让我们拭目以待。

展开阅读全文

更新时间:2026-01-14

标签:科技   架构   技术   梁文锋   模型   记忆   深度   论文   词组   稀疏   王妃   团队   参数   能力

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号

Top