千万年薪大佬出手!小米这波操作,治好了大模型的“精神分裂”

在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容

|昕昕

前言

AI圈又出大瓜+硬核成果双buff事件!

先给不明觉厉的宝子们划重点:那个被雷军砸千万年薪抢的95后"天才少女"罗福莉,带着小米和北大搞出了篇大论文,直接给AI模型的"训练崩溃症"开了副特效药。

AI大神的贡献

先唠唠这事儿的前情提要:去年年底罗福莉凭一己之力冲上热搜,毕竟“千万年薪挖AI大神”这剧本比爽文还刺激。

虽然小米和她本人至今没官宣"入职成功",但这篇论文里她挂了通讯作者,这波操作懂的都懂——妥妥的"虽未官宣,但已上岗",雷军这钱花得明明白白。

咱再说说这篇论文到底解决了啥世纪难题,现在的大模型都爱搞"MoE架构",说白了就是给AI组建个"专家天团",不同问题派不同专家解决,既省钱又高效。

但坏就坏在这"派活机制"(路由机制)太矫情,训练时和干活时(推理)完全两幅面孔,跟得了"精神分裂"似的。

训练时AI派专家A解数学题,到了实际推理突然改派专家B,俩专家思路南辕北辙,结果要么算错答案,要么直接"死机"(训练崩溃),之前行业都是搞"头痛医头",比如把差异大的数据扔了,但治标不治本。

罗福莉团队搞出的R3方法,简直是给AI来了个"行为矫正"。

核心思路特简单:让AI干活时记好"派工单"(路由分布),下次训练直接照着这张单子派活。

这招有多神?数据说话才靠谱:用了R3之后,训练和推理的"行为差异度"(KL散度)直接砍半,从1.5×10⁻³降到7.5×10⁻⁴,快赶上最稳定的稠密模型了。

那些离谱的错误答案(极端token)直接少了90%,相当于学渣突然有了学霸的准确率。

更绝的是它的"稳定性buff",以前没R3的时候,模型训练到60步就崩了,加了临时补丁(TIS)也撑不过105步,跟个玻璃心似的。

现在加了R3,全程稳如老狗,不管怎么折腾都不崩盘,简直是AI界的"稳压器"。

做题能力也直接开挂!10万道数学题实测,单步更新场景里,加了R3的模型比原版高了快10分,这差距堪比高考多蒙对两道大题。

不过有个小插曲:R3和TIS这俩buff不能叠,叠了反而掉分,只能说"最强的buff不需要搭档"。

对了,这招还特适合AI"打工人"(Agent任务),比如让AI帮你写代码、刷网页,它得记着之前干了啥吧?

R3能把之前的"派工单"存起来重复用,不用每次都从零开始算,效率直接拉满,这不比老板画的饼实在多了?

结语

罗福莉这波操作,相当于给MoE模型的"精神分裂症"找到了根治方案,既稳又能打。

雷军这千万年薪没白花,毕竟能让AI从"玻璃心学渣"变"稳坐学霸",这性价比简直了。

至于罗福莉到底入职没?论文都联名了,这不比官宣管用?只能说小米这波"闷声干大事",在AI赛道上又悄悄领跑了一步。

展开阅读全文

更新时间:2025-10-18

标签:科技   大佬   精神分裂   小米   年薪   出手   模型   操作   专家   论文   大神   路由   这不   思路   头痛医头

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top