狂欢仅24小时！里约Rio3.5零训练零数据，竟是两款模型硬凑产物

大模型刚出来那两年，大家开过这类玩笑，会不会我们以为在跟AI聊天，实际屏幕那头是个印度老哥在帮你搜维基百科。

2026年了，大模型的性能不断进步，已经没有人质疑这件事了。但是居然真有人参考这个方法论，抄了个升级版。而且干这事的，还是巴西里约热内卢市政府。

南半球AI崛起了？

6月12日，里约市政府下属IT公司IplanRIO，在全球最大的AI模型平台HuggingFace上发布了一个叫Rio 3.5的开源大模型。

这个模型自称是3970亿参数。参数可以理解为模型的脑细胞，越多越聪明。那3970亿是什么概念？阿里通义千问最新一代Qwen 3.5是3970亿，DeepSeek V3是6710亿，整个地球上开源模型达到这个级别的，也没多少。而且IplanRIO宣称Rio 3.5的跑分超越了Qwen 3.7 Plus。

HuggingFace的CEO Clem Delangue亲自发推点赞，称其为「开源AI民主化的范例」。海外社区都炸了，疯狂表扬这个模型，体验后发布了各种量化版本、部署教程。

里约市长Cavaliere也发了推文，暗示这是市政项目成果。

但是有一个问题似乎被忽略了，3970亿这个级别的参数后训练，在算力上至少需要上千万美元，一个市政府IT部门哪来的钱？

狂欢持续了不到24小时。

上海有一家叫Nex-AGI的开源联盟，专门做大模型的后训练和开源发布。他们在今年6月2日刚刚发布了一款旗舰模型叫Nex N2 Pro，刚好也是3970亿参数、MoE架构。

6月13日，团队工程师就刷到了HuggingFace CEO那条推文，顺手去看了Rio 3.5的权重文件。

如果把模型看作奶茶，权重可以理解为奶茶中茶叶、糖、水等等原料的配比。这个配方决定了模型怎么进行思考、推理。

Nex的工程师越看越不对，巴西这个Rio 3.5的推理逻辑、措辞习惯，和他们的N2 Pro高度一致。

当晚，Nex团队在X和GitHub上同时发了声明：巴西的Rio 3.5不是原创模型，是合并产物。推文浏览量迅速冲到11.1万。

证据公开，打脸时刻

Nex在GitHub 里公开了两个证据，同时把验证脚本开源，任何人都可以复现。

第一个证据：身份测试。

如果问豆包，你是谁？

豆包会回复：我是豆包，是字节跳动基于豆包大模型基座独立研发的模型。

这就是AI模型出厂时自带的系统提示，相当于给它一个工牌。

Rio 3.5的提示写的就是「你是Rio」。

Nex的工程师把这个系统提示删掉，然后问了它120次：你是谁？

其中，79%的回答是"I am Nex, from Nex-AGI”，没有一次回答出：我是Rio。它甚至逐字复述了N2 Pro训练数据里写死的关于上海创智学院、生态联盟的组织背景故事介绍。

第二个证据：权重对比。

Nex对Rio 3.5全部60层网络的每一个权重张量做了元素级数学比对。结果：Rio 3.5的每一个权重，都精确等于0.6乘以Nex N2 Pro加上0.4乘以Qwen 3.5。

可以简单的理解为，六成抄了Nex，四成抄的阿里Qwen。

Nex的报告给出结论：真正经过训练的模型，不可能被解释为这么干净的线性插值。训练的痕迹一定是乱的、不均匀的、带噪声的。只有一种操作能做到60层网络每个数字都精确落在0.6和0.4这条直线上，那就是用合并脚本直接跑出来的四则运算，零训练，零数据，零算力。

权重就像是指纹，每个模型都在张量中携带自己的血统。没办法像洗钱一样洗模型，因为数学会记得。

道歉了，又没完全认错

证据公开后，IplanRIO更新了HuggingFace模型卡，承认Rio 3.5是Nex N2 Pro和Qwen 3.5的合并版本，表示深感抱歉。然后说，他们不是简单的合并，而是做了On-Policy Distillation（在策略蒸馏），只是上传错了版本。蒸馏版很快上传。

截至发稿，四天过去，蒸馏版还没有发出来。

北京时间6月16日10点，IplanRIO发布了一个声明，承认上传的是未经最终验证的中间检查点。原始检查点已被删除，新版本要等完成训练和外部验证再说。

抄袭还是蒸馏？

这里要先讲清楚两个概念的区别。

模型合并，只改了权重。把A模型和B模型的参数按一定比例做数学平均，像是选奶茶的一分糖、三分糖、五分糖。不需要训练数据，几行脚本就能搞定。但也正因为这是固定的、简单的加减乘除算法，权重里会留下精确到小数点后三位的数学痕迹，很容易被发现。

知识蒸馏，相当于让一个模型当老师，问它海量的问题，再给另一个模型学习它的问题和回答。学生学会了老师的答题思路，但卷子上每一笔还是自己算出来的。

目前，开源模型的蒸馏是允许的，所以Rio被抓后拼命往蒸馏上靠。

过去三年，蒸馏之争一天没消停。

2025年，OpenAI向美国国会指控DeepSeek蒸馏GPT。2026年，Anthropic甩出报告：2.4万个虚假账户对Claude发起1600万次交互，点名DeepSeek、月之暗面、MiniMax。

讽刺的是，Allen AI研究员Nathan Lambert当场拆台：Claude Sonnet就是靠蒸馏Opus训出来的，Anthropic一边薅全网数据，一边骂别人蒸馏。

Rio被发现，是因为连蒸馏都懒得做，属于最「笨」的操作。

实际上，现在行业内的大模型都在互相蒸馏，「聪明贼」建虚假账户、伪装地理IP、混进正常流量、千万次交互等等各种方法。

模型和模型之间的差距，从架构的差距，变成了数据的差距。

语言数据这层，能蒸馏、合成，最后可能就变成所有的模型都说一样的话、犯一样的错。拉不开差距。

未来更关键的，是行为数据，也就是用户在产品里怎么用、干什么、用完做了什么决定。这种数据在终端上，没法蒸馏。

等语言模型这层彻底拉不开差距，行业洗牌的时候，最强的会是谁呢？

展开阅读全文

更新时间：2026-06-22

标签：科技里约产物模型小时数据权重豆包证据巴西差距参数张量

1 2 3 4 5

狂欢仅24小时！里约Rio3.5零训练零数据，竟是两款模型硬凑产物

深夜终端突现红字警告！程序员被AI当成黑客审问，细思极恐

航天产业为老区发展注入新动能（老区新事）

大模型收费，合理吗？（读者点题·共同关注）

让钢铁实现个性化、定制化生产（产业里的年轻人）

美国断供C919发动机1年后，全世界才发现，中国早造了一台更好的

精彩继续！安全月大片第二波！

遇见小面诉“渝见小面”后续：全国多地面馆被诉侵权，有门店倒闭数月后仍收到法院传票

330亿油气巨头正式摘帽！6月23日恢复10%涨跌幅

俄媒揭底：中国真正的王牌不是稀土，美欧最忌惮的其实是这张牌

德国总理站出来，呼吁27国联手，用美国搞垮日本那套，来对付中国

国运垂青有准备的人：百年变局的关键筹码，中国还没禁运，西方已吓破了胆

需要注意的是，比新生儿跌破800万更可怕的，是男孩越来越多了

父亲节特辑｜直击东航爸爸超治愈带娃日常

独生子女证成废本了？2026年最新消息：这几类家庭依旧有用！

高考结束变“清算”？千万别被 “托举” 绑架，父母血汗不是提款机

大模型收费，合理吗？（读者点题·共同关注）

618最后28小时终极抄底：6月17日晚8点开抢（20:00）全品类优

太阳报：巴西最性感球迷晒比基尼照为桑巴军团助威，粉丝彻

从8000到9200：澜起科技RCD06的“代际跨越”并非数字游

中美俄飞船载重差距明显：美国3.3吨，俄2.5吨，中国令人意外

100万颗卫星！SpaceX要建轨道数据中心，太空散热是最大物

AI大模型发现了人类从未想到的纳什均衡算法，中国团队取

从300元到34元，通策医疗与胜宏科技，两种不同的市场定价

女演员长相多重要？看31岁白鹿和27岁王楚然对比，差距显而

让科技的种子落地生花（活力中国调研行）