深夜突袭！DeepSeek-R1 重磅升级：媲美 OpenAl 最高 o3 模型，编码能力直逼 Claude 4

大数据文摘出品

（重发）

5月28日凌晨，DeepSeek在Hugging Face 悄然上线了其更新版的 R1 模型。

此次更新并未更改名称，只在模型路径中标注“0528”以作区分。随后，官方微信公众号发布更新说明。

图源deepseek

官方称这是一次“minor update：小版本升级”，但社区反馈却指向另一种结论：在代码生成、长时推理、格式控制等任务上，这个版本的 R1 的能力已经“近乎o3级别”。

官方的口风也是：“整体表现上已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro。”

图注：推特网友在经典物理模拟测试中，对DeepSeek-R1新旧版本的对比

经国内微博用户实测：编码能力已经可以和Claude 4 掰手腕了。

但在另一方面官方也很坦诚：Tau-Bench测试中，与 OpenAI o1-high 相当，但与 o3-High 以及 Claude 4 Sonnet 仍有差距。

从 R1 到 R1-0528：推理能力的重点优化

从模型结构看，0528 没有变动。它依旧基于 DeepSeek V3 Base，685B 参数，没有像 OpenAI 的 GPT-4o 或 Google 的 Gemini 那样切入多模态。唯一的实质更新，是推理路径：更长、更细致、更像人在解题。

根据用户测试，在 LiveCodeBench 编程测试环境中，R1-0528 在多个任务上表现接近 OpenAI o3 High 模式接近。

图注：推特用户测试

其中一个变化出现在 AIME 2025 测试：新版准确率从 70% 拉到 87.5%。与此同时，模型平均为每道题写下 23 K tokens，几乎是旧版的两倍。官方解释称，这代表“更为详尽和深入的思考”。

同时，幻觉率同样被按下；在改写、摘要与阅读理解场景中，新版幻觉率下降 45%–50%。创意写作模块也被点名升级：议论文、小说、散文均可生成更长且结构完整的文本，风格更贴合人类偏好。

此外，DeepSeek 公开了对 Qwen3-8B Base 的蒸馏结果。仅 8 B 参数的衍生模型在 AIME 2024 上得分仅次于原版 R1-0528，超越同体量 Qwen3-8B 10 个百分点，逼近 Qwen3-235B。团队认为，“可以为学术界的推理研究和工业界的小模型开发提供思路”。

图注： DeepSeek-R1-0528-Qwen3-8B 等开源模型的 AIME 2024 对比结果

目前，这些模型均已上传至 Hugging Face，且标注为 MIT License，允许商用，也允许使用其输出结果进行模型蒸馏。

此外，此次发布不仅涵盖了权重、配置与模型文档，也同步上线了 App、官网及 API 调用服务，接口对开发者开放。

这是中国大模型厂商中，少数同时在算法、产品与授权层面做“全栈开源”的公司之一。

图注：示例为通过 LobeChat 使用 DeepSeek-R1-0528 的工具调用能力得到的网页文章总结

在产品层面，用户可通过“深度思考”模式直接体验新版R1 推理能力，在 App 或网页端完成任务调用。接口与调用方式和老版一样：API 接入方式为 model='deepseek-reasoner'，并提供明确定价策略：百万 tokens 的输入成本为 1 元（缓存命中）至 4 元（未命中），输出成本为每百万 tokens 16 元。

DeepSeek-R1-0528 模型权重下载请参考：

Model Scope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Huggingface:

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

关于Deepseek：争气的国产AI

今年，DeepSeek突然登上全球AI舞台。

它的聊天应用一度冲上苹果和安卓商店的榜首，背后的模型在多个基准测试中超越Meta Llama和OpenAI GPT-4o，吸引了华尔街分析师和硅谷技术官员的罕见一致关注。微软将其接入Azure，英伟达CEO称其“创新出色”。

DeepSeek起初并不做 AI 模型，它的母公司是量化基金“幻方投资”，创始人梁文锋是浙江大学出身的 AI 爱好者。2015年开始试水交易系统，2019年正式设立对冲基金。在量化交易中摸索多年的算法团队，成为日后DeepSeek模型训练的基础。

2023年，幻方成立DeepSeek Lab，作为科研独立体。彼时正值中国AI创业热潮复燃，百度、字节、阿里、MiniMax、月之暗面先后发布通用大模型。DeepSeek一开始就选了一条不一样的路：自建数据中心、强调计算效率，并迅速在一年内迭代三代模型。

DeepSeek V2于2024年春天发布，以“推理能力”突出出圈。相比同行更重堆参数、跑分的路径，DeepSeek强调模型在复杂任务下的“思考能力”。数学、物理、代码，正是V2和后续R1模型发力的重点。

V3版本上线于2024年末，DeepSeek宣称它在内测中超越了OpenAI的GPT-4o。2025年1月，DeepSeek-R1问世，定位为“reasoning model”。它在 Hugging Face 上以MIT协议发布，成为业内少见能商业化改造的高性能模型之一。

一方面，DeepSeek通过模型架构优化和训练效率提升，大幅压缩了推理成本。另一方面，它在市场价格上极为激进：不少模型免费开放、接口调用价格低于行业平均值，甚至迫使阿里、字节等国内玩家降价或免费开放部分模型。

这也引发了对其商业模式的质疑。截至目前，DeepSeek并未公开融资轮次，也尚未启动商业化路径。据接近公司人士透露，其运营主要依赖母公司幻方提供的算力和资金资源。相比依靠云厂商和VC支持的AI创业者，DeepSeek的路线更像是“实验室模式”。

这种不以盈利为目的的打法，引发了一系列连锁反应：2025年1月，受DeepSeek影响，英伟达股价单日下跌近18%；3月，美国政府多次点名DeepSeek，建议封禁；5月，微软在参议院听证会上明确禁止员工使用DeepSeek产品，理由是“数据安全”和“宣传内容风险”。

图注：来自抱抱脸联合创始人的认可

从社区反馈来看，DeepSeek模型的可用性极高。截至今年5月，开发者基于R1模型创建的“衍生模型”已超过500个，总下载量突破250万次。这种“实用主义开源”反而提升了模型影响力。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒级计费，平均节省开支30%以上！

扫码了解详情☝

展开阅读全文

更新时间：2025-12-05

标签：科技重磅模型深夜能力路径官方新版英伟版本测试用户阿里

1 2 3 4 5

深夜突袭！DeepSeek-R1 重磅升级：媲美 OpenAl 最高 o3 模型，编码能力直逼 Claude 4

图注：来自抱抱脸联合创始人的认可

小米辅助驾驶再迎大将，前一汽南京CTO陈光加入

618选空调看京东竞速榜：美的格力海尔稳坐TOP3

Builder.ai据称伪造与VerSe的交易以虚增销售额

国家邮政局：加快推进人工智能+邮政业标杆产品应用

今日要闻（2025年5月29日）

外界猜测“美俄关系生变”

青海省党政代表团来山东考察

山子高科上涨5.39%，报2.15元/股

纽约金属期货：5月29日09:30期金跌1.28%等

黄金突然直线跳水！

汽车早餐 | 华为向上汽转让“尚界”商标；曝雪佛兰退出中国进入倒计时；马斯克对特朗普税改法案成本“感到失望”

云南省防汛抗旱指挥部启动（调整）防汛应急响应

山西省启动公务差旅信息化管理试点工作

和讯投顾廖进勇：周四大盘是涨还是跌？地量之后能否有反转？

黄金突然直线跳水！

明确未来五年发展路径和目标甘肃打造国家向西开放战

重磅！樊振东有新动向！

洛杉矶FC附加赛取胜获得世俱杯名额，国际足联官方社媒发

科技赋能迎“六一”：三明市少儿图书馆变身童趣智慧乐园

汉威科技股价下跌3.70% 人形机器人产业加速发展

机器狗、实验秀亮相新疆阿克苏市青少年尽享科技盛宴

当端午邂逅六一：中国科技馆双节活动精彩纷呈

中国康复医学会2025年全国科技工作者日康复科普大会在

入校下乡进企！科技活动周共享“科技大餐”

刚刚！上交所重磅发布：上证580新指数问世！节后，A股怎么走？