刚刚！OpenAI 上线 o3-pro，性能碾压 Gemini 与 Claude，重新定义“最强模型”

大数据文摘出品

刚刚！OpenAI发布了它自称“迄今为止最强大”的模型：o3-pro。

——这是此前发布的推理模型 o3 的“加强版”。

o3-pro属于“推理模型”，它可以一步步拆解问题、逻辑严密地得出结论。这种能力使它在物理、数学、编程等严谨性要求较高的领域表现更为稳定可靠。

OpenAI宣称，在评估中，o3-pro在所有测试领域都优于基础版o3，尤其在科学、教育、写作辅助、商业分析和编程等领域，获得了评审的一致好评。它不仅在准确性、清晰度、全面性上表现更强，还更擅长理解复杂指令。

目前，o3-pro已经上线：

ChatGPT Pro 和 Team 用户已可使用（取代旧版 o1-pro）；
企业和教育用户将在下周获得权限；
开发者API也已经接入，价格为每百万输入tokens 20美元，输出tokens 80美元。

顺便说一句，百万输入tokens大约等于75万字——比《战争与和平》还要长一点。

除了基础对话能力，o3-pro还拥有多项高级功能：联网搜索、视觉识别、Python工具调用、文件分析、甚至可以基于记忆进行个性化响应。但也并非完美无缺：

例如，暂时不支持图片生成；Canvas 工作区功能不兼容；临时对话功能暂时关闭；响应速度相比o1-pro略慢。

不过在一系列专业基准测试中，o3-pro打败了Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus，尤其是在AIME 2024（高难数学测试）和GPQA Diamond（博士级科学测试）中斩获佳绩。

而这场替换来的悄无声息。没有发布会，也没有 demo 视频。OpenAI 用惯常方式在 changelog 中写道：“评审一致认为 o3-pro 在科学、教育、编程、商业和写作帮助等关键领域优于 o3。”评价中，“清晰度”“全面性”“指令执行力”“准确性”成为关键词。

One more thing

除了新模型，还有另一个消息：

OpenAI 原计划在 6 月发布的开源模型——推迟了。

6 月 10 日，Sam Altman 在 X 上发文宣布：开源模型将延迟至“夏末”上线。他写道：“我们的研究团队做了一些意想不到又非常惊艳的事情，我们相信这非常值得等待，但还需要一点时间。”

这本应是 OpenAI 多年来首个真正意义上的开源权重模型。据称，它将具备与 o 系列相似的“推理能力”，目标是超越当前最强开源推理模型，如 DeepSeek 的 R1。而在这条时间线上，OpenAI 已落后一步——就在同一天，Mistral 发布了自家首个推理模型家族 Magistral；更早之前， Qwen 推出了一套支持推理与快速切换的混合模型。

据 TechCrunch 报道，OpenAI 此前内部也在讨论给开源模型接入云端能力，例如复杂问题时自动请求 OpenAI 云模型协助。但这些功能最终是否会出现在首发版本中，尚未可知。

Altman 曾公开承认，OpenAI 在“开源与封闭”的争议中站到了“历史错误的一边”。这次推迟，某种意义上，是技术节奏的调整，也可能是一次产品路线的重新权衡。

推理模型显然是今年 AI 赛道的新焦点：更像人类思维、更少幻觉、更适用于复杂任务。但当商业化模型抢占企业市场，开源模型抢占开发者生态，OpenAI 是否还能两头通吃？

真正的问题是：它还来得及夺回“开源”的主动权吗？

作者长期关注 AI 产业落地与学术动态、以及具身智能、汽车科技等前沿领域，欢迎对这些方向感兴趣的朋友添加微信 Q1yezi，共同交流行业动态与技术趋势！

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒级计费，平均节省开支30%以上！

扫码了解详情☝

展开阅读全文

更新时间：2026-01-29

标签：科技最强上线模型定义性能领域能力功能全面性清晰度测试科学开发者指令

1 2 3 4 5

刚刚！OpenAI 上线 o3-pro，性能碾压 Gemini 与 Claude，重新定义“最强模型”

宁波往返纽约全货机复航

南京理工大学等取得消除系统误差的掠入射星形拼接检测方法专利

即将迎来！西安咸阳国际机场最新发布

火山引擎发布豆包大模型1.6，加速Agent大规模应用

如何看待苹果发布的新界面风格？骂还是夸？

《推动人工智能安全可靠可控发展行业倡议》发布

消息称Meta CEO扎克伯格亲自组建AI团队，目标实现“超级智能”

微信最新公告！下架！

应对极端天气气候事件频发，人工智能赋能全民早期预警国际培训班在上海开班

中科创达：将参加此会议公司与火山引擎的合作正常进行中

留形三维完成Pre-A轮融资

中年男人的心头好，小米首款NAS将在10月量产，元旦前发布！

谷歌取得评估对搜索查询解释的专利

中国网络文明大会｜董宇辉谈转型：从英语教师到互联网的“秦腔”之路

三年集装箱吞吐量突破10万标箱 “丝路海运”电商快线成为行业青睐的黄金通道

火山引擎发布豆包大模型1.6，加速Agent大规模应用

自认为还是NBA最强得分手？KD：拿第4个得分王后我就不再关

【全国科技工作者日】鞍山市“全国科技工作者日”主场

曹小芸拟担任深圳市科学思维研究会执行秘书长

抖音电商等平台上线7000万元云南消费券可买数千种当

OpenAI推出o3-pro模型

Mistral的首个强推理模型：拥抱开源，推理速度快10倍

火山引擎发布豆包大模型1.6

苹果 iOS 26 天气应用新功能

中国科学家发起国际子午圈大科学计划