昨天马斯克刚发Grok 4.1,今天转眼就被Gemini 3 打回老家去了。
今天北京时间0点整,Gemini 3 突袭全球,不仅拿了LMArena 总榜第一,更是屠榜所有评测集。直接把昨天Grok 4.1刚刷的榜给反超回去了。

山姆·奥特曼和马斯克也第一时间发来贺电:

Image
三家聚齐,X上网友的梗图更是满天飞:

更有甚者已经在底下问马斯克Grok 4.2啥时候来了:

值得注意的是,根据此前泄漏的Gemini 3 模型卡信息,Google 从零开始在 TPU 上训练了这个模型,采用了 MoE(专家混合)架构,输入 100 万 Token,输出 64k Token。而MoE架构意味着,即使性能爆炸提升,成本也不会太高。

而谷歌DeepMind 研究副总裁兼深度学习负责人、Gemini 项目联合负责人Oriol Vinyals则透露了Gemini 3 背后的秘诀:
Gemini 3 的秘密是什么?很简单:改进了预训练和后训练
预训练:与流行观点相反——大家常认为模型扩展已经到顶——我们在 NeurIPS 2025 的演讲中与 @ilyasut 和 @quocleix 一起讨论过,这次团队实现了巨大的飞跃。2.5 版与 3.0 版之间的差距,是我们见过的最大差距之一。前路无限,没有尽头!
后训练:依然是完全的“绿地”(greenfield)。算法优化和改进空间仍然很大,3.0 也不例外,这一切都得益于我们出色的团队。

谷歌方面称,Gemini 3 是他们在通往AGI的道路上又迈出的一大步。它是世界上最好的多模态理解模型,也是谷歌迄今为止最强大的智能体和vibe 编码模型,能够提供更丰富的可视化效果和更深入的交互性。

Gemini 3 evaluation table against other AI models
在所有主流 AI 基准测试中,Gemini 3 Pro 的表现都远超 2.5 Pro。
它以 1501 Elo 的突破性成绩登顶 LMArena 排行榜。在 人类最后的考试(无需使用任何工具情况下达成 37.5%)和 GPQA Diamond(91.9%)中取得顶级分数,展现出博士级的推理水平。在数学方面,它更是为前沿模型树立了新标杆:在 MathArena Apex 上取得 23.4% 的最新 SOTA 成绩。
不仅在文本上强势,Gemini 3 Pro 在多模态推理上也全面领先:
它还在 SimpleQA Verified 上取得 72.1% 的 SOTA 成绩,体现出显著的事实准确性进步。
这意味着,Gemini 3 Pro 能以高度可靠性解决科学、数学等众多复杂领域的难题,真正实现跨模态的全面突破。
Gemini 3 的 Deep Think 模式将智能的边界进一步推向极致,在推理与多模态理解能力上实现跃升,帮助你解决更加复杂的问题。
在测试中,Gemini 3 Deep Think 的表现全面超越了 Gemini 3 Pro:
它还在 ARC-AGI-2 上达成前所未有的 45.1%(启用代码执行,ARC Prize Verified),展现出解决全新挑战的能力。

Gemini 从诞生之初就被设计为能够无缝整合多模态信息,覆盖文本、图像、视频、音频和代码。Gemini 3 更是将多模态推理推向新前沿:依托最先进的推理、视觉与空间理解、顶级多语种能力,以及 100 万 Token 超长上下文,让你以最适合自己的方式学习任何主题。
比如想学习家族传统料理,Gemini 3 能识别并翻译多语言的手写食谱,将它们整理成一本可分享的家庭食谱。

比如喂给Gemini 3 学术论文、长视频讲座或教程,它就能生成用于记忆和理解的互动卡片、可视化图表或其他学习材料,帮助你快速掌握核心内容。

Gemini 3 是谷歌迄今最强的氛围编码和智能体编码模型,让产品具备更高自主性,进一步提升开发效率。它以 1487 Elo 的成绩登顶 WebDev Arena 排行榜。在测试模型使用工具操作终端能力的 Terminal-Bench 2.0 中,也取得 54.2% 的成绩。在衡量编码智能体能力的 SWE-bench Verified 中,则达到 76.2%,表现大幅领先 2.5 Pro。
比如构建一个可玩的科幻世界:

Gemini 3 在测试长期规划能力的 Vending-Bench 2 中登顶,该基准通过模拟经营自动售货机业务来评估模型的长周期规划和管理能力。
据官方介绍,在这一测试里,Gemini 3 Pro 能在整整一年的模拟运营中保持稳定的工具使用和决策质量,在不偏离任务的前提下取得更高收益。

Gemini 3 还能在日常生活中更有效地帮助你完成任务。比如让它帮你整理邮箱:

另外,谷歌也同步推出了 Google Antigravity —— 一款全新的智能体开发平台,让开发者能够以更高层次、以任务为中心的方式进行构建。
借助 Gemini 3 的高级推理、工具使用能力和智能体编码能力,Google Antigravity 将 AI 从开发者工具箱中的“一个工具”升级为真正的 主动合作伙伴。虽然 Antigravity 的核心体验依然是熟悉的 AI IDE,但其内置的智能体被提升到独立的界面,并拥有对 编辑器、终端和浏览器的直接访问权限。现在,智能体可以在你的指令下自主规划并执行复杂的端到端软件任务,同时还能自行校验代码。
除了 Gemini 3 Pro,Google Antigravity 还深度整合了最新的 Gemini 2.5 Computer Use(用于浏览器操作)以及顶级图像编辑模型 Nano Banana(Gemini 2.5 Image)。

定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为 $2.00/$12.00(每百万 token);超过 200k tokens 则分别为 $4.00 和 $18.00。
Gemini 3 现在已经全面开放了。普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型;开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。深度思考模式则预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。
小编也第一时间体验了Gemini 3,效果也是相当惊艳。以下是一些实测案例:
1、用HTML生成3D演示动画,向中学生演示DNA双螺旋的复制过程。大概十几秒左右就生成了:

效果看起来还不错,碱基图例和复制过程演示都比较完整。
2、复刻一个 MacOS 操作系统:

这一回Gemini 3同样只花了十几秒左右,就复刻了这样一个MacOS界面。顶部菜单栏、对话框和 Docker 栏都是非常典型的Mac风,包括 Docker 栏的鱼眼放大效果做的还不错,右上角也会显示当前的真实时间。
虽然免费的token不多,不过小编经过这两个案例的实测,也感觉到Gemini 3彻底抹平了多模态开发的门槛。即使是一个完全不懂代码的编程小白,也可以靠一句简单的提示词做出一个3D动画、一个游戏或者复刻一个操作系统。这种多模态理解能力带来的体验是非常震撼的。
跟小编之前实测过的其他大模型(Mini Max M2、Sonnet 4.5等),Gemini 3的响应速度快得惊人,平均十几秒钟就能做好一个网页或动画,并且效果都还不错。在冷冰冰的榜单和数据之外,这种开发效率和成果让小编实打实体会到了Gemini 3的强大。
在X上,Andrej Karpathy大神也第一时间试用了Gemini 3.0,并表示对它的“初步印象很好”。

当然,也有网友指出,Gemini 3的空间推理能力还是比较一般,这也是所有大模型的通病。

那么,你认为Gemini 3 怎么样?你想用它来做些什么呢?
参考链接:
https://blog.google/products/gemini/gemini-3/#responsible-development
更新时间:2025-11-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号