大数据文摘受权转载自头部科技
文丨丁灵波
继昨天OpenAI发布o3和o4-mini出尽风头之后,长期对线的老对手谷歌迅速做出回应。
今天,谷歌在AI Studio和Vertex AI的Gemini API中推出了Gemini 2.5 Flash早期预览版模型,该版本基于2.0 Flash发展而来,在推理能力方面实现了重大升级,兼顾性能、速度和成本,并可根据需求控制模型推理的程度。
尽管o3和o4-mini模型在主流评测排行榜上表现着实好,但有一个很突出的缺点:贵,这给了谷歌很大的市场进击空间。
Gemini 2.5 Flash是一个混合推理模型,可让开发者开启或关闭“思考”功能,还允许开发者设定“思考预算”,以在质量、成本和延迟之间找到适合自己需求的平衡点,而即使关闭“思考”,官方宣称也能保持2.0 Flash的快速运行速度和性能。
使用Gemini 2.5 Flash时,开发者每百万个代币的输入成本为0.15美元,输出成本则根据推理设置而不同:启用思考时为每百万个代币3.50美元,而关闭思考功能每百万个代币仅为0.60美元,接棒DeepSeek在行业中杀出了一条更高的性价比路线。
可灵活控制“思考”预算
开启和关闭“思考”近六倍的差价反映了当下模型推理过程的计算强度差异,谷歌引入所谓的“思考预算”机制,旨在解决当今AI市场的一个根本矛盾:更复杂的推理模型通常以更高的延迟和更高的价格为代价。
Gemini 2.5 Flash会根据具体任务的复杂性智能计算出要使用多少思考预算,如果开发者想在保持最低成本和延迟的同时,仍能提升2.0 Flash的性能,可为思考阶段设置特定的预算,预算范围为0到24576个token,随着思考预算的增加,推理质量得到提高,让开发者灵活掌握对质量和成本的细粒度调整。
在一些关键基准测试中,Gemini 2.5 Flash展现出颇具竞争力的性能优势,同时保持了比其他同类产品更小的模型规模。
例如在“人类的最后考试”(高难度推理与通用智力测试)中,Gemini 2.5 Flash的得分为12.1%,优于Anthropic的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),略低于OpenAI刚推出的o4-mini(14.3%)。
在GPQA Diamond(研究生水平的专家推理测试)中,Gemini 2.5 Flash得分78.3%,高于DeepSeek R1(71.5%),和Claude 3.7 Sonnet旗鼓相当。
在LiveCodeBench V5评测中,Gemini 2.5 Flash代码相关能力与上代2.0版本相比实现了翻倍提升,接近DeepSeek R1的水平。
谷歌AI Studio负责人Logan Kilpatrick表示该模型编码进展超快,后续还有更多精彩升级推出。
今天,除了发布Gemini 2.5 Flash之外,谷歌还宣布所有美国大学生在2026年春季之前都可以免费使用Gemini Advanced,分析师将此举解读为谷歌正在努力提高未来AI人才对Gemini平台的忠诚度,目光已经着眼渗透下一代市场。
不是最强,但便宜好用
一些网友对Gemini 2.5 Flash测试后认为,Flash的持续迭代可能会是AI行业的全新转折点——模型将会变得快速、智能、价格实惠,如果谷歌继续保持这种性价比竞争势头,接下来的人工智能竞赛将会变得更加有趣。
除了能胜任常见的旋转框弹跳小球的测试,该模型甚至还帮用户完成了更复杂的编码挑战。
例如提示模型使用JavaScript和2D物理引擎模拟分5步创建一个独立的HTML文件,直观地演示多个球穿过桩子并收集到箱中时,正态分布(或二项分布)的形成过程,确保物理参数(恢复、摩擦力、密度)和球的落球率经过调整,以便流畅清晰地演示分布。
有网友使用Gemini 2.5 Flash构建MCP AI代理,模型仅用30行Python代码就搭建了起来,可访问AirBnB和Google Maps。
还能帮助开发者轻松搞定一个网页小游戏开发,综合来看,虽然价格便宜,但谷歌没有太减配,Gemini 2.5 Flash编码能力的可用性和实用性都还不错。
有开发者对当前顶尖模型性能进行了所有基准测试,提供了更宽泛的视角,将Gemini 2.5 Flash添加到了对战列表与o3、o4-mini、Sonnet 3.7、o1、DeepSeek R1等进行比较。
经过一番对比,目前的结论如下,谷歌Gemini 2.5系列模型的市场竞争优势比较全面:
代码编辑:Gemini 2.5 Pro、o3
智能体编程(自主性编程):Sonnet 3.7、o3
长文本上下文处理:Gemini 2.5 Pro、o3
多模态推理:Gemini 2.5 Pro、o3
数学、科学领域:o4-mini、o3、Gemini 2.5 Pro
成本效益:Gemini 2.5 Flash、DeepSeek R1
性价比大战暗流涌动
为了应对谷歌掀起的新一轮性价比大战,OpenAI今天悄悄针对o3和o4-mini型号推出了弹性处理(Flex processing)API选项,目前正处于测试阶段。
Flex处理可显著降低成本,代价是响应时间较慢且偶尔会出现资源不可用的情况,但它非常适合非生产或低优先级任务,例如模型评估、数据丰富或异步工作负载等。
从价格来看,经过Flex处理能将API成本可以降低整整一半。例如针对o3,Flex处理费用为每百万输入tokens为5美元,每百万输出tokens为20 美元,而标准处理费用为每百万输入tokens为10美元,每百万输出tokens达40美元。
Flex处理的推出,正值前沿人工智能价格持续攀升,而竞争对手纷纷推出更廉价、更高效的经济型模型之际,尽管OpenAI依靠o3和o4-mini再次取得了领先同行的模型优势,但远高于同行的高昂定价一直是最大的槽点,如果模型的实际表现差不多,而价格差太多,很可能把用户拱手送给老对手谷歌,这是OpenAI不愿看到的局面。
另外,新一轮顶尖模型的PK较量,正在一步步拉开模型之间的性能代差,无论是谷歌还是OpenAI都有着充足的AI算力保障,竞争处境最艰难的便是DeepSeek,特朗普政府本周采取行动,开始限制英伟达向中国出售H20等AI芯片,据纽约时报报道称,特朗普政府还在考虑进一步采取措施,阻止DeepSeek购买美国技术,并正在讨论禁止美国人使用其服务。
作为OpenAI和谷歌都难以忽视的对手,开源性价比之王DeepSeek能否冲破枷锁给市场带来新的惊喜和奇迹,很多开发者都在默默期待着。
更新时间:2025-04-21
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号