嘿,大家好!这里是一个专注于前沿AI和智能体的频道~
昨晚,Gemini发布0605版本。
上个月发布的 0506 的I/O版本,带来了编码性能的提升。但是我们复盘中提到过,似乎在通用基准上,存在第二轮瓶颈(“过于关注coding能力后,还不如0325版本”)。半年复盘,AI迎来预训练后的新瓶颈。
Google不愧是挤牙膏大神,新版本又挤出来了,官方表示新版将回归0325版本的效果。。。
今天的 0605 版本则在 AIDER Polyglot 等基准测试中继续领先,同时在 GPQA 和人类终极考试(HLE)等极具挑战性的基准测试中表现出“顶级性能”,这些测试评估了模型的数学、科学、知识和推理能力。
刷 LMArena ,一直是谷歌的强项,0605 版本在 LMArena 上的 Elo 评分提升了 24 分,目前得分为 1470 分,而在 WebDevArena 上则实现了 35 分的 Elo 评分,达到 1443 分。
官方提到,在上一次模型更新后,人们注意到除了编码之外的性能有所下降。谷歌现在正针对这一反馈进行改进,提升了“风格和结构”,从而使 Gemini 2.5 Pro 能够“更具创意并提供格式更优的回答”。
现在打开Google AI Studio可以免费体验。
值得注意的是,这次正式取消了日期后缀,意味着,这可能是2.5的最后一个版本!
Google AI Studio也且用且珍惜把,天天这种神人跑去问这些问题,迟早也要对免费用户下刀~
输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。
初步测试了一些,体验还不错。贴个归藏大佬的例子,之前大佬评测的这个颜色提取器prompt,同时考验模型的审美和功能,基本所有的顶级模型都不能完成所有要求,新版本Gemini一次性可以完成的非常好。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
上下滑动查看更多
更新时间:2025-06-08
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号