北京时间5月21日凌晨1点,谷歌 CEO Sundar Pichai 准点走进坐落于加州山景城的著名露天圆形剧场 Shoreline Amphitheatre,发表了 Google IO 2025 大会的主题演讲。
全程一部定影的时间, 115 分钟,可谓是给 5.20 的深夜奉上了一场别样的谷歌之声。
先说整体感受,整体上如大部分媒体所预料的:Andriod 已经退出焦点,AI 可以说是全部。
与去年不同,今年的 IO 大会可以说主打的就是“智能代理与个性化AI”,简单理解,就是谷歌开始强调大模型的行动能力与个性定制上,正如Sundar 开场总结的:
我们正处于 AI 平台变革的新阶段。几十年的 AI 理论和基础研究,正在快速走进现实,融入人们日常生活和工作中,从搜索、助手、视频通信、开发者工具到应用生态,全面落地。这正是 Gemini 时代的意义所在。
全程跟下来,多达 15 项重磅更新和发布。 虽然许多有关Gemini模型、Agent、A2A 协议等其实早在一周甚至更早之前,谷歌已经等不及抢先发布,但仍有许多新官宣可圈可点。
比如:Gemini 2.5 Pro 新增“深度思考模式”、可主动多模态感知和响应的下一代 AI 助理 Project Astra,以及具备“教与复现”功能、可以同时管理多达 10 项任务的智能网页任务代理 Project Mariner。
再比如在全面 AI 升级上面,不得不提的谷歌搜索 AI 模式、谷歌浏览器融合 Gemini 按钮,将会化身可智能总结网页内容、协助浏览的 AI 浏览器;还有前不久被 YC 合伙人吐槽的 Gmail 邮箱的智能回复也迎来了个性化升级。
再有,就是原来的多模态工具如 Imagen 和 Veo 大升级,并上线了一款 AI 影视创作 App Flow。
最后,值得一提的是,在智能眼镜方面,Xreal 携手 Google 打造了一款基于 Android XR 平台的智能眼镜 Project Aura。
话不多说,开始为大家献上精彩内容。
过去的半年,可以说是谷歌反击 OpenAI 强有力的半年。Sundar 非常自豪地把 Gemini 最新的进展放到了演讲中最开始的部分。
“我听说今天是双子座季节的开始。我真的不太清楚这有什么大不了的。在Google,每一天都是 Gemini 季节。”
的确,自去年以来,谷歌已经宣布了超过12个模型和研究突破,并发布了超过20个主要的人工智能产品和功能。
而且 Gemini 的性能也取得了阶梯式变化。Sundar介绍道,“Elo分数,作为进步的一个衡量标准,自第一代 Gemini Pro以来,已经上升了超过300分,而今天的Gemini 2.5 Pro在所有类别的LM排行榜上都名列前茅。”
从仓皇应战 OpenAI 到如今的全面“屠榜”,也许感叹一句谷歌:“斗宗强者,强悍如斯”也不为过。
简单帮劈柴哥秀一下 Gemini 在许多基准测试中的 Sota 成绩。就以现下最火的编码方为例。更新后的 2.5 Pro 在 Web Dev Arena 上达到了第一名,现在比之前的版本高出 142 个Elo分数。同时,它在顶级编码平台上受到了很多欢迎,比如在 Cursor上,Gemini 是今年增长最快的模型,每分钟产生数十万行被接受的代码。
甚至前不久,Gemini 完成了《精灵宝可梦蓝》的通关,获得了所有 8 个徽章,穿越胜利之路,击败了四天王和冠军。
劈柴哥很调皮地表示:这标志着我们向“API(Artificial Pokémon Intelligence)”又迈进了一步。
对于过去一年的成绩,劈柴哥信心爆棚:“世界采用人工智能的速度比以往任何时候都快。 去年此时,我们通过我们的产品和 API 每月处理 9.7 万亿个token。 如今,这个数字是480万亿。一年之内就增长了50倍。”
不过小编不惯着谷歌的小傲娇情绪,还是直接奔重点要紧。
Google DeepMind 宣布在Gemini 2.5 Pro 中引入了一种新的模式——深度思考(Deep Think Mode),它将模型性能推向了极限,带来突破性的成果,专为复杂数学、编程问题设计,可在回应前先考虑多种假设,而且由于 Gemini 从一开始就具有多模态的特性,所以它在主要基准测试中也表现出色。
据悉深度思考模式使用了谷歌最新的思考和推理研究,包括并行技术等。
但由于尚需前沿安全评估方面还需要得到专家反馈,所以目前只能以 API 的形势进行定向邀测。
不过一个跟利好大众的消息是,轻量版 Gemini 2.5 Flash 也已面向所有 Gemini 应用用户开放。
除了“深度思考”,有关谷歌在模型方面的另一个前沿研究,则是世界模型。
据 DeepMind 首席执行官 Demis Hassabis介绍,“我们正在努力将其扩展为一个世界模型,这是一个能够通过模拟世界的某些方面来制定计划和想象新体验的模型,就像大脑所做的那样。这是我一直以来的热情所在。”
Hassabis 表示游戏领域是 AI 模拟世界的不错的场景。谷歌正在通过开创性的工作,让代理掌握复杂的游戏(如围棋和星际争霸)来朝着这个方向迈出了一步,最近我们推出了 GE2 模型,能够从单个图像提示生成 3D 模拟环境,你可以与之互动。
而这些能力正在 Gemini 中出现,它利用其世界知识和推理来表示自然世界中的事物。
此外,谷歌最先进的视频模型对直观物理有深刻的理解,比如重力、光和材料的行为。它在跨帧保持准确性方面非常令人难以置信。即使提示变得有点创意,比如这个人是由救生圈组成的,它也知道该怎么做。
Hassabis 认为,对物理环境的理解也将对机器人技术至关重要。人工智能系统将需要世界模型,以便在现实世界中有效地运作。因此,谷歌还基于 Gemini 进行了微调了一个专门的模型,让它教机器人做有用的事情,比如抓取、遵循指令,并在飞行中调整到新任务,人类可以在 AI 沙盒中与之互动。
使 Gemini 成为一个完整的世界模型,是解锁一种新人工智能的关键一步,这种人工智能在你的日常生活中是有帮助的,它智能且理解你所处的环境,并且可以代表你在任何设备上采取行动。
“这是我们对Gemini应用程序的最终愿景,将其转变为一个通用的人工智能助手,一个个性化的、主动的、强大的人工智能。这是我们通往通用人工智能道路上的一个关键里程碑。”
在这方面, AI 助理 Project Astra 则是谷歌从去年开始一直在探索的项目。AI 助理 Project Astra 此前能调用手机摄像头识别物体,现在升级版原型还能在无需你发问的情况下,主动完成任务或指出错误,比如作业中发现计算错误便直接提醒。
据悉,谷歌对 Astra 还升级了语音输出,使其更加自然,加入了原生音频,并改进了记忆并增加了计算机控制能力。
关于 Astra,会上还给出了一个非常接地气的用例:帮助一位美国小伙儿修理自行车。
Project Mariner 是 Google 推出的 AI 代理工具,旨在帮助用户自动化处理网页上的多项任务,提升在线工作效率。主要功能包括:
对于谷歌搜索业务,会上劈柴哥宣布推出了全新的 “AI 模式”,这是一个全新标签页,也是谷歌对传统搜索体验的一次重大升级。主要亮点包括:
今年夏天,Google 还将在 AI Mode 中测试深度搜索、财经/体育查询图表生成功能,以及购物助手等新功能。
那这里小编再划一个重点,在搜索体验升级方面,谷歌再次强调了 Search Live 实时互动搜索的概念。
结合 Project Astra,谷歌推出了 Search Live,用户可在 AI Mode 或 Lens 中,开启“Live”模式,对准相机画面与搜索助手实时对话。
就在上月,谷歌已向 Android 用户免费开放 Gemini Live 屏幕共享功能,本月起 iOS 用户也可免费使用。
这次主题演讲上,谷歌还发布了全新 Imagen 4,在文本生成图像表现更佳,支持多种图片比例导出(正方形、横版等)。同时,下一代 AI 视频生成器 Veo 3,将支持视频和音频同时生成,Veo 2 也新增了摄像机控制、物体移除等功能。
值得注意的是,谷歌还上线了一款名为 Flow 的 AI 影视创作应用,结合 Veo、Imagen 和 Gemini,用户可通过文字或图片提示生成 8 秒 AI 视频短片,并通过内置场景编辑器拼接成更长影片。(是不是想到了快手和抖音的视频剪辑工具~)
这还没完,作为全面手,在3D方面,谷歌将 Project Starline(一款 3D 视频通话舱)正式更名为 Google Beam。Google Beam 使用一种新的视频模型将 2D 视频流转换为逼真的 3D 体验,劈柴哥 X 上表示,近乎完美的头部跟踪,精确到毫米,每秒 60 帧,全部实时, 最终呈现的是沉浸式对话体验。
未来,它将内置于 HP 品牌设备中,配备光场显示器和 6 个摄像头,实时生成通话对象的 3D 图像,包括 Deloitte、Duolingo 和 Salesforce 在内的企业,已计划将 Beam 部署到办公环境中。
当然,强如谷歌,同样也免不了俗,也做到款款都是炸裂的精品。一些 AI 发布都是市面上常见的 AI 应用。比如发布了 Stitch,一款 UI 界面的 AI 生成工具,只需提供主题、描述,或上传线框、草图、UI 截图,即可自动生成界面原型。现已上线 Google Labs。
再比如购物中的 AI 试穿的功能,用户上传全身照后,可预览不同上衣、裤子、裙子等穿在身上的效果,由 AI 模型精准识别人像与服饰细节。这不都是淘宝/京东玩剩下的嘛。
不过还是要提醒,谷歌有一种玩法还挺不错:即上文提到的 AI Mode 中购物,甚至通过 agentic checkout 功能,自动帮用户下单。
对于一直被传言有被分拆危险的 Chrome 而言,谷歌也有了一些不错的升级动作。
从 5 月 21 日起,Google AI Pro 和 Ultra 订阅用户可在 Chrome 中启用 Gemini 按钮,智能总结网页内容、协助浏览。目前支持同时管理 2 个标签页,年底前将扩展更多。
第二块令人叫好的则是 Chrome 将自动更新被泄露密码。Chrome 今年内将推出新功能,检测到密码泄露时,自动生成强密码并更新至支持的网站,操作前会征求用户确认。
此前,Gmail 智能回复功能被 YC 合伙人吐槽为“无马的马车”,现在谷歌很听劝,已经对其进行了更新。
更新后,AI 将从用户收件箱和 Google Drive 中提取信息,自动撰写更符合用户个人风格的邮件内容。还能识别对话对象语气,像给老板邮件就自动建议更正式措辞。主打一个私人定制!
新版将于 7 月在 Google Labs 登陆网页版、iOS 和 Android。
图片
这次大会,有关智能眼镜的概念研发也是一大看点。谷歌表示:“Android XR 的推出,让我们向前迈出了一大步。”
值得一提的是,这次居然是中国队实力出场了!Xreal 携手 Google 打造了 Project Aura,一款基于 Android XR 平台的智能眼镜,预计内置 Gemini AI,具备广视场、摄像头和麦克风。
此外,Google 还将与三星、Gentle Monster、Warby Parker 合作开发其他 Android XR 智麦克风。
图片
这款眼镜配备摄像头、麦克风和扬声器,可与您的手机协同工作,无需掏口袋即可访问应用程序。
此外,可选配的内置显示屏可在需要时提供私密的实用信息。眼镜与 Gemini 配对后,能够看到和听到用户的一举一动,从而了解主人的处境,并记住其重要事项,并全天候提供帮助。
今天的抢先体验展示了 Android XR 眼镜在实际场景中的运作方式,包括向好友发送消息、预约、查询路线、拍照等等。在演示中,两人之间的实时语言翻译,展现了这款眼镜打破语言障碍的潜力,可以说是实时提供现实世界的字幕。
至于订阅上,谷歌推出全新 AI Ultra 订阅计划,提供最高级别 AI 模型和更高使用额度,适用于 Gemini、NotebookLM、Flow 等应用,还包含 Project Mariner。
Deep thinking、world model、action intelligence、网页智能体、AI浏览器、影视创作工具、AI Web UI、Andriod XR、Gemini+智能眼镜,可以说这次大会是一个谷歌在全热门赛道秀肌肉的大会。
但凭个人看法而言,谷歌的优势依旧是在多模态的进展上,不管是模型还是应用方面,都有不错的性能和沉淀。而不足之处,则在于对于通用场景下的应用,明显滞后于 OpenAI,比如 browser use 方面,将 Gemini 融入 Chrome 本可以更早一些。
此外,应用的创新性没有特别惊艳之处。通场看下来,一半以上都是已经发布或预告过的产品。
但这也不能怪谷歌,如果真的什么都让谷歌做了,AI创业者还有什么机会可言呢?你说是吗,劈柴哥?
更新时间:2025-05-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号