会议软件Zoom也来搞AI了,称在AI最难考试上击败了Gemini3

文:司马秘事

编辑:司马秘事

司的就是国际这条线;马上追踪热点

秘闻背后的事;我给你说透

欢迎各位看官收看今天的【司马秘事】


Zoom居然赢了谷歌、OpenAI这些AI巨头。

你没听错,就是那个疫情期间大家天天用来开线上会的Zoom。

它在一个叫HLE的AI测试里拿了第一,成绩比谷歌之前的记录还高。

这AI考试,难到让巨头头疼

HLE有个挺唬人的名字,“人类最后的考试”,本来想这名字是不是有点夸张,但后来发现还真不算吹。

它是ScaleAI和人工智能安全中心一起做的,数千位学科专家的题目被收录其中,覆盖数学、生物医学、计算机等几十个领域。

之前那些AI测试,顶尖模型早就考到快满分了,区分不出谁更厉害,HLE就是为了改变这情况才出现的。

大多数AI模型在这儿也就得几分、十几分,难度可想而知,谷歌的Gemini3Pro带工具答题,才拿到四十多分。

Zoom能超出两分多,这结果让不少人惊掉了下巴。

不造大模型,靠组队赢比赛

Zoom哪来的AI实力?难道偷偷建了顶尖实验室,其实没有,它走了条不一样的路。

它没自己训练超大模型,而是搞了个“联邦AI”架构。

简单说,就是找了一群“帮手”。

Zoom自己做了小型语言模型,又拉上OpenAI、Anthropic这些公司的模型,它还开发了一套叫Z-scorer的评分系统。

这些模型的答案会被系统筛选、精炼,不是让单个模型硬推答案。

答题时,会先找有价值的推理方向,多个模型一起讨论,互相挑战修正。

最后整合所有信息得出结果,这流程有点像团队brainstorm。

这思路挺聪明,不用自己从零开始,却能把现有资源用到极致。

企业AI,省钱好用才是王道

Zoom这么做,不是单纯为了拿个测试冠军,疫情红利退去后,它一直在找新的增长点。

AI成了最佳选择,所以挖来微软工作三十多年的黄学东当CTO。

这套联邦AI架构,早就用在Zoom的AICompanion功能里了。

会议摘要、提取待办事项、实时问答这些功能,对付费用户免费开放。

简单任务交给自家小模型,复杂任务才调用外部大模型,如果第一次输出质量不够,就换个模型修正。

成本被压得很低,只有GPT-4推理成本的很少一部分。

效果却不差,转录准确率很高,问答速度也比ChatGPT-4网页版快不少。

如此看来,这种模式对企业来说太实用了,不用花大价钱,还能拿到稳定的AI服务。

AI赛道变天,编排能力成关键

Zoom的成功,其实反映了企业AI的新趋势。

训练一个超大模型,要花数亿美元,还要数万块GPU,这根本不是普通公司能承受的。

要么深度绑定一家大模型厂商,要么像Zoom这样搞多模型编排。

越来越多公司选择了后者,SupAI也用类似方案,在HLE测试中拿到了更高成绩。

微软、Salesforce这些巨头,也在往“AI编排层”的方向发力。

Zoom的优势很明显,它有庞大的会议用户基础,还懂会议场景的需求。

AICompanion3.0已经升级成智能体,能自动安排会议、跨平台抓取信息。

它不再是被动的助手,变成了主动的协作者,毫无疑问,AI大模型的能力越来越普及。

未来的竞争,不再是比谁的模型参数多,而是比谁能把模型、工具、数据和工作流整合好。

Zoom的逆袭告诉我们,企业AI不一定非要走“重资产”路线,找对方法,把现有资源用好,同样能在赛道上跑出好成绩。

更何况,贴合实际场景的AI服务,才是用户真正需要的。

世界从不平静,司马为您解析,今天到此为止,下期我们再见!

展开阅读全文

更新时间:2025-12-22

标签:科技   会议   考试   软件   模型   司马   巨头   微软   企业   赛道   疫情   测试   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top