与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专



整理 | 刘倩



2022 年初,夏令在 AI 热潮之前,投资了大模型创业公司 MiniMax 的天使轮。明势创始合伙人黄明明后来曾在暗涌组织的活动上,和 MiniMax 创始人闫俊杰一起回忆投资故事:在米哈游联创刘伟介绍下,明势第一次见了闫俊杰,那会儿其实大家都没太明白闫俊杰要做什么。“好在,夏令听懂了,回来后说,这个项目一定要投”。夏令也是文生图应用 LibLib.ai 和具身智能明星公司逐际动力的早期投资人。


这一期,我们和夏令聊了 Agent 行业的竞争形势推演。


在他的认知里,Agent 横跨软硬件——除了 DeepResearch、Devin 这些主要在云端的 Agent,以及接下来可能会进入白热化竞争的与手机结合的 Agent;和车结合的自动驾驶,和机器人结合的具身都是 Agent。它们各自处于不同的成熟阶段和竞争形势中。


夏令的观察和判断是,今年下半年开始,围绕入口级 Agent 的大战就会拉开。最为焦灼的战场会是以手机为终端的通用 Agent 产品竞争,主要玩家是掌握超级 App 或流量的大厂和自己能迭代模型的头部大模型公司。OpenAI、Google、Meta、字节、阿里、腾讯都不会放过这个机会,美团、小红书乃至智能汽车领域的理想也都跃跃欲试。


而在早期投资视野里,大多数创业公司的机会可能在于垂直和专业的 Agent。更通用的 Agent 很可能会因处在模型公司主航道上而备受挑战。模型公司的主航道边界在哪儿?今年 2 月 Google 的一份白皮书有一个比较清晰的框架,我们在节目中有展开。


图注:Google Agents 白皮书中的能力框架图。


夏令已经投资了一些不同的垂直 Agent 商业模式,这也是中美差异所在——在中国,一些新公司不再用做工具的思路做 Agent,来赚订阅的钱,而是用 Agent 直接做服务,获取收入分成。因为中国客户更愿意为结果本身付费,而不是为效率付费。


至于近期被朱啸虎的言论推到风口浪尖的具身智能,夏令投资了这个行业,也从他的角度讲了风险:具身最大的危险,并不是朱啸虎提到的目前没有商业化的 PMF,不能去工厂和商店打工、搬砖,而是具身模型的技术还没有收敛,机器人大脑还没来到它的 GPT-3 的时刻。



跨软硬件视角的 Agent & Google 白皮书的里的技术框架



晚点:大家一直在讨论 Agent,这个词现在特别 “热”。但我觉得,在目前这个阶段,可能每个人对它的理解都不太一样。你是怎么定义 Agent 的呢?


夏令:我觉得 Agent 现在来说确实是一个 “明牌”。很多人开始关注 Agent,是因为三月份 Manus 火了。但对我来说,其实从去年下半年就开始关注 Agent 的投资了。另一方面,我觉得 Agent 从一个受关注的技术趋势,变成了所有被投企业,不管是应用公司还是具身公司,都必须高度重视、甚至列为明确研发日程的关键方向,其实是从 DeepSeek 之后。因为 Agent 这个概念并不是最近几个月才出现的,最开始提出这个概念的时间很早,比较有影响力的是 OpenAI,它把整个 AI 的能力从 L1-L5 分成了 5 级。


OpenAI 的 L1 级别相当于聊天机器人(Chatbots),像最开始 chatgpt、豆包、kimi 那种形态;L2 说白了就是有推理能力的 AI,最典型的代表就是 Deepseek。


为什么我说 Deepseek 之后让我对这个事情有很大触动,因为当一个 L2 级别的产品推出时,我们发现它对 L1 级产品简直是降维打击。L1 产品积累了大量的 DAU 和用户,可 L2 产品一出现,优势就没了。这就引出了下一个问题,在这个五级分类里,L3 是 Agent,L2 产品虽然有很强的推理能力来解决问题,但 L3 的 Agent 是一个系统,它能够解决一个任务,这个任务可能要通过完成一系列复杂问题才能达成。当 L2 产品对 L1 产品形成降维打击时,我们自然就会想,L3 产品要是出来,会不会又是一次降维打击呢?这就是一个很有意思的问题——OpenAI 所描述的 Agent 会在什么时候出现?


晚点:所以按照你刚才的逻辑,Deepseek 的出现让大家看到了 L2 对 L1 的降维打击,于是在 L2 阶段,大家已经开始提前在想下一个降维打击会是什么?现在有个大共识,觉得下一个关键可能是智能体类的东西。


夏令:它应该是 Agent,是能解决完整任务的系统。那什么叫 Agent?坦率来讲,现在对 Agent 还没有完整精确的定义,但大概有个雏形:它应该能调用很多外部工具、和外部世界交互、执行一系列动作,中间可能还会和人交互,最终完成人指定的任务。


跟之前 L1、L2 对比来讲的话,它其实囊括了之前的能力,但在维度上又超越了之前的能力。


晚点:所以它其实是统一了自动驾驶、机器人和一些软件应用。


夏令:在我们看来,对 Agent 的这种理解,不仅对 AI 应用或模型有帮助,对自动驾驶、具身智能这些公司也是一样。它可以让这些公司提前看到一些下一个阶段必然会发生的事情,虽然它们交互的环境不同,需要的软硬件技术也不一样,但内核本质是一样的。


但反过来说,是因为大家都很关心 L3 什么时候能到。Manus 这次评测自己能力时,提到了 GAIA 评测体系,其实细看的话,这个体系分三级:



在 L3 这个层级,Manus 的评测完成率大概只有 50% 多。从这个指标体系来看,我也和一些做大模型相关工作的同事论过,我们觉得可以有个初步的时间预判:Agent 可能达到的效果,有可能在一年之内,更激进的人甚至会说在今年年内(无非就是 12 月还是明年的时间点),AI Agent 或者大模型公司推出的这套技术框架、技术体系、初步产品,应该有可能在 GAIA 评测中至少达到 80% 以上的水平。


晚点:你是说 GAIA 最难的 L3 那一档做到 80% 的水平?


夏令:或者有人更直接地说,可能 80% 的人类工作都能被它完成。这里的 80%,可能指 80% 的岗位,也可能指岗位里 80% 的工作任务,靠大模型公司基于 Agent 的能力就能完成。多家公司预估,这个时间点就在一年内。


这对所有相关公司,不管是模型公司、应用型公司,还是未来的具身公司,都有启发。说残酷点,如果现在不基于 L3 Agent 的实现去思考自己的业务,或者不尽快思考和储备自己 Agent 形态的产品,很可能一年内就会被别人的 L3 Agent 类产品降维打击。


晚点:接下来我们可以验证你观察到的现象,就是大家已经开始关注的 L3 层级 ——Agent 智能体的技术和产品形态,来聊聊那些已经开始萌芽或很快会出现的变化。我觉得可以先从技术角度切入,因为在我看来,模型能力是产品和应用进阶到能帮人完成复杂任务的智能体的基础。


夏令:首先,最积极的方面是整个技术进步的斜率还是非常陡峭的,持续推动着整个 AI 领域,包括 AI Agent 的能力提升。如果具体探讨技术趋势,不妨回到一个更具框架性的体系中。我比较认可 Google 今年初发布的 Agent 白皮书,它对 Agent 尤其是 AI Agent 的能力,提出了一个清晰的框架。


具体来说,这个框架分为三层:AI agent 的内核是 model(模型),也就是我们熟悉的大模型公司最核心的模型能力。但要完成一个任务,需要有一个编排层 —— 首先得告诉 Agent 要做什么,给它明确的指示和目标。Agent 还需要 memory(记忆)能力,包括长时记忆和短时记忆。此外,要完成一系列复杂的推理任务,它必须具备一定的规划和推理能力。最后,作为 Agent,需要与外界环境交互,因此必须能使用大量工具。


所以在 Google 的白皮书里,一个 AI Agent 主要由模型、编排层和工具(tools)三大部分构成。首先看模型层,能明显感觉到预训练持续快速推进,而且模型融合的趋势也很强。还有一点值得关注,多模态技术的进展非常快,大家可能更多关注图像、文本等多模态融合,但声音模态的提升也很显著。近半年来,我在生产场景(不是 Demo 场景)中已经接触到很多接近真人的语音模型,这些模型能传递人的情绪、带有口音甚至方言,交互体验很好,延迟还很低。所以模型层的技术迭代一直没放缓。


接下来重点看编排层,其中一个关键就是记忆。坦率地讲,现在模型原生的 Long context (长上下文)能力还不够。不管是 OpenAI 提供的 128K、64K 的 context 长度,还是 DeepSeek 提供的跟 OpenAI 一样的 Long context 的长度,对于很多想解决通用或垂直场景问题的 Agent 来说都不够。所以我们看到 OpenAI 最近也在发力 memory。


晚点:OpenAI 4 月 11 号的时候刚上了这个功能——全局记忆功能。


夏令:对,Sam Altman 在 Twitter 也提到,记忆可能会成为下一个新的 Scaling Law。所以像我们的 MiniMax,其实也在 Long context 领域尝试基于 Linear attention 打造支持 400 万 token、“海底捞针” 、命中率极高的新模型,也是想解决面向 Agent 的记忆相关问题。


晚点:不过 OpenAI 最近推出的全局记忆功能,理论上是不是没基于新模型?理论上它那个模型的上下文大小应该没有变化。


夏令:所以大家都在猜测它到底怎么实现的。传统的 RAG 命中率肯定不够,而且从静态的 RAG 到 Agentic RAG 的演变,它到底是什么机制?是 context 机制、RAG 机制,还是其他什么?我们都很好奇,我感觉行业里很多人都在猜测,并用自己的方式尝试。


晚点:你被灰度测试到这个功能了吗?


夏令:还没有,但我认识的一个创业者被灰度了,而且他有被感动到。


晚点:他被记忆功能的哪点感动到?


夏令:记忆功能对他职业和性格的描述触动了他内心。它识别出他是 CEO,还精准捕捉到他的管理风格和人性闪光点,这也是我作为投资人很认可他的地方。从工具中提取他过往使用的记忆,最后做出对他个人的总结,我觉得这一点是让人 “wow ” 的时刻。


除了记忆,编排层里还有很重要的规划和推理能力。只有具备这些,Agent 才能真正自主完成任务。现在的情况是:如果任务非常明确,Agent 可能不需要超强推理能力的模型,靠工作流(Workflow)就能做规划和推理。


晚点:Workflow 最近也是一个被频繁提到的高频词,可以解释一下吗?


夏令:简单说,Workflow 和人类日常完成任务的工作流是有差别的。Workflow 本质是基于对人类任务流程的理解,把任务拆解成更细、更多步的、推理的串并联。


比如人类按工作手册完成任务,因为人有智能,所以很多隐藏的信息、知识、包括任务,其实人可以自主的去完成。但现在 Agent 的模型、推理、规划能力还不够,所以面对明确任务时,需要把流程扩展成极细粒度的、连续的、推理的串并联,规避掉现在模型不具备的这些隐藏的认知和推理能力,从而提升任务完成的可能性,以及把目标人群服务的更好。


晚点:简单来说,这是基于模型现有的边界和能力,设计的一套比人更细的 SOP?


夏令:对,可以这么理解,甚至在一个环节里可能不止一个 Agent,所以有时候会遇到 Multi-Agent 的机制。比如一个 Agent 负责整体进度,一个负责情感输出,一个负责数值计算,最后通过串并联协作完成任务规划和推理。


晚点:也可能由不同模型支持?


夏令:目前确实是这样。比如推理用 DeepSeek 或 Anthropic Cloud,情感输出用豆包或 OpenAI 的模型。这其实是一个多模型、Multi-Agents 串并联混用的 Workflow。


晚点:理论上,如果模型能力越来越强,可能不需要这么多步骤或 Agent 协作,单个模型就能搞定。


夏令:理论上来说是的。但越往垂直领域深入,壁垒肯定还是存在的,想做好垂直领域其实并不容易,这是第一点;第二点,壁垒会体现在哪?如果你先发制人,摸索出一套可行的 Workflow,这在一定程度上算是产品定义的壁垒或者说是工程壁垒。但随着 Agent 门槛不断降低,这种壁垒肯定会被削弱,所以未来的壁垒一定会转移到其他地方,比如平台效应,或者新的组织、业务流,而不仅仅是现有的工程本身。


晚点:刚才聊了推理、编排和记忆能力,可以讲讲 Agent 框架中工具使用能力的提升趋势是怎样的,你们有看到什么变化吗?


夏令:我觉得工具的变化最近几个月非常显著,但工具并不仅仅指工具本身,还包括整个工具生态。各家都在做自己的工具,最典型的 MCP 协议,极大扩展了工具生态,让 Agent 能触达的边界显著扩大。但回过头来看,Anthropic 推出 MCP 的初心,并不是为了让其他 Agent 发展的更好,而是为了让自家 Agent 用得更好。但因为 MCP 有行业价值,后来被 OpenAI 等公司接受,慢慢形成了生态。


问题是 MCP 生态形成后,最大受益者是谁?其实还是 Anthropic、OpenAI 这些模型公司。


晚点:你为什么觉得最大受益者是这些模型公司?做 Agent 应用的公司不也是受益者吗?


夏令:因为本身来讲,最需要各行各业 API 接口的其实就是做通用的人。举个例子,对于 Manus 来说,据说它其实内置了 29 个工具。


晚点:我是这么理解的,MCP 是一种协议,比如工具 A 支持 MCP 后,Manus 作为 Agent 应用就能方便地调用它。Manus 集成的 29 个工具里,有多少是原本就支持 MCP 可以直接调用的,还是都由 Manus 自己开发的?


夏令:它在 Twitter 提到过,当时开发时还没有 MCP,应该是 Function call 等方式进行工程化开发的。


晚点:那 MCP 生态变得更繁荣之后,像 Manus 这样的公司就能更便捷地调用更多工具吗?


夏令:对,但问题是对 Anthropic、OpenAI 来说,也是一样的。


晚点:最近我跟一些做 Agent 的人聊,他们提到现在有个瓶颈:当一个 Agent 调用超过 50 个甚至更多工具时,完成任务的质量会大幅下降。现在的问题在于,就算有很多工具支持 MCP 协议,但模型能力跟不上,无法有效调用这么多工具。


夏令:因为 MCP 本质上还是 Function call 机制,当 MCP 多了之后,模型需要从中选择合适的工具,而选择是否准确,完全考验模型能力。这个问题目前确实没解决,但我觉得随着模型能力提升,会逐步得到改善。


但 MCP 这个事情,我们前面提到的整个框架里各个环节的能力都在快速提升,同时 MCP 又搭建起了整个工具生态。这时候就又回到那个问题——谁来做这个通用入口?现在,尤其在中国,所有互联网大厂都想成为通用入口。



通用入口大战,下半年就拉开序幕



晚点:这个观察其实已经从技术趋势演变成了商业竞争的变化。我们可以展开讲讲 Agent 作为通用入口可能带来的变化,或者说你已经看到哪些公司有动作了吗?


夏令:从海外来看,Anthropic、OpenAI、Google 都想成为那个通用入口,都想借助 MCP 生态布局。在国内,阿里、字节、理想、腾讯、美团,甚至未来可能包括小红书、滴滴等公司,都想做通用入口。


这里说的通用入口,不是指它们只做自己核心业务的 Agent,而是定位为能回答问题、写邮件、作图、识别图片等的通用型 Agent。


晚点:理想、美团和小红书也有这样的野心吗?


夏令:小红书目前不确定,但至少理想和美团已经在公开场合明确表达了的。对阿里、字节、腾讯来说,这更是不可能放弃的。但问题是,我们需要这么多入口吗?毕竟用户的注意力是有限的。


晚点:其实微信现在就有点类似这个入口。打个简单的比方,如果把微信看作一个 Agent,你在微信里点开的小程序,就是通过图形界面调用工具的一种形式。


夏令:但关键在于,美团、拼多多、滴滴等曾经从微信九宫格生态中脱离,好不容易才建立独立流量的平台,内心是极度的不愿意再回到其他公司的 “通用 Agent 九宫格” 里,成为被分配调度的资源。


晚点:像腾讯、字节、阿里这类本身处于生态顶端的公司,布局通用 Agent 既是野心驱动,也是一种防守 —— 如果不做,可能在 AI Agent 的新生态里被盖掉了。


夏令:我想,滴滴和美团应该不太愿意将自己积累的司机、商家和外卖骑手被其它公司随意调度。


晚点:不过对它们来说,防守起来其实也不难吧?比如滴滴,它不用自己成为那个入口,要是别的 AI Agent 想实现通过语言交互来打滴滴的车,滴滴不支持不就完了?


夏令:短期内它们肯定不愿意支持。但问题在于,可能会有其他竞争对手选择支持。


晚点:你的意思是说,比如美团和饿了么,如果美团不接入 Agent 生态,而饿了么选择接入并借此提升订单量,可能会倒逼美团跟进。


夏令:但对美团来说,它肯定更希望自己掌控流量和入口,因为大家都知道入口的价值。毕竟在上一个时代,美团从别人的入口获取流量成长为千亿美金的公司,不希望自己很快又变成一个依附于他人的供应链整合公司。


晚点:你大概知道有些公司想做什么形态的 Agent 吗?


夏令:通用 Agent 的产品,可能是手机上的一个 App,但它得是通用 Agent。


晚点:你觉得大厂的竞争会放在手机端,而不是电脑端是吧?毕竟像 Manus、DeepResearch、Computer Use 都更偏云端。


夏令:这还是和用户群有关,使用美团、滴滴的人绝大多数都在手机端操作。或者说适用场景主要在移动端,而且现在还看不到下一个智能硬件终端。


这里面还有另外一个问题:假设下一代智能硬件是眼镜形态,它一定是以 AI 为核心的硬件,那这个硬件的操作系统应该是一个 AI Agent。因为可穿戴设备的空间、续航、性能是有限的,所以大概率只能运行 3B 或 7B 参数的模型,而且只能常驻一个模型。那这是不是一个入口?如果是,入口的可选择性会更小。


晚点:但眼镜成为下一个终端的时间是不是还很远?


夏令:我觉得很有可能是两三年就会发生的事情。


晚点:这算是比较乐观的估计了。不过另一方面,确实看到大厂都在布局智能终端,比如阿里的天猫精灵在做眼镜,字节也在做。


夏令:还有另一个我觉得挺有意思的问题,如果 Agent 真的普及了,可能会对现有商业模式,尤其是各大厂,带来很大挑战。最明显的就是广告 —— 过去很长时间里,互联网广告变现这套模式非常成功。问题是,当我们让 Agent 帮我们完成 “save time” (节省时间)的效率型任务时,人就不再需要主动浏览信息了,广告触达量是不是就会减少?你看 Perplexity 和豆包,它们的搜索结果排序肯定不是 Google 或百度 API 返回的原始结果排序。


晚点:对,搜索这块很典型,比如它们调用了 Google 或百度的 API,但展示的不是竞价排序的原始排序,这就可能导致这部分广告收入减少。


夏令:我觉得面向人类的搜索、推荐逻辑,和面向 Agent 的肯定不一样,这对原本的商业模式确实是个挑战。


晚点:那抖音这种 App 呢?


夏令:它属于 “kill time”(消磨时间)。前面提到的搜索,比如找工作信息、购物信息,这类行为本质上带有 “save time”的属性;而抖音这类应用不同,用户使用时更偏向 “kill time”。我觉得在这种场景下,广告模式反而可能被放大 —— 因为广告可以植入到上下文内容中,比如已经有公司尝试把广告嵌入 AI 生成内容,其转化率比传统模式高数倍。


晚点:模型公司的收益方式主要是订阅吗?


夏令:海外是靠订阅国内 “save time” 的通用型 Agent 约等于免费。但订阅是好的商业模式吗?或者说订阅是 AI 时代高效的变现模式吗?我觉得这是打问号的,至少广告的变现效率比订阅高,因为广告可调维度更多。


当然,行业初期未必很快找到新变现方式,但这确实是个潜在问题。至少在中国,通用的、“save time” 的,约等于是免费的,那他一定会通过别的商业化方式去变现,而广告在这个领域可能不是好变现的方式。


晚点:你提到很多大公司、中型互联网公司都想做这个方向,谁的机会更大?


夏令:国内来看,字节、阿里、腾讯,甚至小红书,都是今天很重要的流量入口,大概率会努力留在牌桌上;全球范围看,机会属于能拿到一线模型,同时又有比较好的身位的公司。


一线的模型 + 一线的身位,两者结合机会更大。


晚点:在海外公司里,可以说是 Google、微软、Meta?


夏令:首先 Google 肯定会争取,微软之前搞 AIPC 也是在争入口,Meta 同样想争。 我觉得 Meta 手里其实一直握着一系列好牌。当然,Meta 也是家很神奇的公司,这些牌能不能打好一直是个谜。


Meta 有很多先天优势,包括过往投入积累的势能。它有 Facebook、Instagram 这样顶尖的社交平台,在模型层面还是开源领域的领导者。虽然最近 Llama 4 受到诟病,但从之前的投入能看出,这家公司对小模型(比如 7B 参数的模型)一直投入巨大。比如训练 Llama 3 的 7B 模型时,大概用了 15T 左右的数据量,而训练 70B 模型时,用的数据量反而更少。我一直在想,Meta 是不是对小模型有特别的偏好?我大胆猜测一下,这可能和它在眼镜端的布局有关。Meta Rayban 虽然火起来和 AI 没有直接关系,但明眼人都知道,它很可能成为重要的潜在新硬件终端。


咱们之前也聊过,在新硬件终端上,由于资源有限,很可能会形成新的入口。从苹果和 Meta 释放的信息来看,这类终端大概率会搭载 3B 或 7B 参数的模型。如果把 Meta 在模型层面的投入,尤其是对 7B 模型的侧重串联起来看,它似乎正在向自己最有优势的端侧场景倾斜。


晚点:你刚才也提到,端侧的通用 Agent 可能会成为 OS(操作系统),需要常驻内存。


夏令:Meta 为了让智能眼镜真正成为下一代终端,希望摆脱对手机的依赖。目前几乎所有眼镜都依附于手机,这意味着占据手机端通用 Agent 的公司会更有优势。但 Meta 野心很大,想绕开手机单独做一个盒子,打造独立于手机的新终端。


从硬件层面看,Meta 释放了很多信号:比如摄像头感知芯片,甚至眼镜里的主控芯片都是定制的。这让我们感觉,Meta 正瞄准把眼镜推成下一代 AI 终端,在软硬件层面都做了超前且大量的投入。像 Anthropic、OpenAI,包括国内的 DeepSeek 等模型能力强的公司,更希望借助模型能力尽快推出下一代模型,引领模型发展,抢占身位。


但对腾讯、字节、阿里来说,因为它们本身身位就在这个地方,比如稍晚几个月推出,对他们来说有没有那么实质的影响?这个可能要打个问号。我觉得云端或者现有手机端的竞争是最激烈的。


晚点:有个问题,如果阿里、腾讯、字节都想做通用 Agent,而它们的生态相对封闭,那如果我作为字节的 Agent,我能跨平台去阿里买东西吗?


夏令:现在国家不是在反垄,鼓励开放吗?我觉得这可能在一段时间内是打问号的事情。


晚点:刚才其实讨论过一种可能性:一开始头部玩家可能不愿意开放,但如果市场上有其他玩家愿意开放,并且通过开放获得了好的效果,可能会倒逼第一名做出调整。


上次我和戴雨森聊,他有个想法挺有意思 —— 他认为在某一技术革命早期,第一个实现 PMF 的产品,有可能是 “甜蜜的诅咒”、陷阱。你觉得如果真有人做成了 Agent 入口,这还会是个 “甜蜜的陷阱” 吗?


夏令:我觉得现在有点偏终局了。


晚点:所以今年下半年就能看到终局的序幕拉开?这么快?


夏令:我觉得很有可能。


晚点:最大的变量是不是取决于模型能力进化的速度?


夏令:可以这么说,以及谁掌握了模型能力。甚至可能比我们预想的更激进 ——To C 通用 Agent 的诱惑对大厂和模型公司来说太大了,可能在模型能力还没完全突破时,大厂和模型公司之间的竞争序幕就已经拉开了。



模型大厂 vs 应用创业,边界在哪儿?



晚点:接下来想聊聊创业公司和创投领域在 Agent 方向的变化。如果判断通用 Agent 入口的竞争很快会到来,这会如何影响新的小创业公司的生存空间?最近大家讨论较多的,是做模型的大公司和头部大模型创业公司(比如 Google、Meta、OpenAI、字节、阿里等),与不做模型、只做 Agent 应用的公司之间的关系和边界问题。


引发这个讨论的一个具体事件,是 GPT-4o 释放了文生图功能,效果非常惊艳,文字处理的一致性也很强。于是大家开始讨论,像之前基于 MidJourney、Stable Diffusion 做的工作流 Agent(包括你们投资的 Liblib),是否会因为 GPT 模型能力的提升而价值降低?


夏令:要回答这个问题,得先看目前 Agent 的能力边界在哪,以及模型公司的能力边界到底在什么地方。其实不管是 DeepResearch 推出后如何看待 Perplexity,还是 GPT-4o 推出后如何看待 MidJourney 和 Liblib,这些问题本质上是类似的,那时候的 “模型”其实是打引号的。我们可以回到 Google 白皮书提出的技术框架,这个框架能帮助我们理解模型公司的布局和 Agent 产品的能力边界。


晚点:就是我们前面讨论的模型本身的能力,包括推理、记忆、目标理解的编排层能力,以及工具使用能力,这些大模型公司可能都会自己做了。


夏令:其实 Anthropic 也发布过类似白皮书,不管是推 Computer Use 也好,还是推 MCP 也好,从这个框架能看出,模型公司不仅仅只做 Agent 模型本身。



晚点:其实是 “模型 + 其他能力模块”,边界就已经扩展了。


夏令:对,所以现在模型公司推出来的可能像是一个 “博士毕业的应届生”—— 既有丰富知识储备,又能处理常识性任务,比如查信息、完成日常的任务,只要是基于通用工具的任务,它都能做。


但应届生和专业人士的区别很明显:第一,专业人士可能在模型能力(类似 “智商”)上不如博士,但拥有行业专属的思维方式和工作流,这是应届生没有的;第二,专业人士积累了行业内的大量数据、知识和经验,类似 “长短期记忆”;第三,专业人士能熟练使用领域专属工具。


通常看 AI,模型公司会用坐标轴来表述 ——X 轴是泛化性,Y 轴是精确性。泛化性对应的是通用能力,精确性对应的是专业能力。从这个角度讲,模型公司现在就是在打造泛化能力越来越强的 “应届生”—— 能凭借知识、推理和常识处理 80% 的通用任务,那剩下的 20% 其实就是偏专业领域的。


GPT-4o 也是一样的,它的定位一定是通用型的,而不是专业方向。因为很明显像你我这样的普通用户(非专业人士)对图片生成的需求是 “一步到位”—— 不太在意细节,对质量要求也不高。但专业人士不一样,他们清楚成果需要一步步打磨,对细节和质量有很高要求。


晚点:我能不能这么理解:在你的逻辑里,GPT-4o 出来后,对即梦的冲击可能比对 Liblib 更大?因为 Liblib 服务的是广告设计等领域的专业人士,而即梦是面向 C 端的文生图应用。


夏令:文生图产品如果瞄准大众市场,必然会受到模型厂商的冲击 —— 毕竟模型公司从 L1-L3 的升级,本质上就是在引领通用化趋势,离通用主航道越近,冲击越大。


晚点:以 OpenAI 为例,它本身就有 C 端产品,这次 GPT-4o 推出文生图功能却没开放 API,就相当于你想套我的壳,都不给机会。


夏令:我觉得之后可能会开放 API。


晚点:后面可能会放吧,但目前这个阶段他肯定是想靠独一份的功能吸引 C 端用户,这是它的策略。


夏令:但对专业人士来说,GPT-4o 的功能远远不够。所以从产品本身来看,创业公司要么服务专业人士提供垂直工具,要么服务场景做 Agent。但本质上都是在规避模型大厂从 L1 到 L3(无论语言、图片还是视频领域)的主航道竞争。毕竟离大厂主航道太近,对创业公司肯定不利。


晚点:你怎么看 4o 发布之后,Adobe 的股价大跌,你觉得这是市场恐慌吗?


夏令:其实这反映了资本市场对于 Adobe 未来前景的看法。Adobe 虽然表现的在积极追赶 AI,但实际产品加 AI 的效果很差。资本市场对这件事的反应,我觉得背后可能有两层逻辑:



可以看出,整个市场是从专业到泛化的过程。这也说明,只要在某个具体需求层面深耕,创业公司依然有机会开拓市场。


还有个很有意思的点:从月活来看,这三个市场(或三家公司)的数据差异很大。Adobe 创意套件全球月活大概 1 亿多人,Canva 约 2 亿多人,美图秀秀全产品线如果没记错是 2 亿多人。但三者的价格差距很大 ——Adobe 正版最贵,每月约 50 多美金;Canva 约 10-15 美金;美图秀秀最便宜,可能只要 2-3 美金。付费率方面,Adobe 付费率最高,Canva 用户其次,美图秀秀付费率最低。因为越是面向泛 C 端用户,大家越倾向于使用免费产品。


说回 Adobe,我之前的观点是:它的 Workflow 很可能被文生图颠覆,而 GPT-4o 推出后,大家对这个判断的信心更强了。原因在于,Adobe(尤其是 Photoshop)的崛起,本质上是因为开创了图层编辑模式 —— 基于图层叠加、滤镜等工具,确立了图像编辑的标准 Workflow。但文生图的逻辑里已经没有 “图层” 的概念了。


再看 Liblib 这家公司,我认为 GPT-4o 的基模提升之后,反而利好 Liblib 这类瞄准专业用户的文生图公司,帮助它们进一步抢占市场。因为 Liblib 超过一半的用户是专业人士,他们需要基于 LoRA 生态选择审美和风格,而风格与审美恰恰是 Liblib 的核心壁垒 —— 这些很难被 GPT-4o 这类 AI 直接取代。


此外,基于 GPT-4o 的交互创新(如 Prompt、ControlNet)可以帮助专业设计师更快产出高质量作品,甚至达到 Photoshop 的效果。所以在我看来,Liblib 可能会更快转型为 Agent 公司,以文生图为核心重构 Workflow,整合 LoRA 生态、人机交互和各类工具(包括 Photoshop),逐步抢占专业市场。


晚点:模型公司和 Agent 应用公司的边界在哪?


夏令:关键在人群区分,模型公司其实都有服务泛 C 端用户的野心,它们会把 Agent 的能力做到能处理 80% 的通用任务 —— 只要是通用型任务,模型公司肯定会去做。但面对专业、垂直领域的任务,它们会选择降低应用层 Agent 的门槛,因为可能 80% 的任务或业务流程,直接被 Agent 模型包揽。


但他们不会两者都做,因为从框架层面讲,越想做专业的事,所需的工作流程、推理能力、工具、数据就会越垂直、越长尾,这会导致成本越来越高。说白了,模型公司的核心产品特点是基于某种能力,通过泛化让整体边际成本变得很低。


晚点:如果用以前比较流行的话说,就是解决 “最后一公里” 的问题。


夏令:“最后一公里的问题” 模型公司不会去解决,因为这不是它们的优先级 —— 它们更想服务泛 C 用户。所以我觉得,针对专业人群的工具和垂直行业的 Agent,模型公司不会碰,但会去赋能。


晚点:在你的逻辑里,像 Manus 这种主打通用 Agent 的产品,未来的机会有多大?它是不是很可能处于模型公司的主航道上?


夏令:我觉得 Perplexity、Manus,某种程度上都离模型公司的主航道非常近。所以我挺关注这些公司的数据增长情况。



垂直 Agent 创业机会



晚点:接下来可以详细聊聊垂直 Agent 领域的机会 —— 你们已经关注甚至投资了一些项目。在你的逻辑里,通用 Agent 更适合大公司或掌握模型能力的玩家,而对大多数纯做应用层的创业公司来说,垂直领域的成功概率可能更高?


夏令:我们关注的核心机会其实就两块:一是“save time”,但必须深耕专业人士的垂直场景;二是“kill time”,偏向文娱、新内容类。我们前面讨论的 Perplexity、Liblib 等,其实都属于专业工具范畴。


晚点:这些都是帮你节省时间、提升效率的。


夏令:对,但现在垂直领域 Agent 的关注热度上升,部分原因是 DeepSeek 等模型公司火了之后,引发了老板们的技术焦虑。这种焦虑下,最大的受益者可能是 RPA(机器人流程自动化)—— 老板们分不清 AI 和 RPA,只知道这个东西是自动化的,提效了、有帮助了,比较直接的缓解了一些老板的技术焦虑。


第二点是,现有 SaaS 和企业信息化公司正在基于模型能力 “打补丁”—— 比如酷家乐、神策、易快报等我们投资的公司,都在组建 AI 团队,都在把 AI 能力和现有的产品做结合。但这对创业公司来说不算机会,因为本质上没有改变原有业务逻辑或工作流。


还有一点是,我们看到美国有很多瞄准垂直行业的 Agent 创业公司,但我觉得中美之间还是有很大差异的。所以回到我们的视角,垂直领域的 Agent 创业公司机会究竟在哪里?其实有一些关键原则可以先明确,这些原则和上一波产业互联网、垂直 SaaS 的经验教训是相关的。


在中国,大家都知道 SaaS 不好做,垂直 SaaS 更难。一方面,真正愿意为 SaaS 付费的企业很少,付费数量少、付费能力有限;另一方面,中国企业通常更愿意为效果付费,而不是效率。中国企业能接受的效果主要有两种:一是提供信息,比如销售线索、招聘信息、货物信息等,让企业自己完成后续流程;二是直接交付结果,这就意味着,创业公司大概率需要直接交付结果,而不是像美国那样走 SaaS 卖工具的逻辑。


那么,如何找到机会呢?基本有这几条:



从这几个例子能看出,真正有机会的公司,关键在于能否重塑整个业务流程甚至组织架构,这是最有价值、壁垒最高的方向。如果切入的领域本身小而散,竞争对手弱,同时又是 “低垂的果实”,就更容易 “起牌”,或者说这样的切入点更有利于创业公司发展。


晚点:你有看到具体例子吗?


夏令:我举两个,一个是律师,一个是销售领域,中美在这两方面的差异都很大。


晚点:是指服务律师和销售的 Agent 吗?


夏令:对,我们可以对比一下。在美国,不管是 Harvey 还是做 SDR(销售 Agent)公司,都是按席位收费,一个席位大概 2000 多美金一个月。它们的核心价值就是帮用户节省时间,服务的是主流市场 —— 比如法律行业的合同审查、销售行业的 SaaS 软件销售,它属于辅助人类的工具,收取的是席位费。比如 AI SDR 按调用量收费,超过一定次数额外加钱,一个 SDR 每月大概 2500 美金;Harvey 帮你做合同审查或问题确认,也是类似模式。


晚点:所以这和律所里负责合同审查的团队人数无关,主要和使用量挂钩。


夏令:用了这类工具后,企业可能会减少相关岗位的招聘数量,本质上还是提效。可以看出,美国走的是典型的 SaaS 工具路线 —— 辅助人类、提升效率。不为结果负责,只为效率付费。


但中国不一样,中国的是把整个业务环节承包下来,直接交付结果,然后收取按 take rate 的抽成,抽成比例大概在 10%-30% 之间,不同公司和业务有所差异。同样以法律和销售行业为例,中国的创业公司会挑选利基市场,选择特定品类,把整个业务环节完整外包出去并收取抽成。还有一点,中国的 Agent 不是辅助人提效,而是替代专业人士或指导新手 —— 让小白也能完成专业人士的工作。这是中美之间很大的区别。


晚点:能讲得更具体点吗?比如说,现在有哪些事 AI 能干,还能完全代替人赚钱呢?


夏令:我们去年底投资的艾语智能,这是一家 AI Agent 公司,同时它也是一家律所。它找了个利基市场,专门服务金融机构,接手金融机构里对私和对公的批量诉讼案件。以前,这类案件数量庞大,传统律所只能靠堆人来处理。但人力是有成本的,所以大量小额案件或者陈旧案件,就没人愿意去做。


晚点:银行也懒得找律所打这些官司?


夏令:对,因为律所考虑成本,也不会接这些案子。


晚点:主要是追账类的官司吗?


夏令:各种各样的追账、违约类官司都有。结果是,艾语智能在三月份一个月就立案了 1.5 万起案件。要知道,中国最大的律所一个月可能也就立案小几百起诉讼案件。


可以看到,艾语智能是一家独立的律所,和传统律所比起来,它的业务量提升可能达到 100 倍甚至更多。它是为结果负责的,不管是处理对私还是对公的案件,只要追回来欠款,它就从还款里抽取 30% 作为自己的 take rate。


晚点:顺着这个思路往下想,假如我本来就经营着一家规模比较大的律所,要是我能把 Agent 运用得很好,不自己开发,就单纯用好现有的 Agent,能不能达到和那些新型律所相似的效果?


夏令:从理论上来说,确实是有可能的。但实际操作,要从一个靠专业知识和销售关系驱动的公司,转变成一家技术驱动型的公司,这中间的转型挺难的。


晚点:再比如说电商领域,我推测有些电商代运营公司的数字化程度可能相对较高。像淘宝生态里就有不少电商代运营公司,很多还是以前阿里的人出来做的。在这种领域,是不是本来就存在于这个领域的专业服务型公司,只要加上 Agent,就能取得比较好的效果,倒不一定非得有新公司来做这件事?


夏令:我觉得还是会有一批新公司涌现出来,当然也不排除原来的公司会转型,然后增加这方面的能力。但这里面的关键,就像之前说的,最高的壁垒在于你能不能重塑整个业务流程,甚至重塑组织架构。你是一家全新模式的律所,还是仅仅对原来的某个环节做了升级,这两者的差别挺太大的。


就拿电商代运营公司来说,它们面临的一个比较大的挑战是,货物和流量都掌握在别人手里。所以从某种程度上讲,它们在长期发展过程中会受限,不知道自己到底能做多大规模。因为一旦业务规模做大,人家就可能会来限制你。


还有第二点,现在大家都开始关注 Post-training。这些公司就在想,AI Agent 的能力能不能实现自主优化。比如,用一个 Agent 可能很容易就能做到 10% 的转化率,但要是它有自优化能力,在模型提供的 Agent 做到 10% 转化率的时候,能实现 13%、15% 的转化率。能不能持续迭代?以及上限会有多高呢?这是他们正在思考的问题。


另外还有个挺有意思的点,在一些 “人间法则” 比较重的地方,Agent 不一定适用。我之前也提到过,有些事 Agent 适合做,也有些事它最好别碰,或者说不一定能做成。就像在美国,有很多 AI Agent 能帮忙做代记账、自动关账。但在国内,财务领域就有点不一样。在国内,很多企业都有做两套账的情况,那 AI 要不要帮忙做另一套账?这背后的法律风险、业务风险都不小,我觉得不太适合中国公司去轻易尝试。


“人间法则” 不管是潜规则也好,主观因素也罢,它不是单纯靠技术就能解决的问题。我觉得技术还是更适合应用在那些可以标准化、结构化的问题上。


晚点:kill time 的 Agent 是什么?其实我感觉大家很少讨论那种能帮你消遣、打发时间的 Agent。你现在看到的它的形态、趋势是什么?


夏令:在 kill time 这个领域,我们觉得 AI 还是有挺大机会的。就拿星野这类虚拟决策互动平台来说,从某种程度上讲,每个虚拟决策都相当于一个 Agent。不过,它的 Agent 内核和 OpenAI 提出的基于 save time 的 Agent 内核有些差别。它能不能像人一样陪伴你,给你提供情绪价值?它更多是从人的视角出发,而不是从完成任务的角度来看待这些 Agent。


晚点:就类似于,以前没那么多 AI 含量的时候,陪你的可能是个布偶,它不会动,也没什么反应。后来可能是猫咪、宠物,那未来可能出现真的像人一样,能进行情感交流。


夏令:不过在我们看来,这其实不算真正的陪伴,只是一种新形态的内容。现在 kill time 领域里的这些 Agent,目前更多能提供的是情绪价值,还没办法建立真正的情感关系。我觉得目前技术的边界在这个地方。


因为陪伴在一定程度上是需要建立情感关系的,但这对把握人的情绪、了解人,甚至记忆等方面要求很高。所以现在更多是用户到平台上,找个像人的 Agent,即时地满足一下情感需求。


晚点:情绪价值更片段、更短期,可以这样说吗?


夏令:一方面是情绪价值,另一方面,很多时候这种情绪价值是通过角色扮演获得的。


我之所以觉得它是新型内容,是因为这类内容形态或 Agent 有个很明显的特点,就是参与度非常高。可以说,这可能是少有的创作者也是消费者,消费者也是创作者的情况。以前像抖音、小说、音乐,说白了都是创作者创作完,你去消费。但现在,你参与到了创作过程中,每一次互动都是创作的一部分。之前也有一些类似的雏形,比如《完蛋!我被美女包围了》《底特律:变人》这些,你可以通过选择题引导故事主线,有一定参与度。但在这些作品里,核心的自由度还是有限的,而且有明确的故事主线和编辑范围。但现在这些 Agent 的高参与度、高自由度非常突出,我觉得这就是这类内容的特点。因为有这个显著特征,它就有机会成为一种新的内容形态。


不过,这种内容目前也存在问题,就是渗透率和留存率不高。因为现在大家喜欢的消费内容,一是要有高沉浸度,不管是多模态的形式,还是剧情化的方式,都得让人沉浸其中。用文字和视频呈现,肯定是视频更吸引人;有好剧本和弱剧本,大家肯定更喜欢剧情丰富的内容。所以,大家喜欢的内容得有很强的沉浸感;第二点,大家喜欢参与门槛低的内容。毕竟现在你得输入一堆字,说实话,想象一下打字都挺耗精力的,大家已经习惯了直接去消费内容。就像休息的时候打开抖音,啥也不用干,看看就行。


所以说,虽然现在这种内容因为高参与度,是一种很显著的新形态,但它的问题在于沉浸感不够,参与门槛又高,所以只会在一些核心用户群体里有较好的留存。不过,模型技术在不断发展,它自然会变成多模态的形象,实现多模态交互,剧情化也肯定会逐渐加入。


晚点:这和推理能力有关吗?


夏令:肯定有关。所以,它的沉浸感肯定会提升,随着模型能力进步,这是必然的。第二点,肯定会降低用户的输入门槛,以后大家不用再打字了。可能通过选择,也可能通过说话。但选择的时候又有问题,怎么让你更好地选择,既不被固定线路限制,又能保持高参与度,这对推理能力要求很高。所以等模型整体能力提升后,沉浸感不够和参与门槛高这些短板肯定能持续解决。随着这些问题解决,它的渗透率必然逐步提高。


我觉得,模型能力提升后,kill time 的这些 Agent 体验会明显变好,从而拉升渗透率。这种新形态的内容,是有机会发展成新的内容平台的。要是用 AI 生成的是现有的内容形态,比如短视频、小说,那大概率还是离不开现有的分发平台,还是会在抖音、番茄小说、起点中文网这些平台发布。但只有形成新的内容形态,才有可能诞生新的内容平台。


晚点:接下来咱们聊聊具身 Agent。好多人在说 Agent 的时候,都没有把具身算在狭义的 Agent 里,不过明势在这方面有跨软硬件的独特视角。最近,具身相关的话题讨论挺多的,像朱啸虎之前有个访谈,聊 AI 投资的时候就提到,他们之前投了一些具身公司,现在都在退出,因为他们特别不看好具身智能这个方向,觉得离商业化还非常远。你们也投了具身相关的公司,那你怎么看具身 agent 的成熟度呢?咱们之前说大语言模型的能力,从聊天机器人 L1,到推理者 L2,再到 Agent L3,具身 Agent 要达到 L3 这个阶段,大概还得多久?会是什么样的节奏表?


夏令:朱老板一直是一个投资业绩炳然,同时又颇有争议的人物。我看了他的采访之后,觉得他对具身智能商业化现状的描述,确实符合实际情况。不过他不看好具身智能和人形智能机器人这个结论,我持相反意见。


先看现状,具身智能在过去几年确实受益于 AI 的快速发展。但坦率地说,如今具身智能的智能化水平还达不到大语言模型 GPT-3 的 moment。大家把 GPT-3 moment 视为大语言模型发展的里程碑,是因为那一刻它让人们看到智能的泛化性可以通过 Scaling Law 的方式实现。而现在具身智能的预训练部分尚未收敛。预训练没有收敛的意思是说,就是还没找到获取海量数据的方法,也不清楚该如何加工数据,以及用什么算法体系能实现泛化性、而且可以 Scaling Law。


晚点:所以你认为,具身智能的真正问题,不是表象上的现阶段无法商业化,而是还没找到可去 scale、可泛化的路径。


夏令:过去几年,具身智能在硬件层面,尤其是工程化成熟度上有了很大进展,四足、双足机器人发展迅速,今年灵巧手技术预计也会有突破;算法层面,模仿学习与强化学习的结合,相比过去的工业机器人、服务机器人,也提升了智能化水平。但在泛化性,特别是大规模场景的泛化能力上,仍然没有实质性突破。


晚点:这才是这个行业最大的风险?


夏令:对,我们不希望下一代机器人和上一代一样,只能成为垂直行业的集成商。现在不是市场没有需求,而是技术成熟度所能实现的商业价值,和大家的预期存在差距。


晚点:那该如何解决具身智能 Agent 的这些问题?你们也投资了相关公司,如果解决不了又该怎么办?


夏令:我认为现在关键是信心问题。基于现有的硬件以及模仿学习与强化学习技术,具身智能或许能在某些利基市场找到 PMF 点,但以当前的技术水平,和大家的预期肯定有差距。所以在朱老板的眼中,具身智能确实目前还没有达到 PMF,或者在绝大多数场景下都没达到。


从科学发现、技术突破、工程化复制到产品落地这四个阶段来看,对朱老板来讲,现在的具身智能处于技术向工程转化的阶段。对于大家期待的应用场景,无论是家庭、工厂还是服务业,它都处于技术转工程的阶段,也就是 knowledge and problem fit 的阶段,而非 product and market fit 的阶段。所以我觉得目前的具身智能就像半杯水的状态。


如果以寻找 PMF 为目标,确实很难找到合适的投资标的;但如果对具身智能的长期发展有信心,把投资看作早期科技项目,相信技术会实现突破,也愿意耐心等待商业化落地(可能需要三到五年甚至更久),那现在仍有很多企业值得投资。

展开阅读全文

更新时间:2025-05-07

标签:科技   夏令   入口   竞争   模型   公司   能力   工具   智能   领域   专业   技术   产品

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top