AI时代新起点，AI Agent，大模型时代重要落地方向

报告出品方：东吴证券

以下为报告原文节选

------

1. AI AGENT：LLM提供新基座，自动化/拟人化是两大方向

1.1 AI AGENT：感知并反应，具备自主性/可迭代/规划性

智能体agent：通过传感器感知环境（收集信息）并通过执行器作用于该环境（采取行动）的事物。 Agent概念最早起源于M.Minsky(AI之父之一）于1986年出版的《Society of Mind》（也是神经网络热潮开始的年份），1994年AI学术界内便已开始较多对agent的讨论，本篇报告我们采用22年出版的《人工智能：现代方法》（第四版）中的定义。
理性智能体概念是研究人工智能方法的核心。区别于普通计算机程序，理性智能体具备自主性、可学习迭代、可制定并实现目标等特点。人工智能专注于研究和构建做正确的事情的智能体——理性智能体（Rational Agent/Intelligent Agent，也是本报告“AI AGENT”定义），即设计理性智能体程序实现智能体函数，完成从感知到动作的映射。对于每个可能的感知序列，给定感知序列提供的证据和智能体所拥有的任何先验知识，理性智能体应该选择一个期望最大化其性能度量的动作。

1.2 新时代AI AGENT：LLM+规划+记忆+工具，大模型重要落地方向

大模型时代的AI AGENT = LLM（核心控制器，构建核心能力）+ 规划能力 + 记忆 + 工具。其中基座模型能力至关重要。
• 我们认为LLM给AI AGENT底层提供了一个突破性技术方案：过去强化学习基于深度学习框架可让agent学到技能，但agent本身并没有真正理解问题和技能，泛化性也较差，只能用于特定领域，主要用在游戏和用来制作低维控制/计划，代表性应用是围棋领域的AlphaGo；LLM带来了深度学习新范式，思维链和强大的自然语言理解能力有望让agent具备强大的学习能力和迁移能力，从而让创建广泛应用且实用的agent成为可能。
• 由于生成式LLM存在幻觉问题，记忆力短，在实际应用中难以保持长期一致性和准确性，且agent间合作也是重要趋势，除了等待基座模型自身迭代之外，借助外部力量（向量存储、检索、代码等）是重要方法，完整的AGENT框架应该具备这些能力。我们认为补齐了大模型短板的AI AGENT更具备实用性，将是大模型重要落地方向。前特斯拉总监、OpenAI科学家Karpathy公开表示“如今AI智能体才是未来最前沿的方向”“相比大模型训练，OpenAI内部目前更关注Agent领域”。

1.3 两大方向：自动化（自主智能体）、拟人化（智能体模拟）

结合目前学术界和产业界基于LLM开发的AI AGENT应用情况，我们将目前AI AGENT划分为两大类：

• 自主智能体，力图实现复杂流程自动化。当给定自主智能体一个目标时，它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务，并不断重复这个过程，直到完成目标。准确度要求高，因而更需要外部工具辅助减少大模型不确定性的负面影响。
• 智能体模拟，力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体，后者往往是在多智能体环境中，可能涌现出超越设计者规划的场景和能力，大模型生成的不确定性反而成为优势，多样性使其有望成为AIGC重要组成部分。
• 我们认为两大方向并不是完全割裂的，相反，自动化与拟人化将作为ai agent两大核心能力并行发展，随着底层模型成熟以及行业探索更加深入，有望进一步扩大ai agent适用范围，提升其实用性。

2、自主智能体：自动化，新一轮生产力革命

2.1 自主智能体：软件新范式，非大模型玩家亦有机会

自主智能体，力图实现复杂流程自动化。真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段，AI Agent约为自动驾驶的L4阶段，Agent完成任务，人进行外部辅助和监督。
自主智能体有望带来软件行业交互方式和商业模式变革：• 交互方式变革：相比过去的APP/软件，从人适应应用变成应用适应人，Agent的决策/规划/执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前Agent运行中常常遇见无休止的扩展、误解输出格式等问题，这类问题不单单依靠大模型能力提升，对Agent架构的设计和垂类数据的学习也有要求。
• 商业模式变革：按服务内容收费转换成按token收费，对Agent功能实用性要求更高。
基座大模型能力固然重要，但其只能解决下限问题，在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要，垂类/中间件玩家亦有机会。准确度和效率是自主智能体重要指标（决策式AI更擅长做的事，也意味着更低的容错度），企业对于低门槛定制AGENT也存在需求，专注具体领域/提供AGENT框架的玩家仍有可为。

2.2 自主智能体：实验性VS实操性，单智能体VS多智能体

目前行业内对自主智能体的探索主要分为四大类：

实验性项目VS实操性应用：前者虽然实际运行中出错概率高，但其创意、思路和开发经验对开发者仍有不少启发和贡献，如掀起这一波AGENT开发热潮的AutoGPT。实操性应用更加强调与实际场景的适配。
单智能体VS多智能体：单智能体相对更适用于较简单的任务（如比价等），在C端应用上有一定潜力（如chatgpt+插件、adept ai等）；但其在B端场景上略显乏力，由于缺乏完整性评估、任务队列过长、大模型幻觉等原因，基本无法完成较为复杂的工作（如软件开发等），多智能体优势相对更加突出（如metagpt、chatdev等）。

2.2.1 单智能体（1）：实验性项目，如AutoGPT

AutoGPT：2023年3月开源的第一款AI AGENT实验性项目，由游戏开发者Toran Bruce Richards开发。AutoGPT可根据用户给定的目标，自动生成所需提示，并利用GPT4和各种工具API执行多步骤的项目，无需人类的干预和指导。上线5个月在github上的STAR数量已超过149K，具有一定代表性，对后来各种AGENT发展具有启发意义。
• 使用多个外部工具：1）能克隆 github 仓库、启动其他agent、发言、发送推文和生成图片，支持所有矢量数据库和 LLM 提供商/文本到图片模型/浏览器。2）通过集成Pinecone数据库，它可进行长期内存存储，从而保存上下文并基于此进行决策改进。3）通过python内部List结构，保存text文本，每次会获取最近一次的历史信息。
• 应用场景偏向于办公/开发类（自动化流程工作流、进行深入市场研究、写代码/程序、开发网站或APP），但实操效果一般，容易陷入死循环。
• 其他相似项目：BabyAGI（4月开源的实验性项目，由小型风投Untapped Capital合伙人Yohei Nakajima开发，类似简单版本的AUTOGPT）、AGENTGPT等

2.2.1 实验性项目，如代码开发类GPT Engineer

GPT Engineer：主要作者Anton Osika在6月11日推出的开源代码生成工具，基于GPT模型，能根据用户的指示和需求生成高质量的代码，功能包括创建新函数、修复现有代码错误等等，支持多种编程语言。截至2023年9月，github星星数量接近44k。
• 亮点一：可定制性。用户可根据自己的编码风格、项目需求和编程习惯进行设置，让GPT Engineer生成符合自身要求的代码。
• 亮点二：上下文感知。可理解代码上下文，并生成与之相适应的代码片段，用户无需为适应其生成方式而做出额外调整，从而提高工作效率。
• 不足：1）无法进行迭代，在创建完应用程序后不能要求它更改任何内容。2）构建复杂的代码时仍需要一些编码经验。

GPT Researcher：哥伦比亚大学研究团队推出的AI Agent项目，专门用于网络科研任务，能够生成详尽、精确且客观的研究报告。已在github上开源，截至2023年9月github星星数量超过4k。
• GPT Researcher首先生成一系列研究问题，然后触发网络爬虫Agent从在线资源中搜集与任务相关的信息。每个获取的资源都会进行总结，并追踪其来源。最终，所有的资源都会被筛选、汇总，形成一份完整的研究报告。主要优势在于能够快速地完成研究任务。

2.2.1 实验性项目，如创作类ShortGPT

ShortGPT可实现自动编辑框架；编辑脚本和提示；创建配音/内容；生成字幕；从互联网上获取图像和视频片段，并根据需要与网络和 Pexels API 连接；确保使用 TinyDB 自动编辑变量的长期持久性等。

2.2.2 单智能体（2）：实现交互变革，中心化应用如功能升级后的ChatGPT

插件：3月份在ChatGPT plus版本GPT4模型中增加的功能，截至9月插件近900个，覆盖办公、编程、搜索、购物、本地生活等多个领域，但受限于chatgpt输入token长度的限制，每次最多启动3个插件。插件功能有效拓展了chatgpt适用领域，其中联网插件改善了大模型幻觉和数据过时等问题，但chatgpt目前只提供信息参考，还无法直接替用户转到相关应用中进行操作。
高级数据分析：7月份openai向ChatGPT plus所有用户开放“代码解释器”功能（现“高级数据分析”功能，与插件功能平行），能编写和执行 python 代码并能处理文件上传。
高级数据分析功能提高了chatgpt处理复杂任务的能力以及数学推理这类回答的准确度。
自定义指令功能。7-8月向所有chatgpt用户推出，用户可以预设自己的身份以及期望机器人在回复中所需要遵守的指令。如软件程序员可要求 ChatGPT用指定的语言回答问题，且无需解释。该功能进一步提高chatgpt个性化水平，改善大模型容易遗忘前期信息的问题。
多模态输入：9月OpenAI宣布即将开始在ChatGPT中推出新的语音和图像功能，允许用户进行语音对话，或向ChatGPT输入图像。OpenAI将在ChatGPT中向Plus和Enterprise用户推出语音和图像。多模态输入将进一步降低chatgpt的使用门槛，扩大其使用范围，向“个人助理”的方向更进一步。
企业版本：提供无限速的GPT-4访问权限；支持32K上下文输入；高级数据分析功能（代码解释器），自定义选项等。Openai在B端应用和商业化有望加速。

2.2.2 实现交互变革，去中心化应用如adept AI

AI初创公司Adept 22年9月发布大型行动模型ACT-1，ACT-1以桌面对话框形式存在，用户与网页的交互方式从过去的鼠标/键盘改变为自然语言。
用户可在电脑随时调用，在文本框中输入命令，ACT-1会一步步自动完成操作，在需要时可以跨多个工具进行协调，用户反馈后也可即时修改错误。
• 使用示例：在google sheet中创建上一季度损益栏、在“22年”列更新收入总值、增加一列展示平均支出；在salesforce中添加某产品为新产品、添加某人为新联系人、设置提醒在某个时间点给某人发邮件；在某交易平台上帮找适合的商品

Adept ：2022年创立，目标是构建能够自动化任何软件过程的AI。经历2轮融资，22年4月A轮融资6500万美元，23年3月获得来自包括微软、英伟达在内的3.5亿美元融资，投后估值突破10亿美元。
团队：1）创始人David Luan：曾任OpenAI工程副总裁（参与GPT2和GPT3研发）、谷歌Google Brain Director(参与各种大模型的训练)。 2）CTO Niki Parmar、首席科学家Ashish Vaswani：Transformer架构的提出者、《Attention Is All You Need》论文共同一作。3）其他成员基本都来自Google Brain、DeepMind、Google Research。

2.2.3 单智能体（3）：实现交互变革，可定制、平台化，如Cortex

Cortex ：Kinesys AI发布的产品，可在用户自己数据上构建AI Co-pilot，使团队能够使用自己私有数据源构建定制的AI助手，按使用量计费。
• Cortex可将GPT4等多个不同大模型组合使用，且为了让专一领域大模型更实用，Cortex会采取调用向量数据、实时联网搜索、调用指定API等方式• 在同一公司内部，同一份原始信息Cortex能获取每个人岗位所需要关键点，以特定格式输出，即根据业务部门的不同而“千人千面”。
• 客户群体：适用于个人开发者和早期初创企业，帮助他们大大减少从调试开始的工作量。目前有10多家付费用户和上千个人用户。案例：某网红SaaS公司使用Cortex，让网红们以特定的人设和粉丝们聊天。
Kinesys AI：一家使用AI革新软件开发的公司，探索使开发更具可扩展性、可访问性和效率的LLMs应用。
• 团队7人，2名创始人为华人，多人从斯坦福本硕毕业。创始人兼Nemo Yang，00后CEO，仅用2年获得佐治亚理工学院本硕学位，ML专业背景出身，曾在字节飞书和微软任职。
联合创始人兼CTO Jian Cai毕业于北京大学计算机系，曾在Google工作8年，上一份创业项目是在线协作办公文档“一起写”，后被快手收购。

2.2.3 实现交互变革，可定制、平台化，如MindOS

MindOS是心识宇宙发布的多功能的 AI agent引擎和平台，用户可在3分钟内开发具有独特记忆、个性和专业知识的可定制agent“Genius”，提供超过1000个带有性格、功能的预置Genius，准确推断意图的准确率达到97%。目前平台已提供Marketplace （分享和发现 Genius）、Workflow （支持用户仅通过拖放和简单的配置来构建Genius）、Structured Memory （从对话中沉淀结构化信息），未来还会拓增包括 Deep Thinking（深度思考）、Self Learning（自主学习）和 Teamwork（团队协作）等板块。
商业化方案：增值服务，平台增量价值定价在9.99美元/月。
• 心识宇宙22年1月底成立，已获得红杉中国种子基金、线性资本、银杏谷资本等顶级基金投资，22年11月天使轮融资后估值达5亿元。团队成员来自Meta、Google、TikTok、Alibaba等，创始人兼CEO陶芳波深耕数据挖掘领域方向，先后在美国微软研究院、Facebook Research、NASA等从事研发工作，阿里达摩院神经符号实验室创建人。

2.2.3 MindOS试用：显示思维链和相关链接，回答信息丰富

2.2.4 多智能体：AGENT团队完成复杂开发任务，如MetaGPT

MetaGPT：7月深度赋智开源的多智能体框架，快速帮助用户搭建属于自己的虚拟公司，虚拟公司中的员工都是智能体，如软件公司中的工程师、产品经理、架构师和项目经理，用户只需输入简短的需求，MetaGPT就能输出整个软件公司的工作流程和详细的SOP，如创造故事、竞品分析等。
框架分为基础组件层和协作层。（1）基础组件层建立单个AGENT操作和全系统信息交换所需的核心构件，其中环境可实现共享工作空间和通信；记忆用于存储和检索历史信息；角色封装特定领域的技能和工作流程；工具提供通用服务和实用程序。（2）协作层建立在基础组件层之上，协调单个AGENT协同解决复杂问题，建立了重要的合作机制知识共享和封装工作流。知识共享允许AGENT交换信息，存储、检索和共享不同粒度的数据；封装工作流程利用 SOP 将复杂任务分解为更小、更易于管理的组件，将这些子任务分配给合适AGENT ，并通过标准化输出监督他们的表现，确保他们的行动符合总体目标。

--- 报告摘录结束更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

（特别说明：本文来源于公开资料，摘录内容仅供参考，不构成任何投资建议，如需使用请参阅报告原文。）

精选报告来源：报告派

科技 / 电子 / 半导体 /

展开阅读全文

页面更新：2024-03-12

标签：模型实验性新起点自主方向能力代码功能智能报告项目时代用户

1 2 3 4 5

AI时代新起点，AI Agent，大模型时代重要落地方向

精选报告来源：报告派

我国工业互联网融合创新应用取得积极成效

光格科技：公司具备底层硬件设计能力，可满足高压电缆复杂应用的高性能、高可靠性要求

百度世界2023剧透：网盘、如流、智舱、GBI、千帆……公布AI原生应用最新进展

跨境电商深度赋能产业带提升竞争力

2023年中国移动全球合作伙伴大会召开

中国移动与联想集团将在5G+AI方面展开深度合作

董昕：加快5G专网、智算超算中心建设以及视联网规划部署

（科技）猴子移植基因编辑猪肾后可存活超两年

抖音电商上线小时达入口

数字化驱动下的数字经济发展

天猫超市联合菜鸟在北京推出“半日达”服务

小行星“贝努”样本中含有碳和水等生命构成元素

百度将发布生成式商业智能产品

18年前的今天，费俊龙、聂海胜踏雪出征！

全国30支观鸟队齐聚青藏高原国际观鸟节

光格科技：公司具备底层硬件设计能力，可满足高压电缆复杂

百度将发布生成式商业智能产品

气候中心：“基于淹没模拟的上海地下变电站暴雨内涝灾害

*ST 围海：获得诸暨市浦阳江治理三期工程施工项目合同

380余个留学人员创新创业项目“春晖杯”上亮相“比武

1/3项目提前完成年度目标任务！共建成渝地区双城经济圈

“韵动杨浦·秀出来”高校联盟系列赛电竞项目总决赛圆

临沂市中心医院护理科研项目再次荣获齐鲁护理科技奖

一文带你了解三星note7爆炸门始末，三星有没有区别对待

“研学”热背后问题多！江苏省消保委发布消费调查报告