最火的AI工程方法:模型升级只提升15%,Harness升级却能提升300%

背景

你以为AI效果不好是模型问题?错了。

最近,OpenAI和Anthropic的工程师们发现了一个让人惊讶的事实:花大价钱升级AI模型,效果可能只提升5%~15%;但如果你升级的是"Harness"——也就是AI的工作框架——收益可能高达30%~300%。

这意味着什么?

真正决定AI任务成功率的,不是模型本身,而是你怎么"驾驭"它。

什么是Harness Engineering?

Harness Engineering,直译是"马具工程",在AI领域指的是:

为每个任务构建专属的工作框架,而不是让AI直接执行指令。

用户任务 → 生成专属Harness → Planner规划 → Researcher调研 → Coder执行 → Reviewer审查 → Tester测试 → 高质量结果

为什么Harness突然火了?


1. 模型升级的边际效益递减

GPT-4到GPT-4o,模型能力提升显著,但在很多实际任务中,用户感知到的提升并没有想象中那么大。

原因很简单:模型再聪明,如果没有好的工作框架,它也不知道该先做什么、后做什么,更不知道如何避免错误。

2. Harness的收益是数量级的

Anthropic的实验数据显示:

差距有多大?6倍到20倍。

3. Dynamic Workflow成为主流

Anthropic提出的Dynamic Workflow概念正在被广泛接受:

目前最流行的Harness结构

project/
│
├── AGENTS.md                    # Agent配置和指令
│
├── docs/
│   ├── requirements.md          # 需求文档
│   ├── architecture.md          # 架构设计
│   ├── coding-standard.md       # 编码规范
│   └── roadmap.md               # 路线图
│
├── tasks/
│   ├── backlog.md               # 待办事项
│   ├── active.md                # 进行中
│   └── completed.md             # 已完成
│
├── memory/
│   ├── decisions.md             # 决策记录
│   ├── lessons.md               # 经验教训
│   └── progress.md              # 进度状态
│
├── outputs/                     # 输出目录
│
└── scripts/                     # 脚本工具

五层架构解析

第一层:任务入口(task.md)

用户需求的最小单元,例如:"开发一个CRM系统"。

第二层:自动生成项目地图

AI先生成完整的项目结构,包括:

第三层:动态创建Agent

根据任务类型自动生成:

Agent类型

职责

适用场景

Planner

任务规划和拆解

复杂项目启动

Researcher

信息收集和调研

技术选型、方案对比

Coder

代码生成和实现

功能开发

Reviewer

代码审查和质量控制

代码评审

Tester

测试和验证

质量保证

第四层:任务自动拆解

以CRM系统为例,自动拆分为:

形成tasks/目录,每个任务独立追踪。

第五层:状态持久化

最新Harness理念:状态存在文件,不要存在上下文。

memory/progress.md    # 进度状态
memory/decisions.md   # 决策记录
memory/lessons.md     # 经验教训

每次启动时读取状态,恢复工作,继续执行。不依赖长上下文窗口。

一个完整的Harness工作流示例

假设你给Claude一个需求:"帮我开发一个在线商城系统"

Step 1: 生成Harness

Claude首先创建项目结构:

ecommerce-project/
├── AGENTS.md
├── architecture.md
├── roadmap.md
├── tasks/
│   ├── 001-user-system.md
│   ├── 002-product-system.md
│   ├── 003-order-system.md
│   ├── 004-payment-system.md
│   └── 005-admin-system.md
├── memory/
│   ├── decisions.md
│   ├── lessons.md
│   └── progress.md
└── outputs/

Step 2: Planner规划

Planner Agent分析需求,确定:

Step 3: Researcher调研

Researcher Agent调研:

Step 4: Coder实现

Coder Agent按照任务顺序,逐个实现功能模块。

Step 5: Reviewer审查

Reviewer Agent检查代码质量:

Step 6: Tester测试

Tester Agent生成测试用例:

最终结果:你得到的不只是一堆代码,而是一个完整的、经过审查的、有文档的项目。

如何开始使用Harness Engineering?

如果你也想尝试Harness Engineering,这里有一个简单的入门Prompt:

You are a Harness Engineer.

Before solving the task:

1. Generate a complete harness structure.
2. Create AGENTS.md.
3. Create architecture.md.
4. Create roadmap.md.
5. Create task breakdown.
6. Create memory files.
7. Create output directory.
8. Define specialized agents.
9. Only after the harness is generated, start execution.

Output the full project tree first.

适用场景

Harness Engineering特别适合以下场景:

不适用场景

未来趋势:Harness将成为AI应用的标准配置

随着AI模型能力越来越强,如何"驾驭"模型将成为核心竞争力

最后

回到开头那个公式:

Agent = Model + Harness

模型是引擎,Harness是方向盘和底盘。

引擎再强,没有好的方向盘和底盘,车也跑不直。

展开阅读全文

更新时间:2026-06-12

标签:科技   模型   方法   工程   系统   状态   代码   测试   项目   用户   架构   场景   需求

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top