SkillCraft：AI Agent 能学会复用工具吗？

核心要点

SkillCraft 让 AI Agent 把成功的工具调用链保存为可复用技能——不再每次从头解决同样的问题
以 GPT-5.2 为例，技能复用将 Token 从 1.23M 降至 0.26M（减少 79%），成本从 $1.77 降至 $0.43，成功率从 87% 升至 90%
四步流水线：查库 → 原子工具执行 → 成功轨迹抽象为参数化技能 → 验证后保存
深层技能树（技能嵌套调用技能）并不总是更好——浅层、高质量、经过验证的技能优于复杂嵌套层级
跨模型迁移可行：Claude 创建的技能在不同执行模型上表现稳定
论文：arXiv:2603.00718 · 源码：github.com/shiqichen17/SkillCraft

SkillCraft 是什么？

AI Agent 会用工具——这已经不新鲜了。真正的问题是：它们不会记住什么有效。每次碰到类似任务，还是要重新规划、重新传参、重新走工具链。SkillCraft 解决的就是这个问题。

核心属性：

类别：Agent 技能学习与复用框架
解决的问题：Agent 反复重新发现已经成功使用过的工具链，浪费 Token 和成本
方法：将验证通过的工具调用轨迹保存为参数化、可复用的技能
论文：arXiv:2603.00718

工作原理：四步流程

1. 查库 → 库里有没有匹配当前任务的现成技能？
2. 执行 → 如果没有，用原子工具完成任务
3. 抽象 → 把成功轨迹提取为带参数的技能
4. 验证 → 测试通过后保存到技能库

关键洞察：Agent 不是记住答案——而是保存成功的路径，把一次性成功转化为可复用的高层能力。

性能：Token 节省 79%

指标	无技能复用	SkillCraft	变化
成功率（GPT-5.2）	87%	90%	+3%
平均 Token/任务	1.23M	0.26M	−79%
平均成本/任务	$1.77	$0.43	−76%

节省来自于不需要重新发现工具链。一旦路径验证通过，后续任务直接复用——更少 API 调用、更少 Token、更低成本。

深层技能树不一定更好

SkillCraft 测试了层级式技能组合——技能内部继续调用其他技能来处理复杂任务。结果出人意料地清晰：

越深不一定越好：底层错误会向上层传导
一个边界条件处理不好，就可能拖垮整棵技能树
浅层、高质量的技能表现更优

现实意义： 当前阶段更务实的方向，是先把浅层、经过验证的高质量技能库做扎实——而非追求复杂的深层嵌套。

跨模型技能迁移

技能创建者	执行模型	结果
Claude	多个模型	稳定的高成功率
GPT-5.2	多个模型	良好迁移
较弱模型	多个模型	不太稳定

关键发现： 强模型（特别是 Claude）创建的技能在不同执行模型间迁移效果好。技能质量比执行器更重要。

对 OpenClaw 生态的启示

SkillCraft 的核心思想——保存验证通过的工具链为可复用技能——直接映射到 OpenClaw 生态的技能库运作方式：

SkillCraft 概念	OpenClaw 对应
技能 = 验证通过的工具调用链	SKILL.md = 专家编码的工作流
技能库	ClawHub（6,300+ 技能）
技能验证	社区审核 + 测试
跨模型迁移	技能兼容 Claude、GPT、Gemini

区别：OpenClaw 技能目前是人工编写的。SkillCraft 展示了通向 Agent 自动创建技能的路径——Agent 自动创建、验证、贡献技能。

常见问题（FAQ）

Q1：这和微调有什么区别？

SkillCraft 不修改模型权重。技能是存储在库中的外部参数化模板，可以随时添加、删除或更新，无需重新训练。

Q2：技能复用总是有效吗？

不一定。低质量技能可能产生不稳定甚至负面结果。验证步骤至关重要——只有通过测试的技能才会被保存。

Q3：技能可以在不同 Agent 之间共享吗？

可以。SkillCraft 证明一个模型（如 Claude）创建的技能可以被不同模型使用，类似于 OpenClaw 的 SKILL.md 文件跨 Agent 工作。

总结

SkillCraft 证明 AI Agent 可以学会保存和复用成功的工具链——成本降低 76%，Token 减少 79%，成功率提升。这项研究验证了 OpenClaw 技能生态已经在实践的理念：结构化、经过验证的技能比一次性工具调用更有价值。下一个前沿是 Agent 自动创建技能——AI 自己生成可复用的能力。

基于 NextMed 微信公众号文章改编。论文：arXiv:2603.00718。

SkillCraft：AI Agent 能学会复用工具吗？

目录