像训练模型一样训练 Skill:TextGrad / SkillOpt / SkillClaw

2026/06/01

什么是 skill-evolution 框架

Skill-evolution 框架是用真实使用数据自动改进 LLM agent 所执行的自然语言指令(SKILL.md 文件、prompt、查询模板)的系统——不靠人工重写。 2026 年三个开源项目定义了这个品类:TextGrad(斯坦福,Nature 论文)提供文本 autograd 原语;SkillOpt(Microsoft Research)用 validation-gated 监督学习训练 skill;SkillClaw(阿里 DreamX)用多用户 trace 集体进化共享 skill 库。本文对齐比较,告诉你哪个场景该选哪个。

三者都是 MIT 协议、论文锚定、≥1.5K GitHub stars。Star 数发文时(2026-06-01)已验证。


三个框架一览

项目Stars协议最适合维护方论文
SkillOpt4,073MIT像训练神经网络一样针对某个 benchmark 训练单个 skillMicrosoft ResearcharXiv:2605.23904
TextGrad3,582MIT在任意文本对象上构建自己的 optimizerStanford Zou GroupNature 2025
SkillClaw1,537MIT从多个真实用户进化共享 skill 库阿里 AMAP-ML / DreamXarXiv:2604.08377

Star 数不代表质量——TextGrad 的 3.6K 主要是原语(被很多下游 optimizer 使用),SkillOpt 的 4K 是完整训练循环,SkillClaw 的 1.5K 是带运行时的集体系统。形态不同、市场不同。


我该用哪个

决策树:

  • 想针对 benchmark 训练某个特定 skill,要 validation-gated 编辑 + 可部署 best_skill.md → SkillOpt
  • 想在任意文本对象(prompt / skill / query / code)上构建自己的 optimizer → TextGrad
  • 运营一个多用户的 agent,想让大家的集体经验改善每个人的 skill → SkillClaw
  • 想读启动整个品类的那篇论文 → TextGrad(Nature, 2025)
  • 想看跨模型、跨 harness 的最强实证结果 → SkillOpt(52 个 cell,6 benchmark × 7 模型 × 3 harness)
  • 想要立即兼容 OpenClaw / Hermes / nanobot / picoclaw / nemoclaw → SkillClaw(开箱生态支持最广)

下面逐个细讲。


SkillOpt — 给 skill 做梯度下降

SkillOpt 是 Microsoft Research 的文本空间优化器,通过 trajectory 驱动的编辑和 validation-gated 更新来训练冻结 LLM agent 上的可复用自然语言 skill。 3 周 4,073⭐(2026-05-08 创建),MIT,arXiv:2605.23904。

定义性设计选择是从监督学习借来的严谨度。一个独立的 optimizer model 把 scored rollouts 转成有界的 add / delete / replace 编辑作用在一个 skill 文档上;候选编辑只在严格改进 held-out validation 分数时才被接收。文本「学习率」预算 + rejected-edit buffer + epoch 级 slow / meta update 让 skill 训练稳定。部署时 0 推理时模型调用——部署产物是紧凑的 best_skill.md(一般 300-2,000 token),跑在原模型上不变。

实证 bar 是这个领域最强:

  • 52 个 (模型 × benchmark × harness) cell 评测,全部最优或并列最优
  • 6 个 benchmark、7 个目标模型、3 个执行 harness(direct chat / Codex CLI / Claude Code CLI)
  • 在 GPT-5.5 上:direct chat +23.5 分、Codex agentic loop +24.8 分、Claude Code +19.1 分
  • 优化后的 skill artifact 能跨模型规模、Codex 和 Claude Code harness 之间、相邻 benchmark 之间迁移,无需重新优化

最适合:有具体 skill 要训、有 benchmark 来训的人。"对文本应用神经网络式纪律"的框架方便跟 ML 同行解释。


TextGrad — autograd 原语

TextGrad 是 Stanford Zou Group 的文本自动微分框架——用 LLM 反向传播文本梯度到 prompt、skill、query、code 上。 3,582⭐,MIT,2025 年发表于 Nature。跟 Virtual Lab、CellVoyager 同实验室(都在我们 生物医学 AI Agent 2026 里收过)。

定义性设计选择是通用性。SkillOpt 用特定协议(validation-gated 编辑)优化特定目标(SKILL.md 文件);TextGrad 提供底层原语——任意文本上的 backward()——然后让你组合成适合你问题的优化方案。

具体地,TextGrad 让你把 prompt / 一段代码 / SQL 查询 / SKILL.md 当作"变量",附上一个用自然语言写的 loss 函数,然后跑一个 optimizer 沿着 loss 暗示的梯度方向更新变量。同一套机器处理这四种。下游 optimizer(包括 SkillOpt、DSPy 部分组件)都在类似思路上构建。

最适合:想自己设计优化循环的研究者和 builder。如果你的问题不是"训练这个 skill 跑这个 benchmark"——比如"迭代精炼这个 SQL 查询直到能解释实验结果"——TextGrad 给你原语然后退到一边。

Nature 论文是经典参考,能讲清为什么文本 autograd 是有意义的通用形式。


SkillClaw — 多用户 trace 的集体进化

SkillClaw 是阿里 DreamX Team 的多用户 agent 生态集体 skill 进化框架。 1,537⭐,MIT,arXiv:2604.08377。定义性设计选择——也是它跟 SkillOpt 和 TextGrad 的最大区别——是信号源:SkillClaw 把真实跨用户交互当作主要训练信号,不是策展的 benchmark。

pipeline:aggregator 持续收集所有用户使用 agent 产生的 trajectories;autonomous evolver 跨它们识别 recurring 行为模式;evolver 把更新写回共享 skill 集合——要么改进已有 skill,要么扩展新能力。一个 context 里发现的改进系统级传播,单个用户无需额外动作。

论文明确点出问题框架:

"挑战不仅是在单次会话里提升表现,更是要实现跨用户的知识转移。"

换句话说,SkillClaw 不是要让单 agent 在单会话里更努力试;它是要让整个用户群停止反复发现同一批补丁。

开箱兼容性是这个领域最广:Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw 加任何 OpenAI-compatible API。

在 WildClawBench 验证;报告显著提升 Qwen3-Max 真实 agent 场景表现。

最适合:运营多用户 agent 的人——内部工具、SaaS、多租户部署——聚合经验里有信号是单个用户 trajectory 找不到的。


架构维度对比

维度TextGradSkillOptSkillClaw
原语(文本 autograd)训练循环集体系统
信号源自然语言 loss 函数validation 集 scored rollouts真实跨用户 trajectories
优化单位任意文本变量单个 SKILL.md 文档共享 skill 仓库
更新协议梯度步validation-gated add/delete/replace 编辑自主 evolver 对共享 repo
部署产物取决于你的定义紧凑 best_skill.md(300-2,000 token)更新的共享库,同步给用户
推理时成本取决于调用方零(后台运行)
最强实证 barNature 论文,scope 广52/52 cell 最优WildClawBench 上 Qwen3-Max 提升
维护方Stanford Zou GroupMicrosoft Research阿里 AMAP-ML / DreamX

三个项目不在抢同一个工作。TextGrad 是代数(autograd 原语),SkillOpt 是用这个代数构建的一个特定 optimizer,SkillClaw 是把优化后 skill 部署到真实用户群的运行时系统。

干净的心智模型:TextGrad 是 autograd。SkillOpt 是 PyTorch Trainer。SkillClaw 是 Hugging Face Hub 加进化式更新 bot


为什么这件事重要

过去五年 agent 设计的默认假设是:(a) 手写 skill,(b) 手动改进 skill。Anthropic skill 标准加速了 (a)。Skill-evolution 框架现在直接攻 (b)。如果 SkillOpt 的实证数字站得住(跨 harness +19 到 +25 分)+ SkillClaw 的多用户信号能泛化,手写 skill 的边际价值会快速下降

自然引出的后续问题:

  • TextGrad 风格的文本 autograd 会不会成为 DSPy、SkillOpt、SkillClaw 等都收敛到的标准原语?
  • SkillOpt 风格的"对文本应用 ML 纪律"会不会成为默认训练协议,就像 Adam 成为权重的默认 optimizer?
  • SkillClaw 风格的"skill 数据飞轮"会不会成为任何多租户 agent 的默认部署形态?

我们每月跟踪这些信号——见 生态报告


常见问题

这三个 skill-evolution 框架收费吗?

不收。三个都是 MIT。个人、学术、商用(含修改)都免费。

还需要手写 skill 吗?

启动时是的——三个框架都需要一个初始 skill(SKILL.md、prompt、起始模板)作为输入。它们改进你写的,不是凭空造一个。冷启动还是你的活。

需要什么模型?

三个都模型无关。SkillOpt 在 7 个模型(含 GPT-5.5)上评测。TextGrad 任何能给文本输出打分的模型都行。SkillClaw 需要一个 autonomous evolver LLM(一般 Qwen / GPT 级)加被进化 skill 的目标模型。

能组合用吗?

原则上能。TextGrad 的原语可以嵌进 SkillOpt 风格的训练循环;二者输出可以送进 SkillClaw 风格的跨用户部署系统。实践中三个团队还没公布过完整组合的范例——大概率 2026 下半年会有。

哪个同行评议背书最强?

TextGrad —— Nature 2025。 这是这个品类最强的期刊背书。SkillOpt 有 arXiv 论文 + 52 cell 强实证。SkillClaw 有 arXiv 论文 + WildClawBench 验证。

兼容哪些 agent harness?

  • SkillOpt:Codex CLI、Claude Code CLI、direct chat(评测了 3 个 harness)
  • TextGrad:模型无关、harness 无关——Python 能跑的地方就能跑
  • SkillClaw:Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw、任何 OpenAI-compatible API(最广)

DSPy 算吗?

DSPy 是更早、更通用的 LLM 系统编程框架。它的 MIPROv2 和 GEPA optimizer 解决跟 SkillOpt 重叠的问题。我们把 DSPy 当相邻基础设施(不严格算 SkillOpt / SkillClaw 那种意义上的"skill-evolution"框架)。值得了解;不会归在这个品类里。


上手

如果你做了第四个 skill-evolution 框架(尤其是组合三种路径的那种),提交给我们——这个品类很新,2026 年会快速增长。


更新于 2026-06-01。Star 数、论文链接、功能描述发文时已对照三个官方仓库验证。

像训练模型一样训练 Skill:TextGrad / SkillOpt / SkillClaw | 博客