像训练模型一样训练 Skill：TextGrad / SkillOpt / SkillClaw

什么是 skill-evolution 框架

Skill-evolution 框架是用真实使用数据自动改进 LLM agent 所执行的自然语言指令（SKILL.md 文件、prompt、查询模板）的系统——不靠人工重写。 2026 年三个开源项目定义了这个品类：TextGrad（斯坦福，Nature 论文）提供文本 autograd 原语；SkillOpt（Microsoft Research）用 validation-gated 监督学习训练 skill；SkillClaw（阿里 DreamX）用多用户 trace 集体进化共享 skill 库。本文对齐比较，告诉你哪个场景该选哪个。

三者都是 MIT 协议、论文锚定、≥1.5K GitHub stars。Star 数发文时（2026-06-01）已验证。

三个框架一览

项目	Stars	协议	最适合	维护方	论文
SkillOpt	4,073	MIT	像训练神经网络一样针对某个 benchmark 训练单个 skill	Microsoft Research	arXiv:2605.23904
TextGrad	3,582	MIT	在任意文本对象上构建自己的 optimizer	Stanford Zou Group	Nature 2025
SkillClaw	1,537	MIT	从多个真实用户进化共享 skill 库	阿里 AMAP-ML / DreamX	arXiv:2604.08377

Star 数不代表质量——TextGrad 的 3.6K 主要是原语（被很多下游 optimizer 使用），SkillOpt 的 4K 是完整训练循环，SkillClaw 的 1.5K 是带运行时的集体系统。形态不同、市场不同。

我该用哪个

决策树：

想针对 benchmark 训练某个特定 skill，要 validation-gated 编辑 + 可部署 best_skill.md → SkillOpt
想在任意文本对象（prompt / skill / query / code）上构建自己的 optimizer → TextGrad
运营一个多用户的 agent，想让大家的集体经验改善每个人的 skill → SkillClaw
想读启动整个品类的那篇论文 → TextGrad（Nature, 2025）
想看跨模型、跨 harness 的最强实证结果 → SkillOpt（52 个 cell，6 benchmark × 7 模型 × 3 harness）
想要立即兼容 OpenClaw / Hermes / nanobot / picoclaw / nemoclaw → SkillClaw（开箱生态支持最广）

下面逐个细讲。

SkillOpt — 给 skill 做梯度下降

SkillOpt 是 Microsoft Research 的文本空间优化器，通过 trajectory 驱动的编辑和 validation-gated 更新来训练冻结 LLM agent 上的可复用自然语言 skill。 3 周 4,073⭐（2026-05-08 创建），MIT，arXiv:2605.23904。

定义性设计选择是从监督学习借来的严谨度。一个独立的 optimizer model 把 scored rollouts 转成有界的 add / delete / replace 编辑作用在一个 skill 文档上；候选编辑只在严格改进 held-out validation 分数时才被接收。文本「学习率」预算 + rejected-edit buffer + epoch 级 slow / meta update 让 skill 训练稳定。部署时 0 推理时模型调用——部署产物是紧凑的 best_skill.md（一般 300-2,000 token），跑在原模型上不变。

实证 bar 是这个领域最强：

52 个 (模型 × benchmark × harness) cell 评测，全部最优或并列最优
6 个 benchmark、7 个目标模型、3 个执行 harness（direct chat / Codex CLI / Claude Code CLI）
在 GPT-5.5 上：direct chat +23.5 分、Codex agentic loop +24.8 分、Claude Code +19.1 分
优化后的 skill artifact 能跨模型规模、Codex 和 Claude Code harness 之间、相邻 benchmark 之间迁移，无需重新优化

最适合：有具体 skill 要训、有 benchmark 来训的人。"对文本应用神经网络式纪律"的框架方便跟 ML 同行解释。

TextGrad — autograd 原语

TextGrad 是 Stanford Zou Group 的文本自动微分框架——用 LLM 反向传播文本梯度到 prompt、skill、query、code 上。 3,582⭐，MIT，2025 年发表于 Nature。跟 Virtual Lab、CellVoyager 同实验室（都在我们生物医学 AI Agent 2026 里收过）。

定义性设计选择是通用性。SkillOpt 用特定协议（validation-gated 编辑）优化特定目标（SKILL.md 文件）；TextGrad 提供底层原语——任意文本上的 backward()——然后让你组合成适合你问题的优化方案。

具体地，TextGrad 让你把 prompt / 一段代码 / SQL 查询 / SKILL.md 当作"变量"，附上一个用自然语言写的 loss 函数，然后跑一个 optimizer 沿着 loss 暗示的梯度方向更新变量。同一套机器处理这四种。下游 optimizer（包括 SkillOpt、DSPy 部分组件）都在类似思路上构建。

最适合：想自己设计优化循环的研究者和 builder。如果你的问题不是"训练这个 skill 跑这个 benchmark"——比如"迭代精炼这个 SQL 查询直到能解释实验结果"——TextGrad 给你原语然后退到一边。

Nature 论文是经典参考，能讲清为什么文本 autograd 是有意义的通用形式。

SkillClaw — 多用户 trace 的集体进化

SkillClaw 是阿里 DreamX Team 的多用户 agent 生态集体 skill 进化框架。 1,537⭐，MIT，arXiv:2604.08377。定义性设计选择——也是它跟 SkillOpt 和 TextGrad 的最大区别——是信号源：SkillClaw 把真实跨用户交互当作主要训练信号，不是策展的 benchmark。

pipeline：aggregator 持续收集所有用户使用 agent 产生的 trajectories；autonomous evolver 跨它们识别 recurring 行为模式；evolver 把更新写回共享 skill 集合——要么改进已有 skill，要么扩展新能力。一个 context 里发现的改进系统级传播，单个用户无需额外动作。

论文明确点出问题框架：

"挑战不仅是在单次会话里提升表现，更是要实现跨用户的知识转移。"

换句话说，SkillClaw 不是要让单 agent 在单会话里更努力试；它是要让整个用户群停止反复发现同一批补丁。

开箱兼容性是这个领域最广：Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw 加任何 OpenAI-compatible API。

在 WildClawBench 验证；报告显著提升 Qwen3-Max 真实 agent 场景表现。

最适合：运营多用户 agent 的人——内部工具、SaaS、多租户部署——聚合经验里有信号是单个用户 trajectory 找不到的。

架构维度对比

维度	TextGrad	SkillOpt	SkillClaw
层	原语（文本 autograd）	训练循环	集体系统
信号源	自然语言 loss 函数	validation 集 scored rollouts	真实跨用户 trajectories
优化单位	任意文本变量	单个 SKILL.md 文档	共享 skill 仓库
更新协议	梯度步	validation-gated add/delete/replace 编辑	自主 evolver 对共享 repo
部署产物	取决于你的定义	紧凑 `best_skill.md`（300-2,000 token）	更新的共享库，同步给用户
推理时成本	取决于调用方	零	零（后台运行）
最强实证 bar	Nature 论文，scope 广	52/52 cell 最优	WildClawBench 上 Qwen3-Max 提升
维护方	Stanford Zou Group	Microsoft Research	阿里 AMAP-ML / DreamX

三个项目不在抢同一个工作。TextGrad 是代数（autograd 原语），SkillOpt 是用这个代数构建的一个特定 optimizer，SkillClaw 是把优化后 skill 部署到真实用户群的运行时系统。

干净的心智模型：TextGrad 是 autograd。SkillOpt 是 PyTorch Trainer。SkillClaw 是 Hugging Face Hub 加进化式更新 bot。

为什么这件事重要

过去五年 agent 设计的默认假设是：(a) 手写 skill，(b) 手动改进 skill。Anthropic skill 标准加速了 (a)。Skill-evolution 框架现在直接攻 (b)。如果 SkillOpt 的实证数字站得住（跨 harness +19 到 +25 分）+ SkillClaw 的多用户信号能泛化，手写 skill 的边际价值会快速下降。

自然引出的后续问题：

TextGrad 风格的文本 autograd 会不会成为 DSPy、SkillOpt、SkillClaw 等都收敛到的标准原语？
SkillOpt 风格的"对文本应用 ML 纪律"会不会成为默认训练协议，就像 Adam 成为权重的默认 optimizer？
SkillClaw 风格的"skill 数据飞轮"会不会成为任何多租户 agent 的默认部署形态？

我们每月跟踪这些信号——见生态报告。

常见问题

这三个 skill-evolution 框架收费吗？

不收。三个都是 MIT。个人、学术、商用（含修改）都免费。

还需要手写 skill 吗？

启动时是的——三个框架都需要一个初始 skill（SKILL.md、prompt、起始模板）作为输入。它们改进你写的，不是凭空造一个。冷启动还是你的活。

需要什么模型？

三个都模型无关。SkillOpt 在 7 个模型（含 GPT-5.5）上评测。TextGrad 任何能给文本输出打分的模型都行。SkillClaw 需要一个 autonomous evolver LLM（一般 Qwen / GPT 级）加被进化 skill 的目标模型。

能组合用吗？

原则上能。TextGrad 的原语可以嵌进 SkillOpt 风格的训练循环；二者输出可以送进 SkillClaw 风格的跨用户部署系统。实践中三个团队还没公布过完整组合的范例——大概率 2026 下半年会有。

哪个同行评议背书最强？

TextGrad —— Nature 2025。 这是这个品类最强的期刊背书。SkillOpt 有 arXiv 论文 + 52 cell 强实证。SkillClaw 有 arXiv 论文 + WildClawBench 验证。

兼容哪些 agent harness？

SkillOpt：Codex CLI、Claude Code CLI、direct chat（评测了 3 个 harness）
TextGrad：模型无关、harness 无关——Python 能跑的地方就能跑
SkillClaw：Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw、任何 OpenAI-compatible API（最广）

DSPy 算吗？

DSPy 是更早、更通用的 LLM 系统编程框架。它的 MIPROv2 和 GEPA optimizer 解决跟 SkillOpt 重叠的问题。我们把 DSPy 当相邻基础设施（不严格算 SkillOpt / SkillClaw 那种意义上的"skill-evolution"框架）。值得了解；不会归在这个品类里。

上手

针对 benchmark 训练某个 skill → 从 SkillOpt 开始
构建自己的文本 optimizer → 从 TextGrad 开始
部署能自我改进、跨多用户的 skill 库 → 从 SkillClaw 开始
浏览全部 → Claw4Science skill-evolution 分组

如果你做了第四个 skill-evolution 框架（尤其是组合三种路径的那种），提交给我们——这个品类很新，2026 年会快速增长。

更新于 2026-06-01。Star 数、论文链接、功能描述发文时已对照三个官方仓库验证。

像训练模型一样训练 Skill：TextGrad / SkillOpt / SkillClaw

目录