什么是 skill-evolution 框架
Skill-evolution 框架是用真实使用数据自动改进 LLM agent 所执行的自然语言指令(SKILL.md 文件、prompt、查询模板)的系统——不靠人工重写。 2026 年三个开源项目定义了这个品类:TextGrad(斯坦福,Nature 论文)提供文本 autograd 原语;SkillOpt(Microsoft Research)用 validation-gated 监督学习训练 skill;SkillClaw(阿里 DreamX)用多用户 trace 集体进化共享 skill 库。本文对齐比较,告诉你哪个场景该选哪个。
三者都是 MIT 协议、论文锚定、≥1.5K GitHub stars。Star 数发文时(2026-06-01)已验证。
三个框架一览
| 项目 | Stars | 协议 | 最适合 | 维护方 | 论文 |
|---|---|---|---|---|---|
| SkillOpt | 4,073 | MIT | 像训练神经网络一样针对某个 benchmark 训练单个 skill | Microsoft Research | arXiv:2605.23904 |
| TextGrad | 3,582 | MIT | 在任意文本对象上构建自己的 optimizer | Stanford Zou Group | Nature 2025 |
| SkillClaw | 1,537 | MIT | 从多个真实用户进化共享 skill 库 | 阿里 AMAP-ML / DreamX | arXiv:2604.08377 |
Star 数不代表质量——TextGrad 的 3.6K 主要是原语(被很多下游 optimizer 使用),SkillOpt 的 4K 是完整训练循环,SkillClaw 的 1.5K 是带运行时的集体系统。形态不同、市场不同。
我该用哪个
决策树:
- 想针对 benchmark 训练某个特定 skill,要 validation-gated 编辑 + 可部署
best_skill.md→ SkillOpt - 想在任意文本对象(prompt / skill / query / code)上构建自己的 optimizer → TextGrad
- 运营一个多用户的 agent,想让大家的集体经验改善每个人的 skill → SkillClaw
- 想读启动整个品类的那篇论文 → TextGrad(Nature, 2025)
- 想看跨模型、跨 harness 的最强实证结果 → SkillOpt(52 个 cell,6 benchmark × 7 模型 × 3 harness)
- 想要立即兼容 OpenClaw / Hermes / nanobot / picoclaw / nemoclaw → SkillClaw(开箱生态支持最广)
下面逐个细讲。
SkillOpt — 给 skill 做梯度下降
SkillOpt 是 Microsoft Research 的文本空间优化器,通过 trajectory 驱动的编辑和 validation-gated 更新来训练冻结 LLM agent 上的可复用自然语言 skill。 3 周 4,073⭐(2026-05-08 创建),MIT,arXiv:2605.23904。
定义性设计选择是从监督学习借来的严谨度。一个独立的 optimizer model 把 scored rollouts 转成有界的 add / delete / replace 编辑作用在一个 skill 文档上;候选编辑只在严格改进 held-out validation 分数时才被接收。文本「学习率」预算 + rejected-edit buffer + epoch 级 slow / meta update 让 skill 训练稳定。部署时 0 推理时模型调用——部署产物是紧凑的 best_skill.md(一般 300-2,000 token),跑在原模型上不变。
实证 bar 是这个领域最强:
- 52 个 (模型 × benchmark × harness) cell 评测,全部最优或并列最优
- 6 个 benchmark、7 个目标模型、3 个执行 harness(direct chat / Codex CLI / Claude Code CLI)
- 在 GPT-5.5 上:direct chat +23.5 分、Codex agentic loop +24.8 分、Claude Code +19.1 分
- 优化后的 skill artifact 能跨模型规模、Codex 和 Claude Code harness 之间、相邻 benchmark 之间迁移,无需重新优化
最适合:有具体 skill 要训、有 benchmark 来训的人。"对文本应用神经网络式纪律"的框架方便跟 ML 同行解释。
TextGrad — autograd 原语
TextGrad 是 Stanford Zou Group 的文本自动微分框架——用 LLM 反向传播文本梯度到 prompt、skill、query、code 上。 3,582⭐,MIT,2025 年发表于 Nature。跟 Virtual Lab、CellVoyager 同实验室(都在我们 生物医学 AI Agent 2026 里收过)。
定义性设计选择是通用性。SkillOpt 用特定协议(validation-gated 编辑)优化特定目标(SKILL.md 文件);TextGrad 提供底层原语——任意文本上的 backward()——然后让你组合成适合你问题的优化方案。
具体地,TextGrad 让你把 prompt / 一段代码 / SQL 查询 / SKILL.md 当作"变量",附上一个用自然语言写的 loss 函数,然后跑一个 optimizer 沿着 loss 暗示的梯度方向更新变量。同一套机器处理这四种。下游 optimizer(包括 SkillOpt、DSPy 部分组件)都在类似思路上构建。
最适合:想自己设计优化循环的研究者和 builder。如果你的问题不是"训练这个 skill 跑这个 benchmark"——比如"迭代精炼这个 SQL 查询直到能解释实验结果"——TextGrad 给你原语然后退到一边。
Nature 论文是经典参考,能讲清为什么文本 autograd 是有意义的通用形式。
SkillClaw — 多用户 trace 的集体进化
SkillClaw 是阿里 DreamX Team 的多用户 agent 生态集体 skill 进化框架。 1,537⭐,MIT,arXiv:2604.08377。定义性设计选择——也是它跟 SkillOpt 和 TextGrad 的最大区别——是信号源:SkillClaw 把真实跨用户交互当作主要训练信号,不是策展的 benchmark。
pipeline:aggregator 持续收集所有用户使用 agent 产生的 trajectories;autonomous evolver 跨它们识别 recurring 行为模式;evolver 把更新写回共享 skill 集合——要么改进已有 skill,要么扩展新能力。一个 context 里发现的改进系统级传播,单个用户无需额外动作。
论文明确点出问题框架:
"挑战不仅是在单次会话里提升表现,更是要实现跨用户的知识转移。"
换句话说,SkillClaw 不是要让单 agent 在单会话里更努力试;它是要让整个用户群停止反复发现同一批补丁。
开箱兼容性是这个领域最广:Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw 加任何 OpenAI-compatible API。
在 WildClawBench 验证;报告显著提升 Qwen3-Max 真实 agent 场景表现。
最适合:运营多用户 agent 的人——内部工具、SaaS、多租户部署——聚合经验里有信号是单个用户 trajectory 找不到的。
架构维度对比
| 维度 | TextGrad | SkillOpt | SkillClaw |
|---|---|---|---|
| 层 | 原语(文本 autograd) | 训练循环 | 集体系统 |
| 信号源 | 自然语言 loss 函数 | validation 集 scored rollouts | 真实跨用户 trajectories |
| 优化单位 | 任意文本变量 | 单个 SKILL.md 文档 | 共享 skill 仓库 |
| 更新协议 | 梯度步 | validation-gated add/delete/replace 编辑 | 自主 evolver 对共享 repo |
| 部署产物 | 取决于你的定义 | 紧凑 best_skill.md(300-2,000 token) | 更新的共享库,同步给用户 |
| 推理时成本 | 取决于调用方 | 零 | 零(后台运行) |
| 最强实证 bar | Nature 论文,scope 广 | 52/52 cell 最优 | WildClawBench 上 Qwen3-Max 提升 |
| 维护方 | Stanford Zou Group | Microsoft Research | 阿里 AMAP-ML / DreamX |
三个项目不在抢同一个工作。TextGrad 是代数(autograd 原语),SkillOpt 是用这个代数构建的一个特定 optimizer,SkillClaw 是把优化后 skill 部署到真实用户群的运行时系统。
干净的心智模型:TextGrad 是 autograd。SkillOpt 是 PyTorch Trainer。SkillClaw 是 Hugging Face Hub 加进化式更新 bot。
为什么这件事重要
过去五年 agent 设计的默认假设是:(a) 手写 skill,(b) 手动改进 skill。Anthropic skill 标准加速了 (a)。Skill-evolution 框架现在直接攻 (b)。如果 SkillOpt 的实证数字站得住(跨 harness +19 到 +25 分)+ SkillClaw 的多用户信号能泛化,手写 skill 的边际价值会快速下降。
自然引出的后续问题:
- TextGrad 风格的文本 autograd 会不会成为 DSPy、SkillOpt、SkillClaw 等都收敛到的标准原语?
- SkillOpt 风格的"对文本应用 ML 纪律"会不会成为默认训练协议,就像 Adam 成为权重的默认 optimizer?
- SkillClaw 风格的"skill 数据飞轮"会不会成为任何多租户 agent 的默认部署形态?
我们每月跟踪这些信号——见 生态报告。
常见问题
这三个 skill-evolution 框架收费吗?
不收。三个都是 MIT。个人、学术、商用(含修改)都免费。
还需要手写 skill 吗?
启动时是的——三个框架都需要一个初始 skill(SKILL.md、prompt、起始模板)作为输入。它们改进你写的,不是凭空造一个。冷启动还是你的活。
需要什么模型?
三个都模型无关。SkillOpt 在 7 个模型(含 GPT-5.5)上评测。TextGrad 任何能给文本输出打分的模型都行。SkillClaw 需要一个 autonomous evolver LLM(一般 Qwen / GPT 级)加被进化 skill 的目标模型。
能组合用吗?
原则上能。TextGrad 的原语可以嵌进 SkillOpt 风格的训练循环;二者输出可以送进 SkillClaw 风格的跨用户部署系统。实践中三个团队还没公布过完整组合的范例——大概率 2026 下半年会有。
哪个同行评议背书最强?
TextGrad —— Nature 2025。 这是这个品类最强的期刊背书。SkillOpt 有 arXiv 论文 + 52 cell 强实证。SkillClaw 有 arXiv 论文 + WildClawBench 验证。
兼容哪些 agent harness?
- SkillOpt:Codex CLI、Claude Code CLI、direct chat(评测了 3 个 harness)
- TextGrad:模型无关、harness 无关——Python 能跑的地方就能跑
- SkillClaw:Hermes、OpenClaw、Codex、Claude Code、QwenPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw、任何 OpenAI-compatible API(最广)
DSPy 算吗?
DSPy 是更早、更通用的 LLM 系统编程框架。它的 MIPROv2 和 GEPA optimizer 解决跟 SkillOpt 重叠的问题。我们把 DSPy 当相邻基础设施(不严格算 SkillOpt / SkillClaw 那种意义上的"skill-evolution"框架)。值得了解;不会归在这个品类里。
上手
- 针对 benchmark 训练某个 skill → 从 SkillOpt 开始
- 构建自己的文本 optimizer → 从 TextGrad 开始
- 部署能自我改进、跨多用户的 skill 库 → 从 SkillClaw 开始
- 浏览全部 → Claw4Science skill-evolution 分组
如果你做了第四个 skill-evolution 框架(尤其是组合三种路径的那种),提交给我们——这个品类很新,2026 年会快速增长。
更新于 2026-06-01。Star 数、论文链接、功能描述发文时已对照三个官方仓库验证。
