学生开始出考卷了
一个奇怪的局面:我们现在有做科学研究的 AI Agent,也有评估前一批 Agent 做得好不好的 AI 系统。
不是人类在审核 AI 输出。是 AI 系统在给 AI 系统打分。
OpenClaw 生态已经产生了 5 个不同的基准测试,各自衡量 Agent 表现的不同维度。合在一起覆盖安全、生信、编码、研究质量和多模态推理。分开看,它们对"好"的定义互相矛盾。
我们把五个都过了一遍。
五大基准
| 基准 | 测什么 | 任务数 | Stars | 论文 |
|---|---|---|---|---|
| Claw-Eval | 完成度 + 安全 + 鲁棒性 | 300 | 393 | arXiv |
| PinchBench | Coding agent 表现 | 23 | 977 | — |
| ClawSafety | 提示注入攻击 | 120 | 5 | arXiv |
| BioAgent Bench | 生信任务 | ~100 | 18 | arXiv |
| HeurekaBench | 真实科研任务 | 40 | 11 | ICLR 2026 |
五个基准。五种"好 Agent"的定义。
Claw-Eval:全面型
300 个任务。9 个类别。2159 条评分标准。轨迹感知评分。
Claw-Eval 是最全面的 Agent 评估尝试。由李磊团队构建,覆盖通用服务编排、多模态感知(图片、PDF、视频)和多轮专业对话。
核心创新是轨迹感知评分。大多数基准只检查 Agent 是否得到了正确答案。Claw-Eval 还检查如何得到的——在每一步记录执行轨迹、审计日志和环境快照。
为什么重要:实验显示,只看最终输出的评估方式遗漏了 44% 的安全违规和 13% 的鲁棒性故障。一个 Agent 可以通过不安全的过程得到正确答案,如果不看轨迹你永远不会知道。
已被 Qwen、GLM、MiniMax 采用做模型评测。这是基准有用的最强信号——模型团队自愿使用它。
PinchBench:实用型
23 个真实任务。Coding agent 专用。977 stars。
PinchBench 走不同路线:忘掉抽象能力,只看 Agent 能不能完成真实编码任务。由 kilo.ai 团队构建,专门评估 LLM 作为 OpenClaw coding agent 的表现。
任务涵盖生产力、研究、写作和代码——开发者实际需要 Agent 做的事。没有合成基准,没有玩具问题。
977 stars,社区采纳度最高。开发者信任它因为它测的是他们关心的事:"这个 Agent 真的能帮我写代码吗?"
ClawSafety:对抗型
120 个提示注入攻击。5 个危害领域。聊天安全 ≠ Agent 安全。
ClawSafety 问了一个具体且可怕的问题:如果有人在你的 AI Agent 读取的文档中注入恶意指令,它会听从攻击者的指令而不是你的吗?
跨前沿模型的答案:是的,40-75% 的情况下会。
测试了 5 个危害领域(DevOps、金融、医疗、法律、软件工程)×3 种攻击向量(技能注入、邮件注入、网页注入)。最惊人的发现:陈述式措辞能绕过所有防御,无论内容是什么。攻击者不需要复杂技术——只需要把注入写成陈述句而非命令句。
DevOps 环境的可利用性几乎是法律场景的 2 倍。而且 scaffold 选择很重要:同一模型的攻击成功率因为跑在 OpenClaw、Nanobot 还是 NemoClaw 上而相差最多 8.6 个百分点。
只有一个模型在凭证转发和破坏性操作上保持了 0% 攻击成功率。
BioAgent Bench:领域专家
~100 个生信任务。序列分析、基因组学流程、计算生物学管线。
其他基准测通用能力,BioAgent Bench 问:你的 Agent 真的能做生物信息学吗?不是"写出看起来像生信的代码"——是真正跑序列分析、处理基因组数据、执行计算生物学管线。
这是通用基准失败的地方。在 PinchBench 上得分很高的 Agent 在被要求跑 BLAST 搜索或解读差异表达分析时可能完全崩溃。领域专业需要领域专业的评估。
18 stars——我们列表中最小的基准——但填补了关键空白。随着更多专业科研 Agent 出现(OmicsClaw、BioClaw、BioMedAgent),领域特异性基准变得不可或缺。
HeurekaBench:现实检验
40 个真实科研任务。ICLR 2026 论文。创建基准的框架。
HeurekaBench 采取最有野心的方法:不是测 Agent 能否完成预定义任务,而是测 Agent 能否独立进行真实科研。
来自 EPFL,发表于 ICLR 2026。它不只是基准——是创建基准的框架。你给它一个真实科学问题,它生成评估标准,然后评分 Agent 研究得如何。
评估不是"你答对了吗"——是"你是否遵循了严谨的科学过程、考虑了替代假设、并适当限定了结论?"
这是"Agent 互相打分"这个问题变得哲学化的地方。HeurekaBench 用 AI 评估其他 AI 是否做了好的科学。但谁来评估评估者?
它们的共识
尽管方法不同,五个基准在三点上达成一致:
1. 只看最终输出不够。 Claw-Eval 的轨迹感知评分抓到了纯输出评估漏掉的问题。ClawSafety 证明正确输出可以来自被攻陷的过程。HeurekaBench 评估推理过程而非结论。
2. 领域很重要。 ClawSafety 发现不同危害领域有 2 倍差异。BioAgent Bench 证明通用编码能力不能转移到生信。一个基准统治不了所有领域。
3. 聊天安全的模型不一定 Agent 安全。 ClawSafety 的核心发现——聊天安全的模型在 Agent 场景下 40-75% 服从注入——应该改变我们对在科研工作流中部署 AI 的思考方式。
它们的盲区
目前没有基准测试:
- 长周期研究——跨天的实验,Agent 需要跨 session 保持上下文
- 多 Agent 协作——Agent 之间合作得好不好(ScienceClaw × Infinite、ClawTeam 相关)
- 可重复性——Agent 的科学发现能否被独立验证
- 成本效率——Agent 是否以合理的 token/API 成本实现了结果
- 人机协作——Agent 与科学家合作的能力,而不只是替代
这些空白代表机会。如果你在做基准,这些是无人认领的领地。
你该用哪个?
评估通用 Agent: → Claw-Eval(最全面)+ PinchBench(最实用)
部署有真实权限的 Agent: → ClawSafety(在给它访问任何敏感东西之前)
构建生信 Agent: → BioAgent Bench(领域特异性评估不可妥协)
发论文介绍新科研 Agent: → HeurekaBench(ICLR 录用的框架,学术公信力)
想要社区认可: → PinchBench(最高采纳度,最被认可的分数)
元问题
五个团队独立认为 AI 科研 Agent 生态需要标准化评估。这是成熟的标志——你不会为不重要的东西建考试系统。
但这里有一个递归的讽刺。我们用 AI 评估 AI,而被评估的 AI 在评估关于真实世界的科学声明。某个节点上,需要有人检查评估者本身是否可靠。
现在的务实答案:用多个基准。没有单一评估能覆盖所有重要的维度。基准之间的分歧是特性而非 bug——它们告诉你你的 Agent 在"好"的哪些维度上表现出色,哪些不行。
Agent 在互相打分。我们大概也该给打分者打打分。
全部 5 个基准列在我们的基准测试与评估分组中。完整的 132 个科研 Agent 目录:claw4science.org。
