当 AI Agent 开始互相打分

学生开始出考卷了

一个奇怪的局面：我们现在有做科学研究的 AI Agent，也有评估前一批 Agent 做得好不好的 AI 系统。

不是人类在审核 AI 输出。是 AI 系统在给 AI 系统打分。

OpenClaw 生态已经产生了 5 个不同的基准测试，各自衡量 Agent 表现的不同维度。合在一起覆盖安全、生信、编码、研究质量和多模态推理。分开看，它们对"好"的定义互相矛盾。

我们把五个都过了一遍。

五大基准

基准	测什么	任务数	Stars	论文
Claw-Eval	完成度 + 安全 + 鲁棒性	300	393	arXiv
PinchBench	Coding agent 表现	23	977	—
ClawSafety	提示注入攻击	120	5	arXiv
BioAgent Bench	生信任务	~100	18	arXiv
HeurekaBench	真实科研任务	40	11	ICLR 2026

五个基准。五种"好 Agent"的定义。

Claw-Eval：全面型

300 个任务。9 个类别。2159 条评分标准。轨迹感知评分。

Claw-Eval 是最全面的 Agent 评估尝试。由李磊团队构建，覆盖通用服务编排、多模态感知（图片、PDF、视频）和多轮专业对话。

核心创新是轨迹感知评分。大多数基准只检查 Agent 是否得到了正确答案。Claw-Eval 还检查如何得到的——在每一步记录执行轨迹、审计日志和环境快照。

为什么重要：实验显示，只看最终输出的评估方式遗漏了 44% 的安全违规和 13% 的鲁棒性故障。一个 Agent 可以通过不安全的过程得到正确答案，如果不看轨迹你永远不会知道。

已被 Qwen、GLM、MiniMax 采用做模型评测。这是基准有用的最强信号——模型团队自愿使用它。

PinchBench：实用型

23 个真实任务。Coding agent 专用。977 stars。

PinchBench 走不同路线：忘掉抽象能力，只看 Agent 能不能完成真实编码任务。由 kilo.ai 团队构建，专门评估 LLM 作为 OpenClaw coding agent 的表现。

任务涵盖生产力、研究、写作和代码——开发者实际需要 Agent 做的事。没有合成基准，没有玩具问题。

977 stars，社区采纳度最高。开发者信任它因为它测的是他们关心的事："这个 Agent 真的能帮我写代码吗？"

ClawSafety：对抗型

120 个提示注入攻击。5 个危害领域。聊天安全 ≠ Agent 安全。

ClawSafety 问了一个具体且可怕的问题：如果有人在你的 AI Agent 读取的文档中注入恶意指令，它会听从攻击者的指令而不是你的吗？

跨前沿模型的答案：是的，40-75% 的情况下会。

测试了 5 个危害领域（DevOps、金融、医疗、法律、软件工程）×3 种攻击向量（技能注入、邮件注入、网页注入）。最惊人的发现：陈述式措辞能绕过所有防御，无论内容是什么。攻击者不需要复杂技术——只需要把注入写成陈述句而非命令句。

DevOps 环境的可利用性几乎是法律场景的 2 倍。而且 scaffold 选择很重要：同一模型的攻击成功率因为跑在 OpenClaw、Nanobot 还是 NemoClaw 上而相差最多 8.6 个百分点。

只有一个模型在凭证转发和破坏性操作上保持了 0% 攻击成功率。

BioAgent Bench：领域专家

~100 个生信任务。序列分析、基因组学流程、计算生物学管线。

其他基准测通用能力，BioAgent Bench 问：你的 Agent 真的能做生物信息学吗？不是"写出看起来像生信的代码"——是真正跑序列分析、处理基因组数据、执行计算生物学管线。

这是通用基准失败的地方。在 PinchBench 上得分很高的 Agent 在被要求跑 BLAST 搜索或解读差异表达分析时可能完全崩溃。领域专业需要领域专业的评估。

18 stars——我们列表中最小的基准——但填补了关键空白。随着更多专业科研 Agent 出现（OmicsClaw、BioClaw、BioMedAgent），领域特异性基准变得不可或缺。

HeurekaBench：现实检验

40 个真实科研任务。ICLR 2026 论文。创建基准的框架。

HeurekaBench 采取最有野心的方法：不是测 Agent 能否完成预定义任务，而是测 Agent 能否独立进行真实科研。

来自 EPFL，发表于 ICLR 2026。它不只是基准——是创建基准的框架。你给它一个真实科学问题，它生成评估标准，然后评分 Agent 研究得如何。

评估不是"你答对了吗"——是"你是否遵循了严谨的科学过程、考虑了替代假设、并适当限定了结论？"

这是"Agent 互相打分"这个问题变得哲学化的地方。HeurekaBench 用 AI 评估其他 AI 是否做了好的科学。但谁来评估评估者？

它们的共识

尽管方法不同，五个基准在三点上达成一致：

1. 只看最终输出不够。 Claw-Eval 的轨迹感知评分抓到了纯输出评估漏掉的问题。ClawSafety 证明正确输出可以来自被攻陷的过程。HeurekaBench 评估推理过程而非结论。

2. 领域很重要。 ClawSafety 发现不同危害领域有 2 倍差异。BioAgent Bench 证明通用编码能力不能转移到生信。一个基准统治不了所有领域。

3. 聊天安全的模型不一定 Agent 安全。 ClawSafety 的核心发现——聊天安全的模型在 Agent 场景下 40-75% 服从注入——应该改变我们对在科研工作流中部署 AI 的思考方式。

它们的盲区

目前没有基准测试：

长周期研究——跨天的实验，Agent 需要跨 session 保持上下文
多 Agent 协作——Agent 之间合作得好不好（ScienceClaw × Infinite、ClawTeam 相关）
可重复性——Agent 的科学发现能否被独立验证
成本效率——Agent 是否以合理的 token/API 成本实现了结果
人机协作——Agent 与科学家合作的能力，而不只是替代

这些空白代表机会。如果你在做基准，这些是无人认领的领地。

你该用哪个？

评估通用 Agent： → Claw-Eval（最全面）+ PinchBench（最实用）

部署有真实权限的 Agent： → ClawSafety（在给它访问任何敏感东西之前）

构建生信 Agent： → BioAgent Bench（领域特异性评估不可妥协）

发论文介绍新科研 Agent： → HeurekaBench（ICLR 录用的框架，学术公信力）

想要社区认可： → PinchBench（最高采纳度，最被认可的分数）

元问题

五个团队独立认为 AI 科研 Agent 生态需要标准化评估。这是成熟的标志——你不会为不重要的东西建考试系统。

但这里有一个递归的讽刺。我们用 AI 评估 AI，而被评估的 AI 在评估关于真实世界的科学声明。某个节点上，需要有人检查评估者本身是否可靠。

现在的务实答案：用多个基准。没有单一评估能覆盖所有重要的维度。基准之间的分歧是特性而非 bug——它们告诉你你的 Agent 在"好"的哪些维度上表现出色，哪些不行。

Agent 在互相打分。我们大概也该给打分者打打分。

全部 5 个基准列在我们的基准测试与评估分组中。完整的 132 个科研 Agent 目录：claw4science.org。