核心要点
- 8 个活跃基准正在评测 2026 年的 AI 科研 Agent,比 4 月初的 5 个又多了 3 个。
- 任务规模从 PinchBench 的 23 个编码任务 到 Claw-Eval 的 300 个多模态轨迹 再到 ClawBench 的 153 个真实网站。
- 没有任何前沿模型在 Agent 类基准上超过 60%:ClawMark 最高 55%,ClawBench 最高 33.3%。
- 评分方法本质不同:评估清单(ResearchClawBench)、轨迹审计(Claw-Eval)、注入成功率(ClawSafety)、真实任务完成度(PinchBench)。
- 覆盖范围横跨:通用 Agent → 编码 → 网页任务 → 生物信息 → 安全 → 自主科研 → 跨日企业级工作流。
- 同一团队产出多个基准时容易混淆:上海交大徐王翰团队既做了 ResearchClawBench(40 个 Agent 任务),也做了 SGI-Bench(1000+ LLM 题目)。
- 采用信号:Claw-Eval 已被 Qwen、GLM、MiniMax 内部使用,是基准价值最强的指标。
- 多数基准开放榜单,无需自己复现实验即可横向对比。
什么是 AI 科研 Agent 测评基准?
AI 科研 Agent 测评基准是一套标准化测试套件,用于度量自主 AI Agent(不是基础 LLM)端到端完成科研或专业工作的能力。
与传统 LLM 基准的核心差异:
- 任务是开放式的 — Agent 必须规划、调用工具、写代码、产出物料。
- 评分是多步的 — 评判方既看轨迹和中间产物,也看最终结果,不是单次回答。
- 环境是有状态的 — 文件系统、外部 API、浏览器、随时间变化的数据都属于测试范围。
- 支持多种模型 — 多数基准兼容 Claude、Codex、OpenClaw、NanoBot、EvoScientist 等。
这一类基准之所以重要,是因为 AI Agent 现在已经在写论文、跑实验、发布代码 — 我们需要标准化方法来判断它们做得是否正确。
8 大基准一览
| 基准 | 任务数 | 领域 | 最高分 | 评分方式 | Stars | 状态 |
|---|---|---|---|---|---|---|
| Claw-Eval | 300 | 通用 Agent | — | 轨迹 + 评分清单(2,159 项) | 352 | 活跃 |
| PinchBench | 23 | 编码 Agent | 公开榜 | 自动判分 + LLM 评判 | 965 | 活跃 |
| ClawMark | 100 | 跨日企业级 | 55% | 跨模态多轮 | 51 | 活跃 |
| ClawBench | 153 | 真实网页 | 33.3% | 真实网站任务完成度 | 47 | 活跃 |
| ResearchClawBench | 40 | 自主科研 | 50 = 匹配论文,70+ = 超越 | 专家清单 + LLM 同行评审 | 67 | 活跃 |
| BioAgent Bench | ~100 | 生物信息 | — | 流水线产出 + 准确率 | 16 | 活跃 |
| HeurekaBench | 40 | AI 协作科学家 | — | 真实实验研究 | 11 | ICLR 2026 |
| ClawSafety | 120 | 提示注入 | — | 攻击成功率 | 2 | 活跃 |
Star 数为 2026-04-17 的 GitHub 快照。最高分基于各基准报告的最强前沿模型成绩。
信息增益:每个基准的独特测评点
Claw-Eval — 轨迹感知的综合评估
核心属性:
- 任务:300 个人工核验
- 类别:9 类(服务编排、多模态感知、多轮对话)
- 评分项:2,159 条独立检查
- 模态:文本、图像、PDF、视频
- 评估维度:完成度 + 安全 + 鲁棒性
- 采用方:Qwen、GLM、MiniMax(生产级模型评估)
独特信号:实验显示,仅看最终输出的"轨迹不透明"评分会漏掉 44% 的安全违规和 13% 的鲁棒性失败。看 Agent 怎么走到答案,不是可选项。
PinchBench — 实用主义的编码 Agent 榜单
核心属性:
- 任务:23 个真实场景
- 覆盖:生产力、研究、写作、编码、分析、邮件、记忆、技能
- 榜单:pinchbench.com 公开
- 评分:自动判分 + LLM 评判
独特信号:PinchBench 优先看实用结果,不搞基准秀场 — 测试 Agent 是否真的完成了你工作中会问的任务。
ClawMark — 跨日企业级工作流
核心属性:
- 任务:100 个,覆盖 13 个专业领域
- 领域:保险、法律、EDA、金融等
- 形式:多日、多模态、动态环境
- 关键设定:任务进行中会有新邮件、文件更新、日程变更
- 最高分:55%(前沿模型)
- 机构:NUS、Evolvent AI、HKU、MIT、UW、UC Berkeley、CUHK、HKUST(40+ 学者)
独特信号:多数基准冻结环境。ClawMark 让环境变 — 测试 Agent 是否能察觉、适应、恢复。
ClawBench — 真实网站上的网页任务
核心属性:
- 任务:153 个
- 类别:15 个生活场景
- 网站:144 个真实网站
- 最高分:Claude Sonnet 4.6 = 33.3%,GPT-5.4 = 6.5%
- 机构:UBC、Vector Institute、CMU、上海交大、清华
独特信号:沙盒到真实世界的能力差距巨大。一个在合成网页环境跑 90% 的模型,在真实任务上仍可能失败 2/3。
ResearchClawBench — 从复现到新发现
核心属性:
- 任务:40 个真实科研任务
- 学科:10 个(天文、化学、物理、生命科学等)
- 流水线:两阶段 — 自主研究 + LLM 同行评审打分
- 评分:50 分 = 匹配原论文;70+ 分 = 超越
- 支持 Agent:Claude Code、Codex CLI、OpenClaw、NanoBot、EvoScientist、ResearchClaw、ARIS Codex
- 机构:上海交通大学(InternScience)
独特信号:任务源于已发表论文,配专家标注的评估清单。50 分 = Agent 复现了人类发表的工作;70 分 = 产出更好的结果。
BioAgent Bench — 生信领域专属
核心属性:
- 领域:生物信息 Agent
- 覆盖:序列分析、基因组学工作流、计算生物学流水线
- 形式:真实生信任务(不是玩具问题)
独特信号:评分绑定生信产出的正确性,不是通用 Agent 指标。
HeurekaBench — AI 协作科学家框架
核心属性:
- 会议:ICLR 2026
- 机构:EPFL 机器学习与生信实验室
- 聚焦:基于实验数据的科研
- 形式:是构建基准的框架,不是单一固定基准
独特信号:HeurekaBench 是元基准 — 提供基础设施,让你为不同领域的 AI 协作科学家生成新的评测任务。
ClawSafety — 真实条件下的提示注入
核心属性:
- 测试用例:120 个对抗
- 危害领域:5 类
- 攻击向量:3 类
- 危害行为类型:5 类
- 测试模型:Claude、Gemini、GPT-5.1、DeepSeek
- 测试脚手架:OpenClaw、Nanobot、NemoClaw
独特信号:聊天安全 ≠ Agent 安全。一个会拒绝有害聊天的模型,套进 Agent 循环里仍会被骗。
广度 vs 深度:8 大基准的取舍
| 取舍 | 广度(任务多) | 深度(任务少但难) |
|---|---|---|
| 通用 Agent | Claw-Eval (300) | PinchBench (23) |
| 领域专属 | ClawBench (153 网页) | ResearchClawBench (40 科研) |
| 专项风险 | ClawSafety (120 攻击) | HeurekaBench (40 实验) |
| 企业级 | ClawMark (100 跨日) | BioAgent Bench (~100) |
规律:广度基准看覆盖面;深度基准看上限能力。多数实验室两种都需要。
按场景选择基准
选 Claw-Eval 如果:
- 你做通用 Agent,需要一起评测完成度、安全、鲁棒性。
- 你关心 Agent 怎么得到答案,不仅是最终输出。
- 你想用国内主流模型实验室已采纳的基准。
选 PinchBench 如果:
- 你做编码 Agent,需要公开榜单作为可信背书。
- 你偏好真实任务而非合成题集。
- 你要快速反馈 — 23 个任务跑得比 300 个快。
选 ResearchClawBench 如果:
- 你的 Agent 宣称能自主完成科研。
- 你需要绑定真实论文的评分,不是合成任务。
- 你想要一个清晰的对标线:50 分 = 匹配人类工作,70 分 = 超越。
选 ClawBench 如果:
- 你的 Agent 在真实网站上跑,不是沙盒副本。
- 你要度量沙盒到生产的能力鸿沟。
- 你关注 15 大类生活场景下的网页导航广度。
选 ClawMark 如果:
- 你的 Agent 必须在动态环境的企业场景下工作。
- 任务跨多日,需要多模态上下文。
- 你评估保险、法律、EDA 等专业工作流。
选 BioAgent Bench 如果:
- 你的领域专门是生物信息。
- 你需要绑定基因组学流水线正确性的评分。
选 HeurekaBench 如果:
- 你在做AI 协作科学家用于实验研究。
- 你需要框架来生成新基准,而不是只跑一个现成的。
选 ClawSafety 如果:
- 你需要知道你的 Agent 在提示注入攻击下表现如何。
- 你在受监管或高信任要求的环境运行,安全是底线。
常见混淆
ResearchClawBench vs SGI-Bench
两者都来自上海交通大学(第一作者徐王翰)。它们是两个不同的基准。
| 属性 | ResearchClawBench | SGI-Bench |
|---|---|---|
| 被测对象 | AI Agent | 基础 LLM |
| 任务数 | 40 个真实科研 | 1,000+ 跨学科 |
| 来源 | 已发表论文 | Science 杂志 125 大问题 |
| 评分 | 专家清单 + 论文匹配 | 实践探究模型 + TTRL |
| arXiv | (截至 2026-04-17 暂无) | arxiv.org/abs/2512.16969 |
如果你评估自主 Agent跑真实分析,用 ResearchClawBench。如果你探测基础模型的科研推理能力,用 SGI-Bench。
ClawSafety(基准)vs ClawSafety(扫描器)
两个不同项目重名。基准测试 120 种提示注入;扫描器是运行时安全工具。完整消歧义见 /samename/clawsafety。
常见问题
LLM 基准和 AI Agent 基准有什么区别?
LLM 基准(MMLU、GPQA、HumanEval)测试模型在单次提示下知道什么。AI Agent 基准测试自主系统能做什么端到端 — 包括工具使用、规划、多轮执行、错误恢复、最终产物质量。
为什么这些基准的最高分这么低(33%、55%)?
真实任务比为原始能力设计的基准任务难得多。ClawBench 33% 和 ClawMark 55% 揭示了沙盒表现与真实执行之间的鸿沟。这个鸿沟正是这些基准存在的核心信号。
我应该用哪个基准对比前沿模型?
通用能力:Claw-Eval(Qwen、GLM、MiniMax 都在用)。编码 Agent:PinchBench。科研 Agent:ResearchClawBench。真实网页执行:ClawBench。多数团队同时跑两到三个进行交叉验证。
这些基准是开源的吗?
是 — 8 个全都在 GitHub 上以宽松许可发布。多数包含榜单、评分脚本和接入自定义 Agent 的指引。PinchBench、Claw-Eval、ClawBench、ClawMark 还提供公开榜单。
我能提交自己的 Agent 参评吗?
可以。PinchBench、ClawBench、ClawMark、ResearchClawBench 都接受社区提交 — 通常通过 PR 或 Hugging Face 提交 Space。ResearchClawBench 把任务提交迁移到了 HF Space。
有基准覆盖多 Agent 系统吗?
部分覆盖。Claw-Eval 处理多轮对话和编排。ClawMark 显式测试跨日工作流。还没有专门评测多 Agent的基准 — 这是下一个空白。
基准格局变化有多快?
很快。OpenClaw 生态从 2026 年 4 月初的 5 个活跃基准增长到中旬的 8 个。预计到 2026 年中可能达到 12+ 个。
在哪里追踪新基准?
Claw4Science 的 benchmark 分组维护实时列表,含 GitHub 数据、描述和直链。新基准发布后几天内就会更新。
总结
AI 科研 Agent 评测格局现在已有 8 个生产级基准,覆盖通用能力、编码、网页任务、自主科研、生物信息、安全、跨日企业工作流和 AI 协作科学家框架。
没有单一基准能解决所有问题。前沿模型在每一个 Agent 类套件上都低于 60%,每个基准独特地暴露不同的失败模式 — 轨迹不透明(Claw-Eval)、沙盒到真实世界鸿沟(ClawBench)、环境漂移(ClawMark)、论文级复现(ResearchClawBench)、提示注入(ClawSafety)。
这个领域已经从"模型知道什么"转向了"系统能做什么"。这是对的问题。我们还做得不好。这些基准就是我们如何知道的方式。
