AI 科研 Agent 测评基准 2026:8 大套件横向对比

2026/04/17

核心要点

  • 8 个活跃基准正在评测 2026 年的 AI 科研 Agent,比 4 月初的 5 个又多了 3 个。
  • 任务规模从 PinchBench 的 23 个编码任务Claw-Eval 的 300 个多模态轨迹 再到 ClawBench 的 153 个真实网站
  • 没有任何前沿模型在 Agent 类基准上超过 60%:ClawMark 最高 55%,ClawBench 最高 33.3%。
  • 评分方法本质不同:评估清单(ResearchClawBench)、轨迹审计(Claw-Eval)、注入成功率(ClawSafety)、真实任务完成度(PinchBench)。
  • 覆盖范围横跨:通用 Agent → 编码 → 网页任务 → 生物信息 → 安全 → 自主科研 → 跨日企业级工作流。
  • 同一团队产出多个基准时容易混淆:上海交大徐王翰团队既做了 ResearchClawBench(40 个 Agent 任务),也做了 SGI-Bench(1000+ LLM 题目)。
  • 采用信号:Claw-Eval 已被 Qwen、GLM、MiniMax 内部使用,是基准价值最强的指标。
  • 多数基准开放榜单,无需自己复现实验即可横向对比。

什么是 AI 科研 Agent 测评基准?

AI 科研 Agent 测评基准是一套标准化测试套件,用于度量自主 AI Agent(不是基础 LLM)端到端完成科研或专业工作的能力。

与传统 LLM 基准的核心差异:

  • 任务是开放式的 — Agent 必须规划、调用工具、写代码、产出物料。
  • 评分是多步的 — 评判方既看轨迹和中间产物,也看最终结果,不是单次回答。
  • 环境是有状态的 — 文件系统、外部 API、浏览器、随时间变化的数据都属于测试范围。
  • 支持多种模型 — 多数基准兼容 Claude、Codex、OpenClaw、NanoBot、EvoScientist 等。

这一类基准之所以重要,是因为 AI Agent 现在已经在写论文、跑实验、发布代码 — 我们需要标准化方法来判断它们做得是否正确。


8 大基准一览

基准任务数领域最高分评分方式Stars状态
Claw-Eval300通用 Agent轨迹 + 评分清单(2,159 项)352活跃
PinchBench23编码 Agent公开榜自动判分 + LLM 评判965活跃
ClawMark100跨日企业级55%跨模态多轮51活跃
ClawBench153真实网页33.3%真实网站任务完成度47活跃
ResearchClawBench40自主科研50 = 匹配论文,70+ = 超越专家清单 + LLM 同行评审67活跃
BioAgent Bench~100生物信息流水线产出 + 准确率16活跃
HeurekaBench40AI 协作科学家真实实验研究11ICLR 2026
ClawSafety120提示注入攻击成功率2活跃

Star 数为 2026-04-17 的 GitHub 快照。最高分基于各基准报告的最强前沿模型成绩。


信息增益:每个基准的独特测评点

Claw-Eval — 轨迹感知的综合评估

核心属性:

  • 任务:300 个人工核验
  • 类别:9 类(服务编排、多模态感知、多轮对话)
  • 评分项:2,159 条独立检查
  • 模态:文本、图像、PDF、视频
  • 评估维度:完成度 + 安全 + 鲁棒性
  • 采用方:Qwen、GLM、MiniMax(生产级模型评估)

独特信号:实验显示,仅看最终输出的"轨迹不透明"评分会漏掉 44% 的安全违规和 13% 的鲁棒性失败。看 Agent 怎么走到答案,不是可选项。

PinchBench — 实用主义的编码 Agent 榜单

核心属性:

  • 任务:23 个真实场景
  • 覆盖:生产力、研究、写作、编码、分析、邮件、记忆、技能
  • 榜单:pinchbench.com 公开
  • 评分:自动判分 + LLM 评判

独特信号:PinchBench 优先看实用结果,不搞基准秀场 — 测试 Agent 是否真的完成了你工作中会问的任务。

ClawMark — 跨日企业级工作流

核心属性:

  • 任务:100 个,覆盖 13 个专业领域
  • 领域:保险、法律、EDA、金融等
  • 形式:多日、多模态、动态环境
  • 关键设定:任务进行中会有新邮件、文件更新、日程变更
  • 最高分55%(前沿模型)
  • 机构:NUS、Evolvent AI、HKU、MIT、UW、UC Berkeley、CUHK、HKUST(40+ 学者)

独特信号:多数基准冻结环境。ClawMark 让环境变 — 测试 Agent 是否能察觉、适应、恢复。

ClawBench — 真实网站上的网页任务

核心属性:

  • 任务:153 个
  • 类别:15 个生活场景
  • 网站:144 个真实网站
  • 最高分:Claude Sonnet 4.6 = 33.3%,GPT-5.4 = 6.5%
  • 机构:UBC、Vector Institute、CMU、上海交大、清华

独特信号:沙盒到真实世界的能力差距巨大。一个在合成网页环境跑 90% 的模型,在真实任务上仍可能失败 2/3。

ResearchClawBench — 从复现到新发现

核心属性:

  • 任务:40 个真实科研任务
  • 学科:10 个(天文、化学、物理、生命科学等)
  • 流水线:两阶段 — 自主研究 + LLM 同行评审打分
  • 评分:50 分 = 匹配原论文;70+ 分 = 超越
  • 支持 Agent:Claude Code、Codex CLI、OpenClaw、NanoBot、EvoScientist、ResearchClaw、ARIS Codex
  • 机构:上海交通大学(InternScience)

独特信号:任务源于已发表论文,配专家标注的评估清单。50 分 = Agent 复现了人类发表的工作;70 分 = 产出更好的结果。

BioAgent Bench — 生信领域专属

核心属性:

  • 领域:生物信息 Agent
  • 覆盖:序列分析、基因组学工作流、计算生物学流水线
  • 形式:真实生信任务(不是玩具问题)

独特信号:评分绑定生信产出的正确性,不是通用 Agent 指标。

HeurekaBench — AI 协作科学家框架

核心属性:

  • 会议:ICLR 2026
  • 机构:EPFL 机器学习与生信实验室
  • 聚焦:基于实验数据的科研
  • 形式:是构建基准的框架,不是单一固定基准

独特信号:HeurekaBench 是元基准 — 提供基础设施,让你为不同领域的 AI 协作科学家生成新的评测任务。

ClawSafety — 真实条件下的提示注入

核心属性:

  • 测试用例:120 个对抗
  • 危害领域:5 类
  • 攻击向量:3 类
  • 危害行为类型:5 类
  • 测试模型:Claude、Gemini、GPT-5.1、DeepSeek
  • 测试脚手架:OpenClaw、Nanobot、NemoClaw

独特信号:聊天安全 ≠ Agent 安全。一个会拒绝有害聊天的模型,套进 Agent 循环里仍会被骗。


广度 vs 深度:8 大基准的取舍

取舍广度(任务多)深度(任务少但难)
通用 AgentClaw-Eval (300)PinchBench (23)
领域专属ClawBench (153 网页)ResearchClawBench (40 科研)
专项风险ClawSafety (120 攻击)HeurekaBench (40 实验)
企业级ClawMark (100 跨日)BioAgent Bench (~100)

规律:广度基准看覆盖面;深度基准看上限能力。多数实验室两种都需要。


按场景选择基准

选 Claw-Eval 如果:

  • 你做通用 Agent,需要一起评测完成度、安全、鲁棒性。
  • 你关心 Agent 怎么得到答案,不仅是最终输出。
  • 你想用国内主流模型实验室已采纳的基准。

选 PinchBench 如果:

  • 你做编码 Agent,需要公开榜单作为可信背书。
  • 你偏好真实任务而非合成题集。
  • 你要快速反馈 — 23 个任务跑得比 300 个快。

选 ResearchClawBench 如果:

  • 你的 Agent 宣称能自主完成科研
  • 你需要绑定真实论文的评分,不是合成任务。
  • 你想要一个清晰的对标线:50 分 = 匹配人类工作,70 分 = 超越。

选 ClawBench 如果:

  • 你的 Agent 在真实网站上跑,不是沙盒副本。
  • 你要度量沙盒到生产的能力鸿沟。
  • 你关注 15 大类生活场景下的网页导航广度。

选 ClawMark 如果:

  • 你的 Agent 必须在动态环境的企业场景下工作。
  • 任务跨多日,需要多模态上下文。
  • 你评估保险、法律、EDA 等专业工作流。

选 BioAgent Bench 如果:

  • 你的领域专门是生物信息
  • 你需要绑定基因组学流水线正确性的评分。

选 HeurekaBench 如果:

  • 你在做AI 协作科学家用于实验研究。
  • 你需要框架来生成新基准,而不是只跑一个现成的。

选 ClawSafety 如果:

  • 你需要知道你的 Agent 在提示注入攻击下表现如何。
  • 你在受监管或高信任要求的环境运行,安全是底线。

常见混淆

ResearchClawBench vs SGI-Bench

两者都来自上海交通大学(第一作者徐王翰)。它们是两个不同的基准

属性ResearchClawBenchSGI-Bench
被测对象AI Agent基础 LLM
任务数40 个真实科研1,000+ 跨学科
来源已发表论文Science 杂志 125 大问题
评分专家清单 + 论文匹配实践探究模型 + TTRL
arXiv(截至 2026-04-17 暂无)arxiv.org/abs/2512.16969

如果你评估自主 Agent跑真实分析,用 ResearchClawBench。如果你探测基础模型的科研推理能力,用 SGI-Bench。

ClawSafety(基准)vs ClawSafety(扫描器)

两个不同项目重名。基准测试 120 种提示注入;扫描器是运行时安全工具。完整消歧义见 /samename/clawsafety


常见问题

LLM 基准和 AI Agent 基准有什么区别?

LLM 基准(MMLU、GPQA、HumanEval)测试模型在单次提示下知道什么。AI Agent 基准测试自主系统能做什么端到端 — 包括工具使用、规划、多轮执行、错误恢复、最终产物质量。

为什么这些基准的最高分这么低(33%、55%)?

真实任务比为原始能力设计的基准任务难得多。ClawBench 33% 和 ClawMark 55% 揭示了沙盒表现与真实执行之间的鸿沟。这个鸿沟正是这些基准存在的核心信号。

我应该用哪个基准对比前沿模型?

通用能力:Claw-Eval(Qwen、GLM、MiniMax 都在用)。编码 Agent:PinchBench。科研 Agent:ResearchClawBench。真实网页执行:ClawBench。多数团队同时跑两到三个进行交叉验证。

这些基准是开源的吗?

是 — 8 个全都在 GitHub 上以宽松许可发布。多数包含榜单、评分脚本和接入自定义 Agent 的指引。PinchBench、Claw-Eval、ClawBench、ClawMark 还提供公开榜单。

我能提交自己的 Agent 参评吗?

可以。PinchBench、ClawBench、ClawMark、ResearchClawBench 都接受社区提交 — 通常通过 PR 或 Hugging Face 提交 Space。ResearchClawBench 把任务提交迁移到了 HF Space

有基准覆盖多 Agent 系统吗?

部分覆盖。Claw-Eval 处理多轮对话和编排。ClawMark 显式测试跨日工作流。还没有专门评测多 Agent的基准 — 这是下一个空白。

基准格局变化有多快?

很快。OpenClaw 生态从 2026 年 4 月初的 5 个活跃基准增长到中旬的 8 个。预计到 2026 年中可能达到 12+ 个。

在哪里追踪新基准?

Claw4Science 的 benchmark 分组维护实时列表,含 GitHub 数据、描述和直链。新基准发布后几天内就会更新。


总结

AI 科研 Agent 评测格局现在已有 8 个生产级基准,覆盖通用能力、编码、网页任务、自主科研、生物信息、安全、跨日企业工作流和 AI 协作科学家框架。

没有单一基准能解决所有问题。前沿模型在每一个 Agent 类套件上都低于 60%,每个基准独特地暴露不同的失败模式 — 轨迹不透明(Claw-Eval)、沙盒到真实世界鸿沟(ClawBench)、环境漂移(ClawMark)、论文级复现(ResearchClawBench)、提示注入(ClawSafety)。

这个领域已经从"模型知道什么"转向了"系统能做什么"。这是对的问题。我们还做得不好。这些基准就是我们如何知道的方式。