AI 科研 Agent 测评基准 2026：8 大套件横向对比

核心要点

8 个活跃基准正在评测 2026 年的 AI 科研 Agent，比 4 月初的 5 个又多了 3 个。
任务规模从 PinchBench 的 23 个编码任务 到 Claw-Eval 的 300 个多模态轨迹 再到 ClawBench 的 153 个真实网站。
没有任何前沿模型在 Agent 类基准上超过 60%：ClawMark 最高 55%，ClawBench 最高 33.3%。
评分方法本质不同：评估清单（ResearchClawBench）、轨迹审计（Claw-Eval）、注入成功率（ClawSafety）、真实任务完成度（PinchBench）。
覆盖范围横跨：通用 Agent → 编码 → 网页任务 → 生物信息 → 安全 → 自主科研 → 跨日企业级工作流。
同一团队产出多个基准时容易混淆：上海交大徐王翰团队既做了 ResearchClawBench（40 个 Agent 任务），也做了 SGI-Bench（1000+ LLM 题目）。
采用信号：Claw-Eval 已被 Qwen、GLM、MiniMax 内部使用，是基准价值最强的指标。
多数基准开放榜单，无需自己复现实验即可横向对比。

什么是 AI 科研 Agent 测评基准？

AI 科研 Agent 测评基准是一套标准化测试套件，用于度量自主 AI Agent（不是基础 LLM）端到端完成科研或专业工作的能力。

与传统 LLM 基准的核心差异：

任务是开放式的 — Agent 必须规划、调用工具、写代码、产出物料。
评分是多步的 — 评判方既看轨迹和中间产物，也看最终结果，不是单次回答。
环境是有状态的 — 文件系统、外部 API、浏览器、随时间变化的数据都属于测试范围。
支持多种模型 — 多数基准兼容 Claude、Codex、OpenClaw、NanoBot、EvoScientist 等。

这一类基准之所以重要，是因为 AI Agent 现在已经在写论文、跑实验、发布代码 — 我们需要标准化方法来判断它们做得是否正确。

8 大基准一览

基准	任务数	领域	最高分	评分方式	Stars	状态
Claw-Eval	300	通用 Agent	—	轨迹 + 评分清单（2,159 项）	352	活跃
PinchBench	23	编码 Agent	公开榜	自动判分 + LLM 评判	965	活跃
ClawMark	100	跨日企业级	55%	跨模态多轮	51	活跃
ClawBench	153	真实网页	33.3%	真实网站任务完成度	47	活跃
ResearchClawBench	40	自主科研	50 = 匹配论文，70+ = 超越	专家清单 + LLM 同行评审	67	活跃
BioAgent Bench	~100	生物信息	—	流水线产出 + 准确率	16	活跃
HeurekaBench	40	AI 协作科学家	—	真实实验研究	11	ICLR 2026
ClawSafety	120	提示注入	—	攻击成功率	2	活跃

Star 数为 2026-04-17 的 GitHub 快照。最高分基于各基准报告的最强前沿模型成绩。

信息增益：每个基准的独特测评点

Claw-Eval — 轨迹感知的综合评估

核心属性：

任务：300 个人工核验
类别：9 类（服务编排、多模态感知、多轮对话）
评分项：2,159 条独立检查
模态：文本、图像、PDF、视频
评估维度：完成度 + 安全 + 鲁棒性
采用方：Qwen、GLM、MiniMax（生产级模型评估）

独特信号：实验显示，仅看最终输出的"轨迹不透明"评分会漏掉 44% 的安全违规和 13% 的鲁棒性失败。看 Agent 怎么走到答案，不是可选项。

PinchBench — 实用主义的编码 Agent 榜单

核心属性：

任务：23 个真实场景
覆盖：生产力、研究、写作、编码、分析、邮件、记忆、技能
榜单：pinchbench.com 公开
评分：自动判分 + LLM 评判

独特信号：PinchBench 优先看实用结果，不搞基准秀场 — 测试 Agent 是否真的完成了你工作中会问的任务。

ClawMark — 跨日企业级工作流

核心属性：

任务：100 个，覆盖 13 个专业领域
领域：保险、法律、EDA、金融等
形式：多日、多模态、动态环境
关键设定：任务进行中会有新邮件、文件更新、日程变更
最高分：55%（前沿模型）
机构：NUS、Evolvent AI、HKU、MIT、UW、UC Berkeley、CUHK、HKUST（40+ 学者）

独特信号：多数基准冻结环境。ClawMark 让环境变 — 测试 Agent 是否能察觉、适应、恢复。

ClawBench — 真实网站上的网页任务

核心属性：

任务：153 个
类别：15 个生活场景
网站：144 个真实网站
最高分：Claude Sonnet 4.6 = 33.3%，GPT-5.4 = 6.5%
机构：UBC、Vector Institute、CMU、上海交大、清华

独特信号：沙盒到真实世界的能力差距巨大。一个在合成网页环境跑 90% 的模型，在真实任务上仍可能失败 2/3。

ResearchClawBench — 从复现到新发现

核心属性：

任务：40 个真实科研任务
学科：10 个（天文、化学、物理、生命科学等）
流水线：两阶段 — 自主研究 + LLM 同行评审打分
评分：50 分 = 匹配原论文；70+ 分 = 超越
支持 Agent：Claude Code、Codex CLI、OpenClaw、NanoBot、EvoScientist、ResearchClaw、ARIS Codex
机构：上海交通大学（InternScience）

独特信号：任务源于已发表论文，配专家标注的评估清单。50 分 = Agent 复现了人类发表的工作；70 分 = 产出更好的结果。

BioAgent Bench — 生信领域专属

核心属性：

领域：生物信息 Agent
覆盖：序列分析、基因组学工作流、计算生物学流水线
形式：真实生信任务（不是玩具问题）

独特信号：评分绑定生信产出的正确性，不是通用 Agent 指标。

HeurekaBench — AI 协作科学家框架

核心属性：

会议：ICLR 2026
机构：EPFL 机器学习与生信实验室
聚焦：基于实验数据的科研
形式：是构建基准的框架，不是单一固定基准

独特信号：HeurekaBench 是元基准 — 提供基础设施，让你为不同领域的 AI 协作科学家生成新的评测任务。

ClawSafety — 真实条件下的提示注入

核心属性：

测试用例：120 个对抗
危害领域：5 类
攻击向量：3 类
危害行为类型：5 类
测试模型：Claude、Gemini、GPT-5.1、DeepSeek
测试脚手架：OpenClaw、Nanobot、NemoClaw

独特信号：聊天安全 ≠ Agent 安全。一个会拒绝有害聊天的模型，套进 Agent 循环里仍会被骗。

广度 vs 深度：8 大基准的取舍

取舍	广度（任务多）	深度（任务少但难）
通用 Agent	Claw-Eval (300)	PinchBench (23)
领域专属	ClawBench (153 网页)	ResearchClawBench (40 科研)
专项风险	ClawSafety (120 攻击)	HeurekaBench (40 实验)
企业级	ClawMark (100 跨日)	BioAgent Bench (~100)

规律：广度基准看覆盖面；深度基准看上限能力。多数实验室两种都需要。

按场景选择基准

选 Claw-Eval 如果：

你做通用 Agent，需要一起评测完成度、安全、鲁棒性。
你关心 Agent 怎么得到答案，不仅是最终输出。
你想用国内主流模型实验室已采纳的基准。

选 PinchBench 如果：

你做编码 Agent，需要公开榜单作为可信背书。
你偏好真实任务而非合成题集。
你要快速反馈 — 23 个任务跑得比 300 个快。

选 ResearchClawBench 如果：

你的 Agent 宣称能自主完成科研。
你需要绑定真实论文的评分，不是合成任务。
你想要一个清晰的对标线：50 分 = 匹配人类工作，70 分 = 超越。

选 ClawBench 如果：

你的 Agent 在真实网站上跑，不是沙盒副本。
你要度量沙盒到生产的能力鸿沟。
你关注 15 大类生活场景下的网页导航广度。

选 ClawMark 如果：

你的 Agent 必须在动态环境的企业场景下工作。
任务跨多日，需要多模态上下文。
你评估保险、法律、EDA 等专业工作流。

选 BioAgent Bench 如果：

你的领域专门是生物信息。
你需要绑定基因组学流水线正确性的评分。

选 HeurekaBench 如果：

你在做AI 协作科学家用于实验研究。
你需要框架来生成新基准，而不是只跑一个现成的。

选 ClawSafety 如果：

你需要知道你的 Agent 在提示注入攻击下表现如何。
你在受监管或高信任要求的环境运行，安全是底线。

常见混淆

ResearchClawBench vs SGI-Bench

两者都来自上海交通大学（第一作者徐王翰）。它们是两个不同的基准。

属性	ResearchClawBench	SGI-Bench
被测对象	AI Agent	基础 LLM
任务数	40 个真实科研	1,000+ 跨学科
来源	已发表论文	Science 杂志 125 大问题
评分	专家清单 + 论文匹配	实践探究模型 + TTRL
arXiv	（截至 2026-04-17 暂无）	arxiv.org/abs/2512.16969

如果你评估自主 Agent跑真实分析，用 ResearchClawBench。如果你探测基础模型的科研推理能力，用 SGI-Bench。

ClawSafety（基准）vs ClawSafety（扫描器）

两个不同项目重名。基准测试 120 种提示注入；扫描器是运行时安全工具。完整消歧义见 /samename/clawsafety。

常见问题

LLM 基准和 AI Agent 基准有什么区别？

LLM 基准（MMLU、GPQA、HumanEval）测试模型在单次提示下知道什么。AI Agent 基准测试自主系统能做什么端到端 — 包括工具使用、规划、多轮执行、错误恢复、最终产物质量。

为什么这些基准的最高分这么低（33%、55%）？

真实任务比为原始能力设计的基准任务难得多。ClawBench 33% 和 ClawMark 55% 揭示了沙盒表现与真实执行之间的鸿沟。这个鸿沟正是这些基准存在的核心信号。

我应该用哪个基准对比前沿模型？

通用能力：Claw-Eval（Qwen、GLM、MiniMax 都在用）。编码 Agent：PinchBench。科研 Agent：ResearchClawBench。真实网页执行：ClawBench。多数团队同时跑两到三个进行交叉验证。

这些基准是开源的吗？

是 — 8 个全都在 GitHub 上以宽松许可发布。多数包含榜单、评分脚本和接入自定义 Agent 的指引。PinchBench、Claw-Eval、ClawBench、ClawMark 还提供公开榜单。

我能提交自己的 Agent 参评吗？

可以。PinchBench、ClawBench、ClawMark、ResearchClawBench 都接受社区提交 — 通常通过 PR 或 Hugging Face 提交 Space。ResearchClawBench 把任务提交迁移到了 HF Space。

有基准覆盖多 Agent 系统吗？

部分覆盖。Claw-Eval 处理多轮对话和编排。ClawMark 显式测试跨日工作流。还没有专门评测多 Agent的基准 — 这是下一个空白。

基准格局变化有多快？

很快。OpenClaw 生态从 2026 年 4 月初的 5 个活跃基准增长到中旬的 8 个。预计到 2026 年中可能达到 12+ 个。

在哪里追踪新基准？

Claw4Science 的 benchmark 分组维护实时列表，含 GitHub 数据、描述和直链。新基准发布后几天内就会更新。

总结

AI 科研 Agent 评测格局现在已有 8 个生产级基准，覆盖通用能力、编码、网页任务、自主科研、生物信息、安全、跨日企业工作流和 AI 协作科学家框架。

没有单一基准能解决所有问题。前沿模型在每一个 Agent 类套件上都低于 60%，每个基准独特地暴露不同的失败模式 — 轨迹不透明（Claw-Eval）、沙盒到真实世界鸿沟（ClawBench）、环境漂移（ClawMark）、论文级复现（ResearchClawBench）、提示注入（ClawSafety）。

这个领域已经从"模型知道什么"转向了"系统能做什么"。这是对的问题。我们还做得不好。这些基准就是我们如何知道的方式。

AI 科研 Agent 测评基准 2026：8 大套件横向对比

目录