生态报告：2026 年 4 月——基准与自主科研

核心要点

新增 37 个项目（3 月是 +25）——单月增速纪录
Hermes Agent 爆发：+44,092 stars（+54%），4 月项目类增幅断层第一
autoresearch 集群：4 月中下旬一批自主科研项目集中出现，说明这个方向正在被重点关注
基准潮：7 个新评测套件（Claw-Eval、ClawBench、ClawMark、BioAgent Bench、BixBench、ResearchClawBench、HeurekaBench）
17 个项目正式标记 stable（paper-locked，刻意低活跃）
第一个项目进入墓园：PaperClaw（meowscles69，141⭐）因 GitHub 账号删除消失
追踪总数：144 个项目 + 33 个 skill hubs = 177 条（3 月底是 119）

数字

指标	3 月底	4 月底	Δ
追踪项目	107	144	+37
Skill hubs	30	33	+3
标记 `stable` 的项目	0	17	+17
墓园项目	0	1	+1
总 stars（116 个连续追踪 repo）	593,703（4/14）	678,931	+85,228（+14.4%）
新基准条目	1	7	+6

116 个 repo 是我们有连续每日快照的子集——完整覆盖从 4 月中旬开始稳定。

头部增长 — 项目（4/14 → 4/30）

按绝对增量：

项目	4/14	4/30	增量	%
NousResearch/hermes-agent	81,927	126,019	+44,092	+54%
HKUDS/OpenHarness	9,475	11,630	+2,155	+23%
HKUDS/nanobot	39,462	41,362	+1,900	+5%
THU-MAIC/OpenMAIC	15,513	16,613	+1,100	+7%
NVIDIA/NemoClaw	19,185	19,975	+790	+4%
HKUDS/OpenSpace	5,169	5,939	+770	+15%
aiming-lab/AutoResearchClaw	11,128	11,822	+694	+6%

按百分比（起始 ≥ 20 stars，过滤噪音）：

项目	4/14	4/30	%
MathClaw-ruc/MathClaw	203	447	+120%
NousResearch/hermes-agent	81,927	126,019	+54%
InternScience/ResearchClawBench	78	107	+37%
BOBQWERA/BioMedAgent	72	92	+28%
claw-eval/claw-eval	414	510	+23%

Hermes 是头条。+44K 是真实增长，对应他们 4 月的发布节奏，以及"agent harness"这个品类逐渐被 Claude / OpenClaw 社区理解。在项目这一档，没有别的能接近这个绝对增量；OpenHarness 是个远距离的第二。

参考：skill hub 那边最大增量是 anthropics/skills +9,375——也很可观，但属于另一个品类，不和项目仓库直接比较。

autoresearch 集群

4 月下半月，一批自主科研项目密集出现在我们的雷达上：

SakanaAI/AI-Scientist —— 元祖（v1）
davebcn87/pi-autoresearch
uditgoenka/autoresearch
InternScience/InternAgent
trevin-creator/autoresearch-mlx（Apple Silicon）
jimmc414/Kosmos

这些是我们同一天收录的，不代表它们同一天上线。真正有意义的信号是密度——一次策展过滤里冒出 6 个独立的 autoresearch 项目，说明这个方向当下正在吸引开发者火力。加上之前的 AutoResearchClaw、EvoScientist、NeuriCo、DeepScientist，"自主科研"现在是 10+ 项目的品类。

基准潮

7 个新评测套件 4 月落地，说明科学 agent 评测已经成熟到有人专门做基准而不是写一次性测试：

Future-House/BixBench（4/20）—— 最有分量的
bioagent-bench/bioagent-bench（4/9）—— 生信专用
claw-eval/claw-eval（4/8）
reacher-z/ClawBench（4/14）
evolvent-ai/clawmark（4/14）
weibowen555/ClawSafety（4/7）
mlbio-epfl/HeurekaBench（4/1）

"基准激增"模式之后通常会进入"收敛"阶段，最终一两个胜出。BixBench（Future House lab + arXiv 论文背书）和 BioAgent Bench（生信范围清晰）值得重点看。

新增 stable 层级

4 月引入了 status: "stable" 标记，专门给 paper-locked 项目——故意低活跃因为论文是交付物、代码不是。17 个项目目前打了这个 badge：

BixBench、ChemCrow、AI-Scientist (v1 + v2)、Virtual Lab、MDCrow、BioDiscoveryAgent、CRISPR-GPT、Agent Laboratory、AutoBA、AI-Researcher、Auto-Deep-Research、freephdlabor、BioMaster、GAIR-NLP/SR-Scientist、OmniScientist、BioAgent Bench。

这样停更检测器就不会误报，读者也能更清楚地理解："没新提交 ≠ 弃坑"——当论文锚定整个工作时。

第一块墓碑：PaperClaw（meowscles69）

4 月还有第一个进入墓园的项目。meowscles69 的 PaperClaw（去世时 141⭐，27 个 OpenClaw skills 覆盖文献综述、假设版本管理、grant 写作、实验室知识交接）于 4 月 13 日因 GitHub 账号被删除而消失。

它是 8 个同名 PaperClaw 里第二受欢迎的。账号删除把代码、issue、讨论一起带走了。如果你之前用它，还有 3 个同名兄弟项目可以替代：

guhaohao0991/PaperClaw（205⭐）—— 论文搜索-评审-批判
thinson/RS-PaperClaw（49⭐）—— 遥感方向
hurtjan/PaperClaw（3⭐）—— PDF 引用图数据库

这件事提醒我们：每周健康检查值得一直跑。比起单纯把条目删掉，留一份清晰的悼词更重要。

值得说的新增

OpenHarness（HKUDS, 4/2）—— 通用 agent runtime，2 周 +23%
NeuriCo（ChicagoHAI, 4/2）—— 芝大自主科研，paper 锚定
DeepScientist（4/3）—— 全自动科学推理
StatsClaw（4/4）—— 通过信息隔离实现多 agent 异议
TCM-Agent（4/6）—— 中医，小众但活跃
HealthClaw（4/8）—— HC-Guo，临床研究方向
Bioinfor-Claw（4/17）—— 收录后 13 天从 7 涨到 56 stars
Yuan1z0825/nature-skills（4/30 收录）—— Nature 标准制图 + 润色，6 天 265⭐

静默的部分

4 月新增速度在下半月放缓。autoresearch 集群冒出来之后，4/15 到 4/30 之间只有 4 条新增（Bioinfor-Claw、BixBench、两个 PaperClaw）。要么是短期饱和，要么是大家在憋 5 月的发布。

5 月看点

Hermes Agent 突破 15 万 stars —— 当前增速指向 5 月中
BixBench 引用情况 —— 会成为生信 agent 评测标准吗？
OpenHarness vs autoagent —— agent harness 品类收敛
qinheming/bioclaw —— 4 月从 0 涨到 103 stars，watching list 上
首篇"我亲自跑了 X"实测博客 —— 拖了很久了，高信任度内容

方法论

Stars 数据：GitHub stars 来自 /api/cron-refresh 接口，每日快照写入 docs/stars-history.csv
项目数：实时来自 src/config/locale/messages/en/pages/index.json（项目）和 skill-hubs.json（hub）；增长对比时分开统计，避免拿苹果跟橙子比
增长窗口：4 月 14 日 → 4 月 30 日（16 天）。早期数据不够稳定不能做整月对比；从 5 月开始会是真正的 30 天窗口
stable 状态：人工策展，针对有 Nature / arXiv / 期刊发表验证的 paper 锚定项目

上一期：生态报告：3 月很疯狂 —— 3 月项目数从 54 涨到 107。

更新于 2026-05-03。

生态报告：2026 年 4 月——基准与自主科研

目录