生态报告:2026 年 4 月——基准与自主科研

2026/05/03

核心要点

  • 新增 37 个项目(3 月是 +25)——单月增速纪录
  • Hermes Agent 爆发:+44,092 stars(+54%),4 月项目类增幅断层第一
  • autoresearch 集群:4 月中下旬一批自主科研项目集中出现,说明这个方向正在被重点关注
  • 基准潮:7 个新评测套件(Claw-Eval、ClawBench、ClawMark、BioAgent Bench、BixBench、ResearchClawBench、HeurekaBench)
  • 17 个项目正式标记 stable(paper-locked,刻意低活跃)
  • 第一个项目进入墓园:PaperClaw(meowscles69,141⭐)因 GitHub 账号删除消失
  • 追踪总数:144 个项目 + 33 个 skill hubs = 177 条(3 月底是 119)

数字

指标3 月底4 月底Δ
追踪项目107144+37
Skill hubs3033+3
标记 stable 的项目017+17
墓园项目01+1
总 stars(116 个连续追踪 repo)593,703(4/14)678,931+85,228(+14.4%)
新基准条目17+6

116 个 repo 是我们有连续每日快照的子集——完整覆盖从 4 月中旬开始稳定。

头部增长 — 项目(4/14 → 4/30)

按绝对增量:

项目4/144/30增量%
NousResearch/hermes-agent81,927126,019+44,092+54%
HKUDS/OpenHarness9,47511,630+2,155+23%
HKUDS/nanobot39,46241,362+1,900+5%
THU-MAIC/OpenMAIC15,51316,613+1,100+7%
NVIDIA/NemoClaw19,18519,975+790+4%
HKUDS/OpenSpace5,1695,939+770+15%
aiming-lab/AutoResearchClaw11,12811,822+694+6%

按百分比(起始 ≥ 20 stars,过滤噪音):

项目4/144/30%
MathClaw-ruc/MathClaw203447+120%
NousResearch/hermes-agent81,927126,019+54%
InternScience/ResearchClawBench78107+37%
BOBQWERA/BioMedAgent7292+28%
claw-eval/claw-eval414510+23%

Hermes 是头条。+44K 是真实增长,对应他们 4 月的发布节奏,以及"agent harness"这个品类逐渐被 Claude / OpenClaw 社区理解。在项目这一档,没有别的能接近这个绝对增量;OpenHarness 是个远距离的第二。

参考:skill hub 那边最大增量是 anthropics/skills +9,375——也很可观,但属于另一个品类,不和项目仓库直接比较。

autoresearch 集群

4 月下半月,一批自主科研项目密集出现在我们的雷达上:

  • SakanaAI/AI-Scientist —— 元祖(v1)
  • davebcn87/pi-autoresearch
  • uditgoenka/autoresearch
  • InternScience/InternAgent
  • trevin-creator/autoresearch-mlx(Apple Silicon)
  • jimmc414/Kosmos

这些是我们同一天收录的,不代表它们同一天上线。真正有意义的信号是密度——一次策展过滤里冒出 6 个独立的 autoresearch 项目,说明这个方向当下正在吸引开发者火力。加上之前的 AutoResearchClaw、EvoScientist、NeuriCo、DeepScientist,"自主科研"现在是 10+ 项目的品类。

基准潮

7 个新评测套件 4 月落地,说明科学 agent 评测已经成熟到有人专门做基准而不是写一次性测试:

  • Future-House/BixBench(4/20)—— 最有分量的
  • bioagent-bench/bioagent-bench(4/9)—— 生信专用
  • claw-eval/claw-eval(4/8)
  • reacher-z/ClawBench(4/14)
  • evolvent-ai/clawmark(4/14)
  • weibowen555/ClawSafety(4/7)
  • mlbio-epfl/HeurekaBench(4/1)

"基准激增"模式之后通常会进入"收敛"阶段,最终一两个胜出。BixBench(Future House lab + arXiv 论文背书)和 BioAgent Bench(生信范围清晰)值得重点看。

新增 stable 层级

4 月引入了 status: "stable" 标记,专门给 paper-locked 项目——故意低活跃因为论文是交付物、代码不是。17 个项目目前打了这个 badge:

BixBench、ChemCrow、AI-Scientist (v1 + v2)、Virtual Lab、MDCrow、BioDiscoveryAgent、CRISPR-GPT、Agent Laboratory、AutoBA、AI-Researcher、Auto-Deep-Research、freephdlabor、BioMaster、GAIR-NLP/SR-Scientist、OmniScientist、BioAgent Bench。

这样停更检测器就不会误报,读者也能更清楚地理解:"没新提交 ≠ 弃坑"——当论文锚定整个工作时。

第一块墓碑:PaperClaw(meowscles69)

4 月还有第一个进入 墓园 的项目。meowscles69 的 PaperClaw(去世时 141⭐,27 个 OpenClaw skills 覆盖文献综述、假设版本管理、grant 写作、实验室知识交接)于 4 月 13 日因 GitHub 账号被删除而消失。

它是 8 个同名 PaperClaw 里第二受欢迎的。账号删除把代码、issue、讨论一起带走了。如果你之前用它,还有 3 个同名兄弟项目可以替代:

  • guhaohao0991/PaperClaw(205⭐)—— 论文搜索-评审-批判
  • thinson/RS-PaperClaw(49⭐)—— 遥感方向
  • hurtjan/PaperClaw(3⭐)—— PDF 引用图数据库

这件事提醒我们:每周健康检查值得一直跑。比起单纯把条目删掉,留一份清晰的悼词更重要。

值得说的新增

  • OpenHarness(HKUDS, 4/2)—— 通用 agent runtime,2 周 +23%
  • NeuriCo(ChicagoHAI, 4/2)—— 芝大自主科研,paper 锚定
  • DeepScientist(4/3)—— 全自动科学推理
  • StatsClaw(4/4)—— 通过信息隔离实现多 agent 异议
  • TCM-Agent(4/6)—— 中医,小众但活跃
  • HealthClaw(4/8)—— HC-Guo,临床研究方向
  • Bioinfor-Claw(4/17)—— 收录后 13 天从 7 涨到 56 stars
  • Yuan1z0825/nature-skills(4/30 收录)—— Nature 标准制图 + 润色,6 天 265⭐

静默的部分

4 月新增速度在下半月放缓。autoresearch 集群冒出来之后,4/15 到 4/30 之间只有 4 条新增(Bioinfor-Claw、BixBench、两个 PaperClaw)。要么是短期饱和,要么是大家在憋 5 月的发布。

5 月看点

  1. Hermes Agent 突破 15 万 stars —— 当前增速指向 5 月中
  2. BixBench 引用情况 —— 会成为生信 agent 评测标准吗?
  3. OpenHarness vs autoagent —— agent harness 品类收敛
  4. qinheming/bioclaw —— 4 月从 0 涨到 103 stars,watching list 上
  5. 首篇"我亲自跑了 X"实测博客 —— 拖了很久了,高信任度内容

方法论

  • Stars 数据:GitHub stars 来自 /api/cron-refresh 接口,每日快照写入 docs/stars-history.csv
  • 项目数:实时来自 src/config/locale/messages/en/pages/index.json(项目)和 skill-hubs.json(hub);增长对比时分开统计,避免拿苹果跟橙子比
  • 增长窗口:4 月 14 日 → 4 月 30 日(16 天)。早期数据不够稳定不能做整月对比;从 5 月开始会是真正的 30 天窗口
  • stable 状态:人工策展,针对有 Nature / arXiv / 期刊发表验证的 paper 锚定项目

上一期:生态报告:3 月很疯狂 —— 3 月项目数从 54 涨到 107。

更新于 2026-05-03。

生态报告:2026 年 4 月——基准与自主科研 | 博客