Autoresearch 族谱:1 个想法,6 个变体

2026/04/15

一个仓库引发了一场运动

2026 年 3 月 6 日,Andrej Karpathy 推了一个叫 autoresearch 的仓库。想法很简单:一个 AI agent 通宵跑实验。改代码、运行、评分、保留有效的、丢弃无效的。重复到天亮。

六周后,这个仓库有了 72,000+ stars。并且衍生出一整个变体家族——每个都把核心想法适配到不同平台、不同芯片、不同工作流。

我们追踪了其中 6 个。这是族谱。


族谱

karpathy/autoresearch (72K stars, 3月6日)
├── davebcn87/pi-autoresearch (3.6K, 3月11日) — 任意指标的通用版
├── trevin-creator/autoresearch-mlx (1.4K, 3月8日) — Apple Silicon 移植
├── uditgoenka/autoresearch (3.7K, 3月13日) — 多模式 Claude Code 插件
├── drivelineresearch/autoresearch-claude-code (258, 3月12日) — Claude Code skill 移植
└── leo-lilinxiao/codex-autoresearch (1.4K, 3月18日) — Codex 原生 + 智能恢复

家族总计:82,000+ stars,6 个仓库。全部在 12 天内创建。


原版:karpathy/autoresearch

72,499 stars · Python · 最后更新:3 月 26 日

一切的起点。Karpathy 的原版实现很具体:在单 GPU 上自动运行 nanochat 训练的 AI 研究。Agent 修改训练代码、执行、测量 loss、保留改进。

精妙之处在于简洁。循环就是:

while True:
    modify()     # Agent 改点什么
    run()        # 执行实验
    score()      # 测量结果
    if better:
        keep()   # 提交修改
    else:
        revert() # 扔掉

就这些。没有多 agent 编排,没有知识图谱,没有 23 阶段流水线。就是一个通宵运行的紧凑循环。

适用场景: Linux GPU 机器上做 ML 训练实验。


pi-autoresearch:通用主义者

3,600 stars · TypeScript · 最后更新:4 月 13 日 · Claw4Science 详情

第一个重要分支把循环从 ML 训练中解放了出来。pi-autoresearch 适用于任何可度量的优化目标——不只是 loss 曲线。代码性能、测试覆盖率、延迟、内存使用——只要能度量,pi-autoresearch 就能优化。

与原版的区别: 适用于任何有指标的代码库,不限于 ML 训练。

适用场景: 非 ML 项目——Web 性能、编译器优化、算法调优。


autoresearch (uditgoenka):瑞士军刀

3,716 stars · Shell · 最后更新:4 月 6 日 · Claw4Science 详情

这个把 autoresearch 概念扩展成了多模式 Claude Code 插件。除了核心优化循环,还加了:

  • Debug 模式 — 自主 bug 猎手
  • Fix 模式 — 系统化查找和修复问题
  • Security audit 模式 — 漏洞扫描
  • Ship 模式 — 准备代码上线
  • Predict 模式 — 预测修改的影响

与原版的区别: 不只是实验循环——是完整的自主开发工具包。

适用场景: Claude Code 用户,想要 autoresearch + 调试 + 安全 + 发布一体化。


autoresearch-mlx:Mac 原生

1,422 stars · Python · 最后更新:3 月 10 日 · Claw4Science 详情

Karpathy 原版需要 CUDA。Mac 用户?没门——除非你用这个。autoresearch-mlx 用 Apple 的 MLX 框架替换了 PyTorch,让通宵循环在 M 系列芯片上原生运行。

无 PyTorch,无 CUDA,无 Docker。pip install 就能跑。

在 Karpathy 原版发布仅 2 天后创建——有人真的很想在 MacBook Pro 上跑这个。

与原版的区别: MLX 替换 PyTorch。Apple Silicon 原生运行。

适用场景: Mac 用户,想要本地 ML 实验循环不用搭云端 GPU。


autoresearch-claude-code:Skill 移植版

258 stars · 最后更新:3 月 24 日

最直接的移植——把 pi-autoresearch 包装成 Claude Code skill。零配置。装上 skill,Claude Code 就获得了自主实验循环能力。

与原版的区别: 是 skill,不是独立工具。住在你的 agent 里面。

适用场景: 想用最简方式给 Claude Code 加 autoresearch。


codex-autoresearch:Codex 专属

1,365 stars · 最后更新:今天 · Claw4Science 详情

专为 OpenAI Codex agent 构建。核心增加:智能恢复。当循环卡住时——连续多轮分数不变,或同一个错误反复出现——它自动尝试不同策略,而不是在死胡同里死磕。

最活跃的变体(今天还在更新),可能因为 Codex 市场份额增长快。

与原版的区别: Codex 原生,带卡住检测和自动策略切换。

适用场景: Codex 用户,想要不陷入局部最优的 autoresearch。


对比表

变体Stars平台范围最近活跃
karpathy/autoresearch72,499Python/CUDA仅 ML 训练3 月 26 日
pi-autoresearch3,600TypeScript/Pi任意指标4 月 13 日
autoresearch (uditgoenka)3,716Claude Code多模式工具包4 月 6 日
autoresearch-mlx1,422Python/MLXApple Silicon ML3 月 10 日
autoresearch-claude-code258Claude CodeSkill 移植3 月 24 日
codex-autoresearch1,365CodexML + 智能恢复今天

族谱告诉我们什么

1. 好想法被重写,不是被 fork。

这些都不是 GitHub fork。它们是独立的重新实现。每个作者看到原版,理解了模式,然后为自己的场景重建。这比 fork 是更强的信号——说明有价值的是想法,不只是代码。

2. 循环才是创新,不是实现。

Karpathy 的贡献不是代码(代码量不大)。是洞察:一个简单的修改-运行-评分-保留循环,通宵运行,能产出有意义的研究成果。每个变体都保留了这个核心循环,同时改变了周围的一切。

3. 平台碎片化是真实的。

六周内六个变体,各自面向不同平台(CUDA、MLX、Claude Code、Codex、Pi、通用)。AI 编码工具生态碎片化到"到处能跑"是一个功能,不是默认假设。

4. 通宵循环正在变成基础设施。

Karpathy 发布时,"AI 在你睡觉时跑实验"是新鲜事。六周和 82,000 stars 后,它正在变成人们期望 agent 具备的标准能力。各变体正在趋向共享接口:给一个指标,指向代码,早上回来看结果。


你该用哪个?

决策树:

  1. 在 NVIDIA GPU 上做 ML 训练? → karpathy/autoresearch(原版)
  2. 在 Mac Apple Silicon 上? → autoresearch-mlx
  3. 用 Claude Code? → uditgoenka/autoresearch(功能最多)或 autoresearch-claude-code(最简单)
  4. 用 Codex? → codex-autoresearch
  5. 优化非 ML 的东西? → pi-autoresearch

或者都试试。都是开源的,循环几分钟就能理解。


全部 6 个变体列在我们的项目目录中。完整的 142 个 AI 科研 Agent 生态:claw4science.org

Autoresearch 族谱:1 个想法,6 个变体 | 博客