Autoresearch 族谱：1 个想法，6 个变体

一个仓库引发了一场运动

2026 年 3 月 6 日，Andrej Karpathy 推了一个叫 autoresearch 的仓库。想法很简单：一个 AI agent 通宵跑实验。改代码、运行、评分、保留有效的、丢弃无效的。重复到天亮。

六周后，这个仓库有了 72,000+ stars。并且衍生出一整个变体家族——每个都把核心想法适配到不同平台、不同芯片、不同工作流。

我们追踪了其中 6 个。这是族谱。

族谱

karpathy/autoresearch (72K stars, 3月6日)
├── davebcn87/pi-autoresearch (3.6K, 3月11日) — 任意指标的通用版
├── trevin-creator/autoresearch-mlx (1.4K, 3月8日) — Apple Silicon 移植
├── uditgoenka/autoresearch (3.7K, 3月13日) — 多模式 Claude Code 插件
├── drivelineresearch/autoresearch-claude-code (258, 3月12日) — Claude Code skill 移植
└── leo-lilinxiao/codex-autoresearch (1.4K, 3月18日) — Codex 原生 + 智能恢复

家族总计：82,000+ stars，6 个仓库。全部在 12 天内创建。

原版：karpathy/autoresearch

72,499 stars · Python · 最后更新：3 月 26 日

一切的起点。Karpathy 的原版实现很具体：在单 GPU 上自动运行 nanochat 训练的 AI 研究。Agent 修改训练代码、执行、测量 loss、保留改进。

精妙之处在于简洁。循环就是：

while True:
    modify()     # Agent 改点什么
    run()        # 执行实验
    score()      # 测量结果
    if better:
        keep()   # 提交修改
    else:
        revert() # 扔掉

就这些。没有多 agent 编排，没有知识图谱，没有 23 阶段流水线。就是一个通宵运行的紧凑循环。

适用场景： Linux GPU 机器上做 ML 训练实验。

pi-autoresearch：通用主义者

3,600 stars · TypeScript · 最后更新：4 月 13 日 · Claw4Science 详情

第一个重要分支把循环从 ML 训练中解放了出来。pi-autoresearch 适用于任何可度量的优化目标——不只是 loss 曲线。代码性能、测试覆盖率、延迟、内存使用——只要能度量，pi-autoresearch 就能优化。

与原版的区别： 适用于任何有指标的代码库，不限于 ML 训练。

适用场景： 非 ML 项目——Web 性能、编译器优化、算法调优。

autoresearch (uditgoenka)：瑞士军刀

3,716 stars · Shell · 最后更新：4 月 6 日 · Claw4Science 详情

这个把 autoresearch 概念扩展成了多模式 Claude Code 插件。除了核心优化循环，还加了：

Debug 模式 — 自主 bug 猎手
Fix 模式 — 系统化查找和修复问题
Security audit 模式 — 漏洞扫描
Ship 模式 — 准备代码上线
Predict 模式 — 预测修改的影响

与原版的区别： 不只是实验循环——是完整的自主开发工具包。

适用场景： Claude Code 用户，想要 autoresearch + 调试 + 安全 + 发布一体化。

autoresearch-mlx：Mac 原生

1,422 stars · Python · 最后更新：3 月 10 日 · Claw4Science 详情

Karpathy 原版需要 CUDA。Mac 用户？没门——除非你用这个。autoresearch-mlx 用 Apple 的 MLX 框架替换了 PyTorch，让通宵循环在 M 系列芯片上原生运行。

无 PyTorch，无 CUDA，无 Docker。pip install 就能跑。

在 Karpathy 原版发布仅 2 天后创建——有人真的很想在 MacBook Pro 上跑这个。

与原版的区别： MLX 替换 PyTorch。Apple Silicon 原生运行。

适用场景： Mac 用户，想要本地 ML 实验循环不用搭云端 GPU。

autoresearch-claude-code：Skill 移植版

258 stars · 最后更新：3 月 24 日

最直接的移植——把 pi-autoresearch 包装成 Claude Code skill。零配置。装上 skill，Claude Code 就获得了自主实验循环能力。

与原版的区别： 是 skill，不是独立工具。住在你的 agent 里面。

适用场景： 想用最简方式给 Claude Code 加 autoresearch。

codex-autoresearch：Codex 专属

1,365 stars · 最后更新：今天 · Claw4Science 详情

专为 OpenAI Codex agent 构建。核心增加：智能恢复。当循环卡住时——连续多轮分数不变，或同一个错误反复出现——它自动尝试不同策略，而不是在死胡同里死磕。

最活跃的变体（今天还在更新），可能因为 Codex 市场份额增长快。

与原版的区别： Codex 原生，带卡住检测和自动策略切换。

适用场景： Codex 用户，想要不陷入局部最优的 autoresearch。

对比表

变体	Stars	平台	范围	最近活跃
karpathy/autoresearch	72,499	Python/CUDA	仅 ML 训练	3 月 26 日
pi-autoresearch	3,600	TypeScript/Pi	任意指标	4 月 13 日
autoresearch (uditgoenka)	3,716	Claude Code	多模式工具包	4 月 6 日
autoresearch-mlx	1,422	Python/MLX	Apple Silicon ML	3 月 10 日
autoresearch-claude-code	258	Claude Code	Skill 移植	3 月 24 日
codex-autoresearch	1,365	Codex	ML + 智能恢复	今天

族谱告诉我们什么

1. 好想法被重写，不是被 fork。

这些都不是 GitHub fork。它们是独立的重新实现。每个作者看到原版，理解了模式，然后为自己的场景重建。这比 fork 是更强的信号——说明有价值的是想法，不只是代码。

2. 循环才是创新，不是实现。

Karpathy 的贡献不是代码（代码量不大）。是洞察：一个简单的修改-运行-评分-保留循环，通宵运行，能产出有意义的研究成果。每个变体都保留了这个核心循环，同时改变了周围的一切。

3. 平台碎片化是真实的。

六周内六个变体，各自面向不同平台（CUDA、MLX、Claude Code、Codex、Pi、通用）。AI 编码工具生态碎片化到"到处能跑"是一个功能，不是默认假设。

4. 通宵循环正在变成基础设施。

Karpathy 发布时，"AI 在你睡觉时跑实验"是新鲜事。六周和 82,000 stars 后，它正在变成人们期望 agent 具备的标准能力。各变体正在趋向共享接口：给一个指标，指向代码，早上回来看结果。

你该用哪个？

决策树：

在 NVIDIA GPU 上做 ML 训练？ → karpathy/autoresearch（原版）
在 Mac Apple Silicon 上？ → autoresearch-mlx
用 Claude Code？ → uditgoenka/autoresearch（功能最多）或 autoresearch-claude-code（最简单）
用 Codex？ → codex-autoresearch
优化非 ML 的东西？ → pi-autoresearch

或者都试试。都是开源的，循环几分钟就能理解。

全部 6 个变体列在我们的项目目录中。完整的 142 个 AI 科研 Agent 生态：claw4science.org。