一个仓库引发了一场运动
2026 年 3 月 6 日,Andrej Karpathy 推了一个叫 autoresearch 的仓库。想法很简单:一个 AI agent 通宵跑实验。改代码、运行、评分、保留有效的、丢弃无效的。重复到天亮。
六周后,这个仓库有了 72,000+ stars。并且衍生出一整个变体家族——每个都把核心想法适配到不同平台、不同芯片、不同工作流。
我们追踪了其中 6 个。这是族谱。
族谱
karpathy/autoresearch (72K stars, 3月6日)
├── davebcn87/pi-autoresearch (3.6K, 3月11日) — 任意指标的通用版
├── trevin-creator/autoresearch-mlx (1.4K, 3月8日) — Apple Silicon 移植
├── uditgoenka/autoresearch (3.7K, 3月13日) — 多模式 Claude Code 插件
├── drivelineresearch/autoresearch-claude-code (258, 3月12日) — Claude Code skill 移植
└── leo-lilinxiao/codex-autoresearch (1.4K, 3月18日) — Codex 原生 + 智能恢复家族总计:82,000+ stars,6 个仓库。全部在 12 天内创建。
原版:karpathy/autoresearch
72,499 stars · Python · 最后更新:3 月 26 日
一切的起点。Karpathy 的原版实现很具体:在单 GPU 上自动运行 nanochat 训练的 AI 研究。Agent 修改训练代码、执行、测量 loss、保留改进。
精妙之处在于简洁。循环就是:
while True:
modify() # Agent 改点什么
run() # 执行实验
score() # 测量结果
if better:
keep() # 提交修改
else:
revert() # 扔掉就这些。没有多 agent 编排,没有知识图谱,没有 23 阶段流水线。就是一个通宵运行的紧凑循环。
适用场景: Linux GPU 机器上做 ML 训练实验。
pi-autoresearch:通用主义者
3,600 stars · TypeScript · 最后更新:4 月 13 日 · Claw4Science 详情
第一个重要分支把循环从 ML 训练中解放了出来。pi-autoresearch 适用于任何可度量的优化目标——不只是 loss 曲线。代码性能、测试覆盖率、延迟、内存使用——只要能度量,pi-autoresearch 就能优化。
与原版的区别: 适用于任何有指标的代码库,不限于 ML 训练。
适用场景: 非 ML 项目——Web 性能、编译器优化、算法调优。
autoresearch (uditgoenka):瑞士军刀
3,716 stars · Shell · 最后更新:4 月 6 日 · Claw4Science 详情
这个把 autoresearch 概念扩展成了多模式 Claude Code 插件。除了核心优化循环,还加了:
- Debug 模式 — 自主 bug 猎手
- Fix 模式 — 系统化查找和修复问题
- Security audit 模式 — 漏洞扫描
- Ship 模式 — 准备代码上线
- Predict 模式 — 预测修改的影响
与原版的区别: 不只是实验循环——是完整的自主开发工具包。
适用场景: Claude Code 用户,想要 autoresearch + 调试 + 安全 + 发布一体化。
autoresearch-mlx:Mac 原生
1,422 stars · Python · 最后更新:3 月 10 日 · Claw4Science 详情
Karpathy 原版需要 CUDA。Mac 用户?没门——除非你用这个。autoresearch-mlx 用 Apple 的 MLX 框架替换了 PyTorch,让通宵循环在 M 系列芯片上原生运行。
无 PyTorch,无 CUDA,无 Docker。pip install 就能跑。
在 Karpathy 原版发布仅 2 天后创建——有人真的很想在 MacBook Pro 上跑这个。
与原版的区别: MLX 替换 PyTorch。Apple Silicon 原生运行。
适用场景: Mac 用户,想要本地 ML 实验循环不用搭云端 GPU。
autoresearch-claude-code:Skill 移植版
258 stars · 最后更新:3 月 24 日
最直接的移植——把 pi-autoresearch 包装成 Claude Code skill。零配置。装上 skill,Claude Code 就获得了自主实验循环能力。
与原版的区别: 是 skill,不是独立工具。住在你的 agent 里面。
适用场景: 想用最简方式给 Claude Code 加 autoresearch。
codex-autoresearch:Codex 专属
1,365 stars · 最后更新:今天 · Claw4Science 详情
专为 OpenAI Codex agent 构建。核心增加:智能恢复。当循环卡住时——连续多轮分数不变,或同一个错误反复出现——它自动尝试不同策略,而不是在死胡同里死磕。
最活跃的变体(今天还在更新),可能因为 Codex 市场份额增长快。
与原版的区别: Codex 原生,带卡住检测和自动策略切换。
适用场景: Codex 用户,想要不陷入局部最优的 autoresearch。
对比表
| 变体 | Stars | 平台 | 范围 | 最近活跃 |
|---|---|---|---|---|
| karpathy/autoresearch | 72,499 | Python/CUDA | 仅 ML 训练 | 3 月 26 日 |
| pi-autoresearch | 3,600 | TypeScript/Pi | 任意指标 | 4 月 13 日 |
| autoresearch (uditgoenka) | 3,716 | Claude Code | 多模式工具包 | 4 月 6 日 |
| autoresearch-mlx | 1,422 | Python/MLX | Apple Silicon ML | 3 月 10 日 |
| autoresearch-claude-code | 258 | Claude Code | Skill 移植 | 3 月 24 日 |
| codex-autoresearch | 1,365 | Codex | ML + 智能恢复 | 今天 |
族谱告诉我们什么
1. 好想法被重写,不是被 fork。
这些都不是 GitHub fork。它们是独立的重新实现。每个作者看到原版,理解了模式,然后为自己的场景重建。这比 fork 是更强的信号——说明有价值的是想法,不只是代码。
2. 循环才是创新,不是实现。
Karpathy 的贡献不是代码(代码量不大)。是洞察:一个简单的修改-运行-评分-保留循环,通宵运行,能产出有意义的研究成果。每个变体都保留了这个核心循环,同时改变了周围的一切。
3. 平台碎片化是真实的。
六周内六个变体,各自面向不同平台(CUDA、MLX、Claude Code、Codex、Pi、通用)。AI 编码工具生态碎片化到"到处能跑"是一个功能,不是默认假设。
4. 通宵循环正在变成基础设施。
Karpathy 发布时,"AI 在你睡觉时跑实验"是新鲜事。六周和 82,000 stars 后,它正在变成人们期望 agent 具备的标准能力。各变体正在趋向共享接口:给一个指标,指向代码,早上回来看结果。
你该用哪个?
决策树:
- 在 NVIDIA GPU 上做 ML 训练? → karpathy/autoresearch(原版)
- 在 Mac Apple Silicon 上? → autoresearch-mlx
- 用 Claude Code? → uditgoenka/autoresearch(功能最多)或 autoresearch-claude-code(最简单)
- 用 Codex? → codex-autoresearch
- 优化非 ML 的东西? → pi-autoresearch
或者都试试。都是开源的,循环几分钟就能理解。
全部 6 个变体列在我们的项目目录中。完整的 142 个 AI 科研 Agent 生态:claw4science.org。
