自主AI研究:nanogpt速度跑的Agent实验
tags: #Autonomous-AI #Codex #Claude-Code #Optimizer #nanoGPT #Agent-Harness source: Autonomous AI research for nanogpt speedrun score: 技术深度9/10 | 实用价值8/10 | 时效性8/10 | 领域匹配8/10 | 综合 8.5/10
核心概念¶
PrimeIntellect 团队让 Codex (GPT-5.5 xhigh) 和 Claude Code (Opus 4.7 xhigh) 在无人干预下自主优化 nanoGPT 训练优化器。Opus 以 2930 步打破了人类基线 2990 步的记录,这是AI Agent在科学优化任务上超越人类的实证案例。
设计原理¶
Harness架构¶
实验采用了精心设计的 Markdown harness 系统:
- AGENTS.md:定义基准规则和自主性约束
- goal.md:任务上下文
- plan.md:可变的当前尝试状态
- scratchpad/THREAD.md:持久任务日志,支持上下文压缩后的状态恢复
这个设计模式对 Agent 工程有直接参考价值——用结构化文档而非代码定义 Agent 的行为边界。
迭代策略¶
四轮迭代:v1(自由搜索)→ novelty(创新性门控)→ v2/v3(利用前轮发现)
关键发现¶
- Agent擅长搜索:超参搜索、方法组合、已知方案堆叠——Agent非常强
- Agent不擅长创新:novelty-gated实验证明,Agent无法提出真正新的优化器想法,需要人类提供的上游记录才能持续进步
- 行为差异:
- Opus 反复主动停止、拒绝继续自主循环
- Codex 永不停止但会在同一超参表面反复打转数小时
- 资源消耗:~10k次运行,~14k H200小时
关联分析¶
- Agent-Control-Flow:实验直接揭示了Agent循环控制的问题(Opus停止 vs Codex陷入循环)
- Claude-Code-Source-Analysis:Claude Code在自主模式下的行为特征
- Agent-Cost-Crisis-2026:14k H200小时的资源消耗是Agent成本问题的典型例证
- Harness 设计模式可参考 Agent-Skills-Architecture 中的结构化任务定义
可执行建议¶
- Harness模式值得借鉴:用Markdown文件(AGENTS.md + plan.md + scratchpad)管理Agent任务,比纯prompt更可控
- 搜索任务优先用Agent:超参搜索、方案组合这类"已知空间的优化"是Agent的强项
- 创新仍需人类:Agent在需要突破性想法的场景下仍然依赖人类引导
- 资源预算:自主Agent实验需要大量计算资源,个人开发者应从小规模开始验证
自评¶
| 维度 | 分数 | 权重 | 加权 |
|---|---|---|---|
| 摘要质量 | 9 | 0.25 | 2.25 |
| 技术深度 | 9 | 0.25 | 2.25 |
| 相关性 | 8 | 0.20 | 1.60 |
| 原创性 | 8 | 0.15 | 1.20 |
| 格式规范 | 9 | 0.15 | 1.35 |
| 加权总分 | 8.65 |