Self-Evolving Agent：自进化智能体范式¶

tags: #SelfEvolution #AgentArchitecture #PromptOptimization #SkillLearning #RL source: MLEvolve | EvoDS | SePO score: 技术深度8/10 | 实用价值7/10 | 时效性9/10 | 领域匹配9/10 | 综合 8.3/10

核心概念¶

Self-Evolving Agent是指Agent不再依赖人工预设的固定行为集，而是通过自引用优化循环（self-referential optimization loop）自主扩展能力边界。2026年6月的三篇论文（MLEvolve、EvoDS、SePO）从不同维度展示了这一范式：MLEvolve用于ML算法自动发现，EvoDS聚焦Data Science场景的技能学习，SePO则优化Agent自身的system prompt。

设计原理¶

三篇论文共享一个核心设计——将Agent自身作为优化目标，而非仅优化外部任务：

MLEvolve：LLM Agent通过进化搜索（evolutionary search）自动发现新ML算法。关键在于将算法空间作为搜索对象，Agent同时扮演搜索者和评估者。
EvoDS：针对Data Science管道的静态action set瓶颈，引入agentic reinforcement learning让Agent学习扩展技能库。核心trade-off是技能泛化性 vs 特定任务效率——EvoDS选择通过上下文管理（context management）平衡两者。
SePO：将prompt agent自身的system prompt也纳入优化目标，实现自引用（self-referential）设计。两阶段训练：pre-training进化prompt agent，fine-tuning联合优化task agent和prompt agent。

这三个方向共同指向Agent架构的范式转变：从"人类设计→Agent执行"到"Agent设计→Agent执行→Agent自我改进"。

关键实现¶

MLEvolve — ML算法发现¶

采用进化搜索策略，维护候选算法池
LLM作为变异算子（mutation operator），生成算法变体
评估反馈驱动选择压力

EvoDS — Data Science自进化¶

技能学习：Agent从任务执行中提取可复用技能，存入技能库
上下文管理：长期记忆机制，跨任务保持关键上下文
Agentic RL：用强化学习训练技能获取和上下文管理策略

SePO — System Prompt优化¶

自引用设计：单一prompt agent同时优化自身和task agent的system prompt
开放式进化搜索（open-ended evolutionary search），维护候选prompt档案作为进化跳板
两阶段训练：pre-training → fine-tuning

关联分析¶

SEAL-Agent-Co-Evolution：Agent与学习环境的协同进化，互补视角
Skill-Auto-Creation：技能自动创建机制
Agent-MetaSKILLs：Agent元技能设计
Context-Engineering：上下文工程是自进化的基础设施
EfficientAgent：高效Agent设计与自进化的效率权衡

可执行建议¶

关注EvoDS的技能学习机制：其agentic RL方法可直接借鉴到移动端AI Agent场景——让端侧Agent学习用户使用习惯并自动扩展技能
SePO的自引用设计值得实践：在自己的Agent系统中，将system prompt优化自动化，减少手工调参
监控自进化Agent的安全边界：自引用优化可能导致prompt漂移，需要设置约束和检查点
结合Context-Engineering：自进化依赖高质量上下文管理，两者结合是当前Agent架构的前沿方向

自评¶

维度	分数	权重	加权
摘要质量	8	0.25	2.00
技术深度	8	0.25	2.00
相关性	9	0.20	1.80
原创性	7	0.15	1.05
格式规范	8	0.15	1.20
加权总分			8.05

评分说明：摘要包含三篇论文的具体设计差异；技术深度分析了trade-off；相关性极高（Agent自进化是核心研究方向）；原创性体现在跨论文的趋势归纳；格式规范完整。