MMG2Skill — 从互联网指南蒸馏为Agent自我进化技能¶
tags: #skill-distillation #self-evolving #VLM-agent #guide-to-skill #closed-loop source: MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills? (arXiv:2606.01993) score: 技术深度8/10 | 实用价值7/10 | 时效性8/10 | 领域匹配8/10 | 综合7.8/10
核心概念¶
MMG2Skill解决的核心问题:如何将互联网上面向人类的操作指南(多模态、异构、噪声大)转化为Agent可执行的技能,并通过执行轨迹反馈持续改进。提出Guide-to-Skill Learning范式,包含MMG2Skill-Bench(首个评测基准)和闭环框架(指南编译→技能执行→轨迹级根因反馈→技能修订)。在6个VLM backbone上,macro-average提升+12.8到+25.3个百分点。
设计原理¶
Human Guide → Agent Skill 的鸿沟¶
互联网上丰富的程序性知识(教程、操作指南、wiki页面)对Agent执行长周期任务有巨大潜力,但存在4个挑战: 1. 多模态:文本+图片+视频混合 2. 异构:格式不统一(博客、文档、论坛帖子) 3. 噪声:包含无关信息、过时步骤、错误指令 4. 面向人类执行者:隐含人类常识("点击那个按钮"——哪个按钮?)
直接把原始指南塞给Agent会降低性能(消融实验证实)。
闭环技能进化框架¶
互联网指南 → 结构化技能编译 → VLM Agent执行
→ 轨迹收集 → 根因分析(为什么失败?) → 技能修订 → 重新执行 → 循环
关键设计: - 不使用benchmark分数作为反馈:而是用轨迹级的根因分析,更贴近实际部署场景 - 早期停止机制:在成功可推断的任务上,25%-53%的执行尝试可通过analyzer-based early stopping节省
关键实现¶
MMG2Skill-Bench¶
- 首个Guide-to-Skill评测基准
- 覆盖三个领域:GUI控制、开放式游戏、策略卡牌
性能数据¶
- 跨6个VLM backbone一致性提升
- Macro-average增益:+12.8到+25.3个百分点
- 直接用原始指南prompt会降低性能(需要结构化编译)
- 两个环节缺一不可:结构化技能构建 + 轨迹驱动修订
根因分析机制¶
从执行轨迹中自动分析失败原因: - 哪个步骤失败了? - 是指南本身有误还是Agent理解偏差? - 需要修订技能的哪部分?
开源代码¶
GitHub: NJU-LINK/MMG2Skill(35页论文,12图13表)
关联分析¶
- 与 Agent-Skills-Architecture 直接相关——MMG2Skill提供技能的自动创建方法
- 与 Skill-Auto-Creation 高度相关——从指南自动生成技能是Skill自动创建的具体实现
- 与 Agent-MetaSKILLs 相关——MetaSKILLs关注技能评估,MMG2Skill关注技能生成
- 与 SkillOpt-Agent-Skills 相关——SkillOpt优化技能使用,MMG2Skill优化技能生成
- 与 SEAL-Agent-Co-Evolution 相关——都涉及Agent能力的自我进化
可执行建议¶
- Skill自动生成思路:在构建Agent技能体系时,可以从互联网文档/教程中自动蒸馏技能,而非全靠人工编写
- 闭环进化模式:技能不是一次性产物,需要从执行轨迹中持续修订——这个理念适用于所有Agent技能管理
- 根因分析 > 分数驱动:用轨迹级分析而非benchmark分数来改进技能,更贴近实际部署场景
- 结构化编译是必须的:直接用原始文本/指南给Agent会降低性能,需要先做结构化处理
- 移动端GUI Agent参考:MMG2Skill的GUI控制场景与移动端自动化测试直接相关
自评¶
| 维度 | 分数 | 权重 | 加权 |
|---|---|---|---|
| 摘要质量 | 8 | 0.25 | 2.00 |
| 技术深度 | 8 | 0.25 | 2.00 |
| 相关性 | 8 | 0.20 | 1.60 |
| 原创性 | 7 | 0.15 | 1.05 |
| 格式规范 | 9 | 0.15 | 1.35 |
| 加权总分 | 8.00 |
评分标准:摘要质量(+12.8~+25.3数据+闭环框架+消融结论)| 技术深度(4个挑战分析+根因机制+早期停止)| 相关性(Skill蒸馏+Agent自我进化+GUI Agent)| 原创性(移动端GUI Agent应用建议)| 格式规范(完整标签链接评分)