MMG2Skill — 从互联网指南蒸馏为Agent自我进化技能¶

tags: #skill-distillation #self-evolving #VLM-agent #guide-to-skill #closed-loop source: MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills? (arXiv:2606.01993) score: 技术深度8/10 | 实用价值7/10 | 时效性8/10 | 领域匹配8/10 | 综合7.8/10

核心概念¶

MMG2Skill解决的核心问题：如何将互联网上面向人类的操作指南（多模态、异构、噪声大）转化为Agent可执行的技能，并通过执行轨迹反馈持续改进。提出Guide-to-Skill Learning范式，包含MMG2Skill-Bench（首个评测基准）和闭环框架（指南编译→技能执行→轨迹级根因反馈→技能修订）。在6个VLM backbone上，macro-average提升+12.8到+25.3个百分点。

设计原理¶

Human Guide → Agent Skill 的鸿沟¶

互联网上丰富的程序性知识（教程、操作指南、wiki页面）对Agent执行长周期任务有巨大潜力，但存在4个挑战： 1. 多模态：文本+图片+视频混合 2. 异构：格式不统一（博客、文档、论坛帖子） 3. 噪声：包含无关信息、过时步骤、错误指令 4. 面向人类执行者：隐含人类常识（"点击那个按钮"——哪个按钮？）

直接把原始指南塞给Agent会降低性能（消融实验证实）。

闭环技能进化框架¶

互联网指南 → 结构化技能编译 → VLM Agent执行
→ 轨迹收集 → 根因分析(为什么失败?) → 技能修订 → 重新执行 → 循环

关键设计： - 不使用benchmark分数作为反馈：而是用轨迹级的根因分析，更贴近实际部署场景 - 早期停止机制：在成功可推断的任务上，25%-53%的执行尝试可通过analyzer-based early stopping节省

关键实现¶

MMG2Skill-Bench¶

首个Guide-to-Skill评测基准
覆盖三个领域：GUI控制、开放式游戏、策略卡牌

性能数据¶

跨6个VLM backbone一致性提升
Macro-average增益：+12.8到+25.3个百分点
直接用原始指南prompt会降低性能（需要结构化编译）
两个环节缺一不可：结构化技能构建 + 轨迹驱动修订

根因分析机制¶

从执行轨迹中自动分析失败原因： - 哪个步骤失败了？ - 是指南本身有误还是Agent理解偏差？ - 需要修订技能的哪部分？

开源代码¶

GitHub: NJU-LINK/MMG2Skill（35页论文，12图13表）

关联分析¶

与 Agent-Skills-Architecture 直接相关——MMG2Skill提供技能的自动创建方法
与 Skill-Auto-Creation 高度相关——从指南自动生成技能是Skill自动创建的具体实现
与 Agent-MetaSKILLs 相关——MetaSKILLs关注技能评估，MMG2Skill关注技能生成
与 SkillOpt-Agent-Skills 相关——SkillOpt优化技能使用，MMG2Skill优化技能生成
与 SEAL-Agent-Co-Evolution 相关——都涉及Agent能力的自我进化

可执行建议¶

Skill自动生成思路：在构建Agent技能体系时，可以从互联网文档/教程中自动蒸馏技能，而非全靠人工编写
闭环进化模式：技能不是一次性产物，需要从执行轨迹中持续修订——这个理念适用于所有Agent技能管理
根因分析 > 分数驱动：用轨迹级分析而非benchmark分数来改进技能，更贴近实际部署场景
结构化编译是必须的：直接用原始文本/指南给Agent会降低性能，需要先做结构化处理
移动端GUI Agent参考：MMG2Skill的GUI控制场景与移动端自动化测试直接相关

自评¶

维度	分数	权重	加权
摘要质量	8	0.25	2.00
技术深度	8	0.25	2.00
相关性	8	0.20	1.60
原创性	7	0.15	1.05
格式规范	9	0.15	1.35
加权总分			8.00

评分标准：摘要质量（+12.8~+25.3数据+闭环框架+消融结论）| 技术深度（4个挑战分析+根因机制+早期停止）| 相关性（Skill蒸馏+Agent自我进化+GUI Agent）| 原创性（移动端GUI Agent应用建议）| 格式规范（完整标签链接评分）