Skip to content

MMG2Skill — 从互联网指南蒸馏为Agent自我进化技能

tags: #skill-distillation #self-evolving #VLM-agent #guide-to-skill #closed-loop source: MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills? (arXiv:2606.01993) score: 技术深度8/10 | 实用价值7/10 | 时效性8/10 | 领域匹配8/10 | 综合7.8/10

核心概念

MMG2Skill解决的核心问题:如何将互联网上面向人类的操作指南(多模态、异构、噪声大)转化为Agent可执行的技能,并通过执行轨迹反馈持续改进。提出Guide-to-Skill Learning范式,包含MMG2Skill-Bench(首个评测基准)和闭环框架(指南编译→技能执行→轨迹级根因反馈→技能修订)。在6个VLM backbone上,macro-average提升+12.8到+25.3个百分点。

设计原理

Human Guide → Agent Skill 的鸿沟

互联网上丰富的程序性知识(教程、操作指南、wiki页面)对Agent执行长周期任务有巨大潜力,但存在4个挑战: 1. 多模态:文本+图片+视频混合 2. 异构:格式不统一(博客、文档、论坛帖子) 3. 噪声:包含无关信息、过时步骤、错误指令 4. 面向人类执行者:隐含人类常识("点击那个按钮"——哪个按钮?)

直接把原始指南塞给Agent会降低性能(消融实验证实)。

闭环技能进化框架

互联网指南 → 结构化技能编译 → VLM Agent执行
→ 轨迹收集 → 根因分析(为什么失败?) → 技能修订 → 重新执行 → 循环

关键设计: - 不使用benchmark分数作为反馈:而是用轨迹级的根因分析,更贴近实际部署场景 - 早期停止机制:在成功可推断的任务上,25%-53%的执行尝试可通过analyzer-based early stopping节省

关键实现

MMG2Skill-Bench

  • 首个Guide-to-Skill评测基准
  • 覆盖三个领域:GUI控制、开放式游戏、策略卡牌

性能数据

  • 跨6个VLM backbone一致性提升
  • Macro-average增益:+12.8到+25.3个百分点
  • 直接用原始指南prompt会降低性能(需要结构化编译)
  • 两个环节缺一不可:结构化技能构建 + 轨迹驱动修订

根因分析机制

从执行轨迹中自动分析失败原因: - 哪个步骤失败了? - 是指南本身有误还是Agent理解偏差? - 需要修订技能的哪部分?

开源代码

GitHub: NJU-LINK/MMG2Skill(35页论文,12图13表)

关联分析

可执行建议

  1. Skill自动生成思路:在构建Agent技能体系时,可以从互联网文档/教程中自动蒸馏技能,而非全靠人工编写
  2. 闭环进化模式:技能不是一次性产物,需要从执行轨迹中持续修订——这个理念适用于所有Agent技能管理
  3. 根因分析 > 分数驱动:用轨迹级分析而非benchmark分数来改进技能,更贴近实际部署场景
  4. 结构化编译是必须的:直接用原始文本/指南给Agent会降低性能,需要先做结构化处理
  5. 移动端GUI Agent参考:MMG2Skill的GUI控制场景与移动端自动化测试直接相关

自评

维度 分数 权重 加权
摘要质量 8 0.25 2.00
技术深度 8 0.25 2.00
相关性 8 0.20 1.60
原创性 7 0.15 1.05
格式规范 9 0.15 1.35
加权总分 8.00

评分标准:摘要质量(+12.8~+25.3数据+闭环框架+消融结论)| 技术深度(4个挑战分析+根因机制+早期停止)| 相关性(Skill蒸馏+Agent自我进化+GUI Agent)| 原创性(移动端GUI Agent应用建议)| 格式规范(完整标签链接评分)