LLM文档编辑腐蚀问题¶

tags: #LLM #Agent-Reliability #Document-Editing #Safety source: LLMs corrupt your documents when you delegate score: 技术深度8/10 | 实用价值9/10 | 时效性9/10 | 领域匹配9/10 | 综合 8.5/10

核心概念¶

论文"LLMs corrupt your documents when you delegate"（arXiv:2604.15597）揭示了一个被广泛忽视的Agent可靠性问题：当LLM被委托执行文档编辑任务时，它不仅会修改目标内容，还会系统性"腐蚀"（corrupt）原文中不相关的部分。这不是随机错误，而是一种源于模型注意力机制的系统性偏差。

设计原理¶

为什么会产生腐蚀？ LLM的注意力机制在处理编辑指令时，无法精确区分"需要修改的部分"和"应保持不变的部分"。模型倾向于"过度理解"上下文，对看似相关但实际不应修改的段落也施加了改变。

Trade-off分析： - 全文重写 vs 精确编辑：全文重写保证了风格一致性，但引入了腐蚀风险；精确编辑（如基于diff的patch）减少了腐蚀，但可能破坏上下文连贯性 - 当前的主流Agent框架（如OpenAI Assistants、Claude Tool Use）大多采用全文替换策略，直接暴露了这一风险

与Agent-Control-Flow的关联： 这一问题本质上是Agent控制流设计中的"副作用隔离"问题——Agent的操作应该只影响意图范围内的事物。

关键实现¶

实验方法：论文设计了多维度测试——让LLM对文档执行特定编辑（修正错别字、添加段落、重写摘要），然后逐token对比编辑前后的差异
腐蚀类型：事实性修改（改变数据/名称）、风格漂移（统一化不同作者风格）、信息丢失（删除"无关"但实际重要的细节）
关键发现：所有主流模型（GPT-4、Claude、Gemini）都存在此问题，且模型越大、越"helpful"，腐蚀倾向越强——因为更强的模型更倾向于"改进"它认为不完美的内容

关联分析¶

Agent-Control-Flow — Agent操作副作用隔离的架构设计
AI-Agent-Self-Improving — 自我改进系统中的可靠性边界
Vibe-Coding-Agent-Engineering-Convergence — Coding Agent的可信度问题

可执行建议¶

Agent文档编辑workflow必须包含diff审查环节：不要信任Agent的直接输出，每次编辑后自动生成diff供人类或规则引擎审核
采用patch-based编辑而非全文重写：设计Tool Use时，让Agent输出结构化的编辑指令（insert/delete/replace at line），而非重写整个文件
对关键文档（合同、配置文件）设置保护区：通过prompt约束或后处理过滤器，标记不应修改的段落
在SI项目中实践：SmartInspector的代码编辑功能应默认显示diff视图，让用户确认每处修改

自评¶

维度	分数	权重	加权
摘要质量	8.5	0.25	2.13
技术深度	8.0	0.25	2.00
相关性	9.0	0.20	1.80
原创性	7.5	0.15	1.13
格式规范	8.0	0.15	1.20
加权总分			8.25