弱模型协作架构¶

tags: #Multi-Agent #Token-Cost #Model-Orchestration #Prompt-Engineering #LLM-Architecture source: 2026-04-30-社交媒体.md project: Three Cobblers Blog score: 技术深度8/10 | 实用价值9/10 | 时效性8/10 | 领域匹配9/10 | 综合 8.5/10

核心概念¶

通过架构设计让多个低成本LLM（如Haiku级模型）以专业化分工的方式协作完成复杂任务，达到接近高端模型（如Opus）的效果，同时大幅降低Token成本。核心理念：用一个宽泛判断替换为多个窄判断，减少每个模型需要"记住"的信息量。

设计原理¶

Giant Prompt Trap（巨型Prompt陷阱）

默认做法是把所有需求、示例、边界条件、约束塞进一个Prompt发给最强模型。这对小模型致命——小模型的注意力容量有限，长Prompt中第二个、第三个约束极易被遗忘。不是小模型能力不够，而是工作流设计假设它应该能处理所有事情。

三步优化策略

System/User Prompt分离：System Prompt定义角色、优先级、约束、输出格式和评估视角；User Prompt只承载任务数据。对弱模型而言，这个分离的效果显著——System Prompt充当"轨道"，在模型看到数据前锚定行为模式
专业分工（三臭皮匠）：将一个复杂任务拆分为多个窄任务，每个子任务由独立的小模型session处理。例如代码审查：一个session检查需求覆盖、一个检查边界情况、一个提取事实、一个检查矛盾、一个润色语气。每个session只需在自己的专业角落表现合格
Hub-and-Spoke编排：一个session作为编排器（Orchestrator），不直接解决问题，而是决定哪个专家检查哪部分。编排器传递结构化摘要（非模糊印象），收集回复，在输出冲突时追问或升级到更强模型

Temperature控制

严格管道任务（分类、提取、验证）：低温度（0-0.3），追求确定性
创意探索任务（头脑风暴、方案生成）：中等温度（0.5-0.7）
编排器session：中等温度，需要判断力但不该过于发散

关键实现¶

并行化场景：安全审查、UX审查、成本审查、事实提取——子任务独立，可并行调用 链式场景：分类→提取→验证→摘要——前一步输出作为后一步输入，串行执行

编排器关键原则： - 传递结构化摘要，不传模糊印象 - 保留分歧而非抹平差异 - 冲突时升级到更强模型或明确标注

关联分析¶

Token成本优化：与Context-Window-Optimization互补——后者优化单次调用的Token效率，本文优化多次调用的编排策略
多Agent协作：与AI-Agent-Self-Improving的Agent自改进架构理念相通，都强调专业化分工
编码Agent：对Claude-Code-Source-Analysis等编码Agent的改进有直接参考价值——当前编码Agent多为单模型单session，可拆分为规划/编码/审查/修复等专门session

可执行建议¶

审查现有Agent工作流：检查是否有"巨型Prompt"问题。如果Prompt超过2000 token且包含多种角色/约束，考虑拆分
成本敏感场景优先尝试：在token账单高的场景（如批量文档处理、大规模代码审查），先试点弱模型协作架构，预期成本降低50-80%
自建编排器模式：Hub-and-Spoke模式可以用LangChain/LangGraph实现，编排器使用中等模型（如Sonnet），专家节点使用小模型（如Haiku）

自评¶

维度	分数	权重	加权
摘要质量	9	0.25	2.25
技术深度	8	0.25	2.00
相关性	9	0.20	1.80
原创性	8	0.15	1.20
格式规范	8	0.15	1.20
加权总分			8.45

评分标准：摘要质量（具体技术细节）| 技术深度（trade-off分析）| 相关性（purpose匹配）| 原创性（独立见解）| 格式规范（标签/链接/评分）