RAGFlow¶

tags: #RAG #Agent #OpenSource #RetrievalAugmented #KnowledgeManagement source: ai-knowledge-base采集 project: infiniflow/ragflow score: 技术深度8/10 | 实用价值9/10 | 时效性8/10 | 领域匹配9/10 | 综合 8.5/10

title: "RAGFlow：开源RAG引擎与Agent融合平台" category: entities tags: [RAG, Agent, 开源, 检索增强, 知识管理] rating: 8.5 description: "RAGFlow是infiniflow开源的RAG+Agent引擎，79k+ stars，融合深度文档理解与Agent工作流，为LLM提供高质量上下文层" date: 2026-05-07

核心概念¶

RAGFlow 是一个开源的检索增强生成（RAG）引擎，核心定位是将深度文档理解能力与 Agent 工作流融合，为 LLM 应用提供经过精细切分和检索的上下文层。与普通 RAG 框架不同，RAGFlow 强调"深度文档理解"（DeepDoc）——对 PDF、表格、图片等非结构化文档进行版面分析和结构化提取。

项目数据：79,854 stars、9,089 forks（截至 2026-05），是目前 RAG 领域最受欢迎的开源项目之一。

设计原理¶

Trade-off 分析：

深度文档解析 vs 速度：RAGFlow 采用自研 DeepDoc 引擎做版面分析（布局检测、表格识别、OCR），精度高但处理速度比纯文本切分慢。选择这个 trade-off 是因为企业场景中 PDF/表格占比极高，浅层切分会导致召回质量灾难
一体化平台 vs 可组合微服务：RAGFlow 提供完整的 Web UI + API + Agent 编排，开箱即用但定制灵活性不如纯 SDK（如 LangChain）。适合快速落地，不适合需要深度定制检索管线的场景
Agent 内置 vs 外接 Agent 框架：内置了 Agent 编排能力（对话流、工具调用），但也支持通过 API 外接 LangGraph/CrewAI 等。这个设计降低了入门门槛，同时保留了扩展性

关键实现¶

技术栈¶

后端：Python + Flask，深度文档处理用 PyTorch
前端：React
部署：Docker Compose 一键启动，依赖 Elasticsearch/Infinity 作为向量库
文档解析：DeepDoc 引擎（版面分析 + OCR + 表格结构化）

核心模块（源码结构）¶

agent/        → Agent 编排逻辑（对话流、工具调用）
deepdoc/      → 深度文档解析引擎（核心壁垒）
api/          → REST API 层
mcp/          → MCP 协议支持（可被其他 Agent 框架调用）
conf/         → 配置管理（LLM 接入、模型选择）

检索管线¶

文档上传 → DeepDoc 解析（版面检测 → 表格/图片/文本分类 → 结构化提取）
文本切分（支持多种策略：手动、自动、按 QA 对）
向量化 + 入库（支持 Elasticsearch、Infinity）
查询时：混合检索（向量 + 关键词 BM25）+ 重排序

Agent 能力¶

内置对话流编排（可视化拖拽）
支持 MCP 协议，可被 OpenClaw 等 Agent 框架作为工具调用
支持多轮对话上下文管理

关联分析¶

Self-RAG：Self-RAG 是 RAG 的方法论改进，RAGFlow 是工程实现层面的平台，两者互补
与 LangChain 的定位差异：LangChain 是可组合的 SDK，RAGFlow 是一体化 RAG 平台，各自适合不同场景
与纯向量数据库（Milvus/Weaviate）的关系：RAGFlow 是上层应用，依赖向量库做存储和检索

可执行建议¶

快速试用：docker compose -f docker/docker-compose.yml up -d，5 分钟跑通 Demo
移动端场景：如果做"文档问答"类移动端应用，RAGFlow 的 API 可以作为后端，前端负责文档上传和对话交互
与现有 Agent 集成：通过 MCP 协议将 RAGFlow 接入 OpenClaw 或其他 Agent 框架，作为知识检索工具
关注 DeepDoc：即使不用 RAGFlow 整体，其 DeepDoc 文档解析模块值得单独研究，尤其是表格和版面分析部分

自评¶

维度	分数	权重	加权
摘要质量	8	0.25	2.00
技术深度	8	0.25	2.00
相关性	9	0.20	1.80
原创性	8	0.15	1.20
格式规范	9	0.15	1.35
加权总分			8.35

评分说明：摘要质量扣分因缺少基准测试数据；技术深度覆盖了架构和 trade-off 但未深入 DeepDoc 算法细节；相关性高因 RAG + Agent 是核心研究方向