分析时间: 2026-03-10 19:36 GMT+8 分析方法: 跨学科专家研究方法(interdisciplinary-research) 信源标准: 学术顶刊、官方文档、arXiv、权威开源项目
奠基论文: Lewis et al. (2020) "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" [NeurIPS 2020]
- 核心贡献: 将信息检索与序列生成模型结合,实现动态知识注入
技术演进:
- 2020: RAG 概念提出(Meta FAIR)
- 2021-2022: 向量数据库成熟(Pinecone, Weaviate, Milvus)
- 2023: 工程化爆发(LangChain, LlamaIndex)
- 2024-2026: 多模态RAG、GraphRAG、Agentic RAG
向量检索(Dense Retrieval):
- 论文: Karpukhin et al. (2020) "Dense Passage Retrieval" [EMNLP]
- 技术: 双塔架构(Bi-Encoder)
- 代表: Pinecone, Milvus, Weaviate
关键词检索(Sparse):
- 算法: BM25(Robertson & Zaragoza, 2009)
- 优势: 精确匹配、可解释
- 劣势: 语义理解弱
混合检索(Hybrid):
Score = α × Score_vector + (1-α) × Score_BM25
工程实践主流(LangChain, Dify 默认启用)
Query 改写技术:
- HyDE (Gao et al. 2022): 生成假设文档再检索
- Multi-Query: 并行多Query检索合并
- Query Expansion: 同义词/知识图谱扩展
Chunk 策略:
- Fixed-size: 简单但可能切断语义
- Semantic: 基于句子边界
- Recursive: 层次化(LangChain 默认)
- Agentic: 动态调整
关键发现: 论文 Liu et al. (2024) "Lost in the Middle" → 模型对中间位置信息敏感度最低
延迟分解(P95):
总延迟 ~2-5秒:
├─ Embedding: 50-200ms
├─ 向量检索: 10-100ms
├─ Reranking: 100-500ms (可选)
├─ LLM 生成: 1500-3000ms
└─ 其他: 100-300ms
成本控制:
- Embedding: $0.0001/1K tokens
- LLM (GPT-4): $0.01-0.03/1K tokens
- 单次 RAG: ~$0.001-0.05
Dense 派: 语义理解强,泛化好 Sparse 派: 精确匹配,可解释,低延迟 混合派(2026 主流): 工程实践普遍采用
支持: Cross-Encoder 精度显著高(Nogueira & Cho, 2019) 反对: 现代 Embedding 足够强(BGE-M3, Cohere v3)
共识(2026):
- 高精度场景(医疗/法律): 必需
- 通用场景: 可选
- 极低延迟: 跳过
融合派(2024-2026 主流):
- 静态知识 → Fine-tuning
- 动态知识 → RAG
- 最佳 → 两者结合(RAFT)
论文: Edge et al. (2024) "From Local to Global: A Graph RAG Approach"
- 构建知识图谱
- 支持多跳推理
- 工具: Microsoft GraphRAG, Neo4j
- 图文混合检索(CLIP, OpenCLIP)
- 视频检索(ColPali)
- Agent 自主决定检索策略
- 多轮检索 + 反思
- 代表: LangChain Agent, Dify Agent
论文: Asai et al. (2024) "Self-RAG"
- 模型自己决定是否检索
- 检索后自我评估
- 多次迭代优化
数据规模:
- <100K → Chroma/Qdrant
- 100K-10M → Milvus/Weaviate
-
10M → Pinecone/Milvus 集群
精度要求:
- 高 → 混合检索 + Reranking
- 中 → 混合检索
- 低 → 纯向量检索
| 项目 | Stars | 特点 | 场景 |
|---|---|---|---|
| Dify | 50K+ | 低代码,可视化 | 快速搭建 |
| LangChain | 90K+ | 生态完整 | 通用开发 |
| LlamaIndex | 35K+ | 数据索引专家 | 复杂检索 |
| RAGFlow | 25K+ | 深度优化 | 企业级 |
- 过度依赖向量检索
- 忽视 Chunk 策略
- 忽略 Query 理解
- 不评估就上线
- 盲目追求新技术
✓ 已验证:
- 混合检索优于单一检索(学术 + 工程 + 开源共识)
- Reranking 在高精度场景必需(论文 + 实践数据)
- Chunk 策略影响巨大(多项目实测)
- Dense/Sparse 权重配比
- 是否需 Fine-tuning
- GraphRAG 复杂度成本
❌ 已证伪:
- "RAG 已死,长上下文万岁"(2024-2026 实践证明两者互补)
- Lewis et al. (2020) NeurIPS
- Karpukhin et al. (2020) EMNLP
- Gao et al. (2022) HyDE
- Asai et al. (2024) Self-RAG
- Edge et al. (2024) GraphRAG
- LangChain: https://python.langchain.com/
- LlamaIndex: https://docs.llamaindex.ai/
- Pinecone: https://www.pinecone.io/learn/
- Dify: langgenius/dify
- LangChain: langchain-ai/langchain
- RAGFlow: infiniflow/ragflow
分析师: YAirUpGod 方法论: 跨学科专家研究方法 验证: 部分三重验证,部分需场景测试