RAG 系统的生产化要点
RAG 的难点不只是“把文档放进向量库”。真正影响效果的是知识治理、检索链路和回答约束的整体设计。
知识切片
切片过短会丢失上下文,切片过长会降低召回精度。实践中可以按标题层级、段落边界和语义块组合切片,并保留来源、更新时间、权限和业务标签。
检索链路
一个稳定的 RAG 链路通常包括:
- 查询改写:把用户问题转成更适合检索的表达。
- 多路召回:结合关键词、向量和结构化过滤。
- 重排:用更强模型或 reranker 重新排序候选片段。
- 上下文压缩:去掉重复内容和低相关片段。
- 答案生成:要求模型基于引用内容回答。
观测指标
仅看用户点赞不够。建议同时记录召回命中文档、片段相似度、重排分数、上下文长度、回答是否引用来源、用户是否继续追问。
常见问题
| 问题 | 可能原因 |
|---|---|
| 回答看起来合理但不准确 | 生成阶段没有强制依据检索内容 |
| 总是找不到最新资料 | 文档同步延迟或索引更新时间不可见 |
| 长文档命中差 | 切片策略破坏了语义边界 |
| 成本过高 | 召回数量、重排模型和上下文长度没有预算控制 |
小结
生产级 RAG 更像搜索系统和生成系统的组合。先把数据质量、检索质量和可观测性做好,再优化模型和提示词,收益会更稳定。
