Skip to content

RAG 系统的生产化要点

RAG 的难点不只是“把文档放进向量库”。真正影响效果的是知识治理、检索链路和回答约束的整体设计。

知识切片

切片过短会丢失上下文,切片过长会降低召回精度。实践中可以按标题层级、段落边界和语义块组合切片,并保留来源、更新时间、权限和业务标签。

检索链路

一个稳定的 RAG 链路通常包括:

  1. 查询改写:把用户问题转成更适合检索的表达。
  2. 多路召回:结合关键词、向量和结构化过滤。
  3. 重排:用更强模型或 reranker 重新排序候选片段。
  4. 上下文压缩:去掉重复内容和低相关片段。
  5. 答案生成:要求模型基于引用内容回答。

观测指标

仅看用户点赞不够。建议同时记录召回命中文档、片段相似度、重排分数、上下文长度、回答是否引用来源、用户是否继续追问。

常见问题

问题可能原因
回答看起来合理但不准确生成阶段没有强制依据检索内容
总是找不到最新资料文档同步延迟或索引更新时间不可见
长文档命中差切片策略破坏了语义边界
成本过高召回数量、重排模型和上下文长度没有预算控制

小结

生产级 RAG 更像搜索系统和生成系统的组合。先把数据质量、检索质量和可观测性做好,再优化模型和提示词,收益会更稳定。

专注可落地的 AI 工程实践