RAG 系统的生产化要点

RAG 的难点不只是“把文档放进向量库”。真正影响效果的是知识治理、检索链路和回答约束的整体设计。

知识切片

切片过短会丢失上下文，切片过长会降低召回精度。实践中可以按标题层级、段落边界和语义块组合切片，并保留来源、更新时间、权限和业务标签。

一个稳定的 RAG 链路通常包括：

仅看用户点赞不够。建议同时记录召回命中文档、片段相似度、重排分数、上下文长度、回答是否引用来源、用户是否继续追问。

生产级 RAG 更像搜索系统和生成系统的组合。先把数据质量、检索质量和可观测性做好，再优化模型和提示词，收益会更稳定。