Skip to content

模型评测体系怎么搭

模型评测的目标不是得到一个漂亮分数,而是帮助团队判断某次模型、提示词或检索链路变更是否可以上线。

先定义任务

不同任务需要不同评测方式。客服问答关注准确性和拒答边界,代码生成关注可运行性,摘要任务关注覆盖率和忠实度。

建立样例集

样例集可以从线上日志、人工构造和历史故障中来。建议每条样例至少包含输入、期望行为、评分标准和业务标签。

自动评测与人工评测

自动评测适合做高频回归,人工评测适合判断复杂语义和业务风险。两者不是替代关系,而是分层配合。

评测方式适合场景
规则评测格式、关键词、引用、权限等明确约束
模型评测语义相似、回答完整性、风格一致性
人工评测高风险场景、复杂业务判断、上线抽检

评测要进入发布流程

每次改 prompt、换模型、调检索参数,都应该跑一遍核心评测集。只有评测结果和成本、延迟一起被看见,团队才能做稳定的上线决策。

小结

评测体系的价值在于持续反馈。它不需要一开始完美,但必须尽早进入开发流程,随着真实问题不断补充样例。

专注可落地的 AI 工程实践