模型评测体系怎么搭
模型评测的目标不是得到一个漂亮分数,而是帮助团队判断某次模型、提示词或检索链路变更是否可以上线。
先定义任务
不同任务需要不同评测方式。客服问答关注准确性和拒答边界,代码生成关注可运行性,摘要任务关注覆盖率和忠实度。
建立样例集
样例集可以从线上日志、人工构造和历史故障中来。建议每条样例至少包含输入、期望行为、评分标准和业务标签。
自动评测与人工评测
自动评测适合做高频回归,人工评测适合判断复杂语义和业务风险。两者不是替代关系,而是分层配合。
| 评测方式 | 适合场景 |
|---|---|
| 规则评测 | 格式、关键词、引用、权限等明确约束 |
| 模型评测 | 语义相似、回答完整性、风格一致性 |
| 人工评测 | 高风险场景、复杂业务判断、上线抽检 |
评测要进入发布流程
每次改 prompt、换模型、调检索参数,都应该跑一遍核心评测集。只有评测结果和成本、延迟一起被看见,团队才能做稳定的上线决策。
小结
评测体系的价值在于持续反馈。它不需要一开始完美,但必须尽早进入开发流程,随着真实问题不断补充样例。
