模型评测体系怎么搭

模型评测的目标不是得到一个漂亮分数，而是帮助团队判断某次模型、提示词或检索链路变更是否可以上线。

先定义任务

不同任务需要不同评测方式。客服问答关注准确性和拒答边界，代码生成关注可运行性，摘要任务关注覆盖率和忠实度。

样例集可以从线上日志、人工构造和历史故障中来。建议每条样例至少包含输入、期望行为、评分标准和业务标签。

自动评测适合做高频回归，人工评测适合判断复杂语义和业务风险。两者不是替代关系，而是分层配合。

每次改 prompt、换模型、调检索参数，都应该跑一遍核心评测集。只有评测结果和成本、延迟一起被看见，团队才能做稳定的上线决策。

评测体系的价值在于持续反馈。它不需要一开始完美，但必须尽早进入开发流程，随着真实问题不断补充样例。