评测与迭代
原则
没有评测,就没有稳定性。
OpenAI 的评测指南和 Cookbook 都强调:模型评分可扩展,但必须用人工评审校准,尤其在高风险任务里。
评测体系设计
- 定义指标
- 正确性
- 完整性
- 事实性
- 格式合规率
- 时延
- 单次请求成本
- 构造数据集
golden set:核心高价值样本edge set:边界与对抗样本regression set:线上事故回放样本
- 设计评分
- 自动评分:结构、规则、程序化校验
- 模型评分:语义质量打分
- 人工评分:关键样本抽检
- 建立发布门禁
- 指标未达阈值禁止上线
- 新版本必须跑全量回归
错误分类法(建议)
- E1 事实错误
- E2 推理跳步
- E3 输出格式错误
- E4 漏答关键约束
- E5 安全/合规问题
当你把错误都归到这 5 类,再做针对性修复,迭代速度会明显提升。
每周迭代节奏
- 周一:回放上周失败样本并入回归集
- 周二:提示词/检索/工具三路并行实验
- 周三:离线评测
- 周四:小流量灰度
- 周五:复盘并更新基线
角色动作卡
开发者
- 维护自动评测流水线,确保每次变更都能回归。
- 为高频错误类型增加可观测指标和报警阈值。
- 把线上事故样本自动回灌到 regression set。
产品经理
- 决定业务指标阈值,明确“可上线”和“必须回滚”边界。
- 组织关键场景人工抽检,避免只依赖自动评分。
- 将评测结果转化为下一周期迭代优先级。
开发者与产品经理交接件
- 每周评测周报(质量、成本、时延、风险)。
- 灰度放量决策记录。
- 回滚触发条件与责任人。
