Skip to content

评测与迭代

原则

没有评测,就没有稳定性。

OpenAI 的评测指南和 Cookbook 都强调:模型评分可扩展,但必须用人工评审校准,尤其在高风险任务里。

评测体系设计

  1. 定义指标
  • 正确性
  • 完整性
  • 事实性
  • 格式合规率
  • 时延
  • 单次请求成本
  1. 构造数据集
  • golden set:核心高价值样本
  • edge set:边界与对抗样本
  • regression set:线上事故回放样本
  1. 设计评分
  • 自动评分:结构、规则、程序化校验
  • 模型评分:语义质量打分
  • 人工评分:关键样本抽检
  1. 建立发布门禁
  • 指标未达阈值禁止上线
  • 新版本必须跑全量回归

错误分类法(建议)

  • E1 事实错误
  • E2 推理跳步
  • E3 输出格式错误
  • E4 漏答关键约束
  • E5 安全/合规问题

当你把错误都归到这 5 类,再做针对性修复,迭代速度会明显提升。

每周迭代节奏

  • 周一:回放上周失败样本并入回归集
  • 周二:提示词/检索/工具三路并行实验
  • 周三:离线评测
  • 周四:小流量灰度
  • 周五:复盘并更新基线

角色动作卡

开发者

  • 维护自动评测流水线,确保每次变更都能回归。
  • 为高频错误类型增加可观测指标和报警阈值。
  • 把线上事故样本自动回灌到 regression set。

产品经理

  • 决定业务指标阈值,明确“可上线”和“必须回滚”边界。
  • 组织关键场景人工抽检,避免只依赖自动评分。
  • 将评测结果转化为下一周期迭代优先级。

开发者与产品经理交接件

  • 每周评测周报(质量、成本、时延、风险)。
  • 灰度放量决策记录。
  • 回滚触发条件与责任人。

参考来源