Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

别把 AI 评测当作打分:从 Evals 到回归门禁的工程化方法

很多团队做 Evals 时停在“做一张分数表”,然后把它放进周报。

问题是:

  • 分数好看,不代表线上稳定。
  • 评测跑了,不代表发布可控。

Evals 的正确定位应该是:发布门禁系统的一部分

架构图:质量/成本/时延三门禁

Eval Gate Pipeline

时序图:一次回归是如何阻断发布的

Eval Regression Sequence

工程化 Evals 的三个层次

1. 离线正确性评测

验证模型是否在核心任务上达到最低可用线。

2. 线上性能评测

监控延迟、成本、失败率,确保系统可运营。

3. 发布门禁评测

与 CI/CD 挂钩,回归即阻断发布。

建议的门禁规则(示例)

  • 质量分数下降超过阈值:阻断。
  • 成本上涨超过预算比例:阻断。
  • P95 延迟超阈值:阻断。
  • 关键业务样本失败:强制人工审批。

评测集建设要点

  1. 代表性:覆盖真实高频和高风险请求。
  2. 可追溯:样本来源、标签标准、版本都要记录。
  3. 可迭代:每次线上事故都要反哺到评测集。

指标设计建议

维度 建议指标
质量 任务完成率、关键样本通过率
成本 单请求成本、千请求成本
性能 P50/P95 延迟
稳定性 回归触发次数、误报率

误区复盘

  1. 只做一次性 benchmark,不做持续回归。
  2. 只关心质量,不关心成本和时延。
  3. 门禁规则没有分级,导致团队频繁“手动放行”。

结语

AI 产品进入规模化后,评测不是科研动作,而是发布治理动作。

把 Evals 接进门禁,才是从“模型可用”走向“业务可发布”的关键一步。

欢迎关注我的其它发布渠道