Earyant的技术博客

欢迎来到Earyant的技术博客，在这里我将与你分享新技术。

别把 AI 评测当作打分：从 Evals 到回归门禁的工程化方法

发表于 2026-03-04 分类于 AI前沿阅读次数：
本文字数： 536 阅读时长 ≈ 1 分钟

很多团队做 Evals 时停在“做一张分数表”，然后把它放进周报。

问题是：

分数好看，不代表线上稳定。
评测跑了，不代表发布可控。

Evals 的正确定位应该是：发布门禁系统的一部分。

架构图：质量/成本/时延三门禁

时序图：一次回归是如何阻断发布的

工程化 Evals 的三个层次

1. 离线正确性评测

验证模型是否在核心任务上达到最低可用线。

2. 线上性能评测

监控延迟、成本、失败率，确保系统可运营。

3. 发布门禁评测

与 CI/CD 挂钩，回归即阻断发布。

建议的门禁规则（示例）

质量分数下降超过阈值：阻断。
成本上涨超过预算比例：阻断。
P95 延迟超阈值：阻断。
关键业务样本失败：强制人工审批。

评测集建设要点

代表性：覆盖真实高频和高风险请求。
可追溯：样本来源、标签标准、版本都要记录。
可迭代：每次线上事故都要反哺到评测集。

指标设计建议

维度	建议指标
质量	任务完成率、关键样本通过率
成本	单请求成本、千请求成本
性能	P50/P95 延迟
稳定性	回归触发次数、误报率

误区复盘

只做一次性 benchmark，不做持续回归。
只关心质量，不关心成本和时延。
门禁规则没有分级，导致团队频繁“手动放行”。

结语

AI 产品进入规模化后，评测不是科研动作，而是发布治理动作。

把 Evals 接进门禁，才是从“模型可用”走向“业务可发布”的关键一步。

欢迎关注我的其它发布渠道