TAG · 标签

# evals

← 全部标签 · 共 1 篇

2026-06-08

AI 行业集体转向 eval,却在回避那个真问题

2026 年,给 AI 建「评估体系」成了显学——金标准数据集、打分器、用大模型当裁判、CI 卡关,被当成一门让 AI 变可靠的工程纪律来推。但剥开工程的壳,eval 的本质是「谁来定义好、谁来背锅」,而这恰恰外包不掉。