TAG · 标签

# evals

AI 行业集体转向 eval，却在回避那个真问题

2026 年，给 AI 建「评估体系」成了显学——金标准数据集、打分器、用大模型当裁判、CI 卡关，被当成一门让 AI 变可靠的工程纪律来推。但剥开工程的壳，eval 的本质是「谁来定义好、谁来背锅」，而这恰恰外包不掉。