← 全部标签 · 共 1 篇
2026 年,给 AI 建「评估体系」成了显学——金标准数据集、打分器、用大模型当裁判、CI 卡关,被当成一门让 AI 变可靠的工程纪律来推。但剥开工程的壳,eval 的本质是「谁来定义好、谁来背锅」,而这恰恰外包不掉。