TAG · タグ

# evals

2026年、AIに「評価体系」を構築することが業界のトレンドになった――金標準データセット、スコアラー、LLMを審判に使い、CIでブロックする。それはAIを信頼できるものにする工学的規律として売り込まれている。だがその工学的外皮を剥がせば、evalの本質は「誰が『良い』を定義し、誰が責任を負うか」であり、それは決してアウトソースできない。

AI業界こぞってevalに走るが、本当の問題から目を背けている