← タグ一覧 · 1 件
2026年、AIに「評価体系」を構築することが業界のトレンドになった――金標準データセット、スコアラー、LLMを審判に使い、CIでブロックする。それはAIを信頼できるものにする工学的規律として売り込まれている。だがその工学的外皮を剥がせば、evalの本質は「誰が『良い』を定義し、誰が責任を負うか」であり、それは決してアウトソースできない。