AI業界こぞってevalに走るが、本当の問題から目を背けている
2026年、AIの世界で最もホットなエンジニアリング実践のひとつが、モデルとagentに「評価体系」(evals)を構築することだ。
やり方はすでにかなり洗練されている。実際の失敗事例から金標準データセットを積み上げ、信頼できるスコアラーをトレーニングし、「人間のレビュアーとアラインされた」LLMを審判として据え、最後にCIのゲートで品質の後退を毎回ブロックする。Anthropicはevalのやりかたをどうするかを解説する記事を書いた。ある調査では、32%のチームがAIプロダクトのリリースを阻む最大の障壁は品質だと答えている。一気に、evalがAIを信頼できるものにする工学的規律として推し進められるようになった。
この仕組み自体は確かに機能する。だが私が観察しているのはこうだ。みんな、組織の問題を工学の問題として包んで解こうとしている――そして、その組織の問題はevalでは解けない。
工学的外皮を剥がすと、evalとは何か
「データセット/スコアラー/CI」という工学的外皮を取り除けば、evalの体系には本質的に2つのものしか残らない。「私たちにとって何が良くて、何が絶対に許せないか」という書面による定義と、それを実行するメカニズム。
パイプラインを組んでCIを走らせる部分は簡単で、ツール化も早い。難しいのは前半だ――そもそも何が「良い」のか? これは工学の問題ではなく、判断の問題だ。そしてその判断こそ、evalが回避しようとして、しかし回避できない部分である。
「LLMを審判にする」は問題を一段後ろに押し出しているだけだ
いま流行しているのは、あるLLMを審判に据えて「人間のレビュアーとアラインされている」と主張することだ。科学的に聞こえるが、一歩踏み込めばボロが出る。どの人間とアラインされているのか? 誰のセンスか?
審判モデルは基準を生み出さない。あなたが与えた基準を複製するだけだ。金標準データセットに誰かの判断が埋め込まれているなら、そのevalにはその水準の判断しかない。「実際の失敗からデータセットを積み上げる」というのは、本質的にはテストデータに偽装した価値観ドキュメントだ――「このチームが許容できないもの」を記録している。
言い換えれば、evalはすでに持っているセンスを増幅するが、センスそのものは与えてくれない。 判断力が貧弱なのに立派なevalパイプラインを持っているチームが手に入れるのは、良いプロダクトではなく「より速く、より安定して凡庸なものを量産する能力」だ。
evalブームが本当に露わにしていること
「AIは何でもできる」という語りは、品質を守門する人間を溶かし去ることを約束していた。evalブームとは、業界全体がその役割をひっそりと呼び戻しているということだ――ただし、工学的な名前に変えて。
その含意は居心地が悪い。AIは判断力を持つ人間を消し去ったのではなく、その人間をボトルネックにした。 実行コストが安くなればなるほど、「何が良いかを定義すること」は希少になる。みんながevalを構築することに必死なのは、実はその事実を遅ればせながら認めているのだ。
だから私の見立てはこうだ。勝者は最も派手なevalパイプラインを持つチームではなく、「良さ」について最も強い意見を持ち、最も明確に定義できるチームだ。 パイプラインは与えられた基準を忠実に実行するだけであり、ほとんどのチームの基準はぐちゃぐちゃだからだ。
evalはかつて一度も、測定の問題ではなかった。これは業界がゆっくりと認めていることだ。誰かが「良い」を決めなければならない――そしてそれこそが、最もスケールできないことだ。
ディスカッション