2026-06-19

ベテラン16人がAIでコーディング、20%速くなったつもりが、実は19%遅くなっていた

まず、私の背筋を凍らせたあの数字から話したい。

METRのランダム化比較試験は、何年もやってきたベテランのOSS開発者を16人集め、平均5年メンテしてきた自分のプロジェクトで本物のタスクをやらせた。半分はAIツールを使い、半分は使わない。AIを使ったグループは、19%遅くなった。少し遅くなること自体は珍しくない。本当の問題はもう半分だ。この人たちは事前に、AIで24%速くなると予測していた。そして実際にやり終えて、遅くなったことを身をもって体験したあとでも、なお自分は20%速くなったと思い込んでいた。体感と実測は40ポイント近くズレていて、しかも向きが逆だった。

そのあとずっと考えていた。なぜ人はここまで派手に間違えるのか、しかも自分が一番慣れている仕事で。

その大半は、私自身がAIで書くときの体感で説明がつく。一言打ち込むと、画面いっぱいのコードが出てくる。あの瞬間は本当に気持ちいい。指はほとんど動かしていないのに、頭に浮かぶのは「もうできた」だ。だがそれは全体のほんの始まりにすぎない。次にAIが書いたものを読み、正しいか判断し、一度動かし、そして「もっともらしいけど微妙にズレたロジック」を、やたら整然と、やたら正しそうに書いてあるのを見つける。その「正しそうで実は正しくない」やつを引きずり出すのに、さらに20分かかる。最初のあの一瞬の快感は「速い」として記憶される。あとの20分の格闘は「コードを書いた時間」には数えられず、「デバッグ」や「今日は調子が悪い」に計上される。AIが節約してくれるのはキーボードを叩く体力で、増えるのは突き合わせる頭の労力だ。そして人は体力の節約には敏感で、頭の消耗には鈍い。ここが体感とストップウォッチが合わない場所だ。

それから、飛ばされがちな前提がもう一つある。この16人は、自分が5年漬かってきたコードの中で仕事をしていた。こういう場所こそ、AIが一番役に立たない、いや一番足を引っ張りやすい。なぜなら、そのシステムについてはあなたの方がどんなモデルよりも詳しいからだ。AIの提案の半分は、あなたがとっくに考え抜いたことを改めて推測しているだけで、しかもあなたはそれが外していないか確認する時間まで払わされる。場面が変われば結論は逆になりうる。まったく未知のフレームワークを触る、定型コードを大量に書く、ゼロから小さなツールを起こす――そういうときはAIは本当に速い可能性が高い。だからこの研究は「AIは役に立たない」と言っているのではない。AIの速い遅いは場面に極端に左右され、しかもあなたの体感は自分がどの場面にいるのかをまるで区別できない、と言っているのだ。

なぜプロダクトをやっている私がこれを特に気にするのか。今、我々の業界のAIにまつわる判断はほぼ全部、その下に同じ一文が敷かれているからだ――AIで我々は速くなった。ツールを買う予算を増やすか、採用を二人減らすか、今四半期にもう一つ要件を詰め込めるか、上司に「AIを入れてどれだけ速くなった」と聞かれてどう答えるか、全部この一文が支えている。2026年のAIリストラの波も、対外的にはこの効率化のストーリーで語られている。だがこの研究が言っているのは、自分の手で仕事をしている当人ですら、自分が本当に速くなったかどうかを正しく判断できない、ということだ。だとすれば、その判断の上に積み上げた予算もスケジュールもリストラも、地盤がゆるい。さらに厄介なのは、検証すること自体がひどく難しい点だ。私が最初に思いつく方法は、チームに「AIは役に立った?」と聞くことだが、それこそ最も信じてはいけないデータ源だからだ。

だからこの半年、私はかなり具体的なことをやった。「すごく速くなった気がする」を証拠から消したのだ。誰かがそう言ったら、私自身が言った場合も含めて、まず一言追う――どこを見ればそれが分かる? このイテレーションは前回より何日短かったのか、本番のバグは増えたのか減ったのか、手戻りは増えていないか、AIが書いたあの部分はそのあと何回直したか。数字があれば信じる。なければただの体感として、保留にして疑っておく。「AIは役に立つか」とざっくり聞くのもやめて、「どの作業で役に立つか」に変えた。補完、未知のAPIの調査、新規プロジェクトの立ち上げ――この辺りはたぶん役に立つ。長年動いている自分たちの古いシステムを触るときは、デフォルトで足を引っ張ると見なす。誰かが反例を出して私の考えを変えさせない限りは。

関連記事

ディスカッション

ログイン不要・匿名で投稿できます。お手柔らかに。
読み込み中…