2026-06-19

16 位資深工程師用 AI 寫程式，以為快了 20%，其實慢了 19%

我先說那個讓我背脊發涼的數字。

METR 的隨機對照實驗，找了 16 位做了很多年的資深開源工程師，在他們自己平均維護了五年的專案上做真實任務，一半用 AI 工具，一半不用。用 AI 的那組，慢了 19%。慢一點不稀奇。真正的問題在另一半：這些人事前預測 AI 能讓他們快 24%，等真的做完、親身經歷了變慢之後，他們仍然以為自己快了 20%。體感和實際差了快 40 個百分點，方向還是反的。

我後來一直在想，為什麼人會錯得這麼離譜，而且是在自己最熟的活上錯。

拿我自己用 AI 寫東西的體感能解釋一大半。你打一句話，一整螢幕程式碼就出來了，那一下是真的爽，手指幾乎沒動，腦子裡冒出來的念頭是「這麼快就有了」。但那只是整件事的開頭。接下來你得讀它寫的、判斷對不對、跑一遍，然後發現它把一個似是而非的邏輯寫得特別工整、特別像對的，再花二十分鐘把這個「看著對其實不對」的東西揪出來。前面那一下的爽，被記成了「快」；後面這二十分鐘的較勁，不會被算進「寫程式」，會被算進「除錯」「今天狀態不好」。AI 省下的是敲鍵盤的體力，多出來的是核對的腦力，而人對省體力很敏感，對多花腦力很麻木。這就是體感和碼錶對不上的地方。

還有個容易被跳過的前提：這 16 個人，是在自己泡了五年的程式碼裡做事。這種地方恰恰是 AI 最幫不上、甚至最容易幫倒忙的，因為你本來就比任何模型都懂這套系統，它的建議有一半是在把你早想清楚的事重新猜一遍，你還得花時間確認它沒猜歪。換個情境結論可能就反過來：讓我去碰一個完全陌生的框架、寫一堆樣板程式碼、或者從零起一個小工具，AI 大概率是真的快。所以這條研究不是在說「AI 沒用」，它說的是 AI 的快慢極度挑情境，而你的體感根本分不清自己在哪個情境裡。

為什麼我做產品的會對這條格外在意。因為我們這行現在幾乎每一個跟 AI 有關的決策，底下都壓著同一句話：它讓我們更快了。要不要加預算買工具，要不要少招兩個人，這一季能不能再多塞一個需求，老闆問「上了 AI 提速多少」該怎麼答，全靠這句話撐著。整個 2026 年的 AI 裁員潮，對外講的也是這套提效敘事。可這條研究說的是：連親手做事的人，對自己到底快沒快都判斷不準。那建在這個判斷上的預算、排期、裁員，地基是鬆的。更麻煩的是我想驗證還特別難，因為我能想到的第一個辦法，就是去問團隊「AI 幫上忙了嗎」，而這恰好是最不該信的那個資料來源。

所以這半年我做了件挺具體的事：把「感覺快多了」從證據裡劃掉。再有人這麼說，包括我自己說，我都先追一句，哪裡能看出來。這個迭代比上一個少花了幾天，線上 bug 是多了還是少了，重工有沒有變多，AI 寫的那段後來回頭改了幾次。有數我就信，沒數就當成一句體感，存著疑。我也不再籠統問「AI 有沒有用」，改成問「在哪段活兒上有用」。自動補全、查陌生 API、起新專案，大概率有；動我們自己那套跑了多年的老系統，我預設它會拖慢，除非有人能拿出反例讓我改變想法。

延伸閱讀

標籤 AI 寫程式研發效率產品經理 AI 提效科技評論

16 位資深工程師用 AI 寫程式，以為快了 20%，其實慢了 19%

延伸閱讀

討論