2026-06-19

16 位資深工程師用 AI 寫程式,以為快了 20%,其實慢了 19%

我先說那個讓我背脊發涼的數字。

METR 的隨機對照實驗,找了 16 位做了很多年的資深開源工程師,在他們自己平均維護了五年的專案上做真實任務,一半用 AI 工具,一半不用。用 AI 的那組,慢了 19%。慢一點不稀奇。真正的問題在另一半:這些人事前預測 AI 能讓他們快 24%,等真的做完、親身經歷了變慢之後,他們仍然以為自己快了 20%。體感和實際差了快 40 個百分點,方向還是反的。

我後來一直在想,為什麼人會錯得這麼離譜,而且是在自己最熟的活上錯。

拿我自己用 AI 寫東西的體感能解釋一大半。你打一句話,一整螢幕程式碼就出來了,那一下是真的爽,手指幾乎沒動,腦子裡冒出來的念頭是「這麼快就有了」。但那只是整件事的開頭。接下來你得讀它寫的、判斷對不對、跑一遍,然後發現它把一個似是而非的邏輯寫得特別工整、特別像對的,再花二十分鐘把這個「看著對其實不對」的東西揪出來。前面那一下的爽,被記成了「快」;後面這二十分鐘的較勁,不會被算進「寫程式」,會被算進「除錯」「今天狀態不好」。AI 省下的是敲鍵盤的體力,多出來的是核對的腦力,而人對省體力很敏感,對多花腦力很麻木。這就是體感和碼錶對不上的地方。

還有個容易被跳過的前提:這 16 個人,是在自己泡了五年的程式碼裡做事。這種地方恰恰是 AI 最幫不上、甚至最容易幫倒忙的,因為你本來就比任何模型都懂這套系統,它的建議有一半是在把你早想清楚的事重新猜一遍,你還得花時間確認它沒猜歪。換個情境結論可能就反過來:讓我去碰一個完全陌生的框架、寫一堆樣板程式碼、或者從零起一個小工具,AI 大概率是真的快。所以這條研究不是在說「AI 沒用」,它說的是 AI 的快慢極度挑情境,而你的體感根本分不清自己在哪個情境裡。

為什麼我做產品的會對這條格外在意。因為我們這行現在幾乎每一個跟 AI 有關的決策,底下都壓著同一句話:它讓我們更快了。要不要加預算買工具,要不要少招兩個人,這一季能不能再多塞一個需求,老闆問「上了 AI 提速多少」該怎麼答,全靠這句話撐著。整個 2026 年的 AI 裁員潮,對外講的也是這套提效敘事。可這條研究說的是:連親手做事的人,對自己到底快沒快都判斷不準。那建在這個判斷上的預算、排期、裁員,地基是鬆的。更麻煩的是我想驗證還特別難,因為我能想到的第一個辦法,就是去問團隊「AI 幫上忙了嗎」,而這恰好是最不該信的那個資料來源。

所以這半年我做了件挺具體的事:把「感覺快多了」從證據裡劃掉。再有人這麼說,包括我自己說,我都先追一句,哪裡能看出來。這個迭代比上一個少花了幾天,線上 bug 是多了還是少了,重工有沒有變多,AI 寫的那段後來回頭改了幾次。有數我就信,沒數就當成一句體感,存著疑。我也不再籠統問「AI 有沒有用」,改成問「在哪段活兒上有用」。自動補全、查陌生 API、起新專案,大概率有;動我們自己那套跑了多年的老系統,我預設它會拖慢,除非有人能拿出反例讓我改變想法。

延伸閱讀

討論

無需登入,匿名即可發言,請友善。
載入中…