2026-06-19

베테랑 개발자 16명이 AI로 코딩했더니, 20% 빨라졌다고 느꼈지만 실제로는 19% 느려졌습니다

먼저 등골이 서늘해졌던 그 숫자부터 말하겠습니다.

METR의 무작위 대조 실험은, 오랜 세월 일해온 베테랑 오픈소스 개발자 16명을 모아, 평균 5년간 직접 유지보수해온 자신의 프로젝트에서 실제 작업을 하게 했습니다. 절반은 AI 도구를 쓰고, 절반은 쓰지 않았습니다. AI를 쓴 쪽은 19% 느려졌습니다. 좀 느려진 것 자체는 놀랍지 않습니다. 진짜 문제는 다른 절반에 있습니다. 이 사람들은 사전에 AI가 자신을 24% 빠르게 해줄 거라 예측했고, 막상 다 끝내고 느려지는 걸 몸소 겪은 뒤에도 여전히 자신이 20% 빨라졌다고 믿었습니다. 체감과 실제가 거의 40퍼센트포인트 차이 나는데, 방향마저 거꾸로였습니다.

저는 그 뒤로 계속 생각했습니다. 왜 사람은 이렇게까지 크게 틀리는가, 그것도 자기가 제일 잘하는 일에서 말입니다.

제가 직접 AI로 코딩할 때의 체감으로 절반 이상은 설명됩니다. 한 마디 입력하면 화면 한가득 코드가 튀어나오고, 그 순간은 정말 짜릿합니다. 손가락은 거의 움직이지 않았는데, 머릿속에 떠오르는 생각은 “벌써 나왔네”입니다. 하지만 그건 일 전체의 시작에 불과합니다. 이어서 그게 쓴 걸 읽고, 맞는지 판단하고, 한 번 돌려보고, 그러다 그럴듯한 논리를 아주 깔끔하게, 아주 맞는 것처럼 써놓은 걸 발견합니다. 그리고 다시 20분을 들여 이 “맞아 보이지만 실은 틀린” 것을 잡아냅니다. 앞쪽 그 한 순간의 짜릿함은 “빠르다”로 기억되고, 뒤쪽 이 20분의 씨름은 “코딩”으로 계산되지 않고 “디버깅”, “오늘 컨디션이 안 좋아서”로 계산됩니다. AI가 아껴주는 건 키보드를 두드리는 체력이고, 늘어나는 건 대조 확인하는 머리의 부담입니다. 그런데 사람은 체력을 아끼는 데는 민감하고, 머리를 더 쓰는 데는 무딥니다. 바로 여기서 체감과 스톱워치가 어긋납니다.

또 하나, 건너뛰기 쉬운 전제가 있습니다. 이 16명은 자기가 5년 동안 푹 담가온 코드 안에서 일했습니다. 이런 곳이야말로 AI가 가장 도움이 안 되고, 심지어 오히려 망치기 가장 쉬운 곳입니다. 왜냐하면 당신은 애초에 그 어떤 모델보다도 이 시스템을 잘 알고 있고, AI의 제안 중 절반은 당신이 진작에 정리해둔 것을 다시 추측해보는 것이며, 당신은 그게 빗나가지 않았는지 확인하느라 또 시간을 써야 하기 때문입니다. 상황을 바꾸면 결론도 거꾸로 나올 수 있습니다. 제가 완전히 낯선 프레임워크를 건드리거나, 템플릿 코드를 잔뜩 쓰거나, 작은 도구를 맨바닥에서 시작한다면, AI는 십중팔구 정말 빠릅니다. 그러니 이 연구는 “AI가 쓸모없다”고 말하는 게 아닙니다. AI의 빠르고 느림은 상황을 극도로 탄다는 것, 그리고 당신의 체감은 자기가 어느 상황에 있는지조차 분간하지 못한다는 것을 말하고 있습니다.

제가 프로덕트를 하는 사람으로서 이 연구에 유독 신경 쓰는 이유가 있습니다. 지금 우리 업계에서 AI와 관련된 거의 모든 결정 밑에는 똑같은 한마디가 깔려 있기 때문입니다. 그것이 우리를 더 빠르게 해준다는 말. 도구를 사려고 예산을 늘릴지, 사람을 두 명 덜 뽑을지, 이번 분기에 요구사항을 하나 더 욱여넣을 수 있을지, 사장이 “AI 올리고 나서 얼마나 빨라졌냐”고 물을 때 어떻게 답할지, 전부 이 한마디가 떠받치고 있습니다. 2026년 내내 이어진 AI 감원 물결도 바깥으로는 이 효율화 서사를 내세웠습니다. 그런데 이 연구가 말하는 건, 직접 손으로 일한 사람조차 자기가 정말 빨라졌는지 아닌지를 정확히 판단하지 못한다는 겁니다. 그렇다면 이 판단 위에 세운 예산, 일정, 감원은 지반이 무른 것입니다. 더 골치 아픈 건 제가 이걸 검증하기가 유독 어렵다는 점입니다. 제가 제일 먼저 떠올리는 방법이 팀에게 “AI가 도움이 됐냐”고 묻는 것인데, 이게 바로 가장 믿어서는 안 되는 데이터 출처이기 때문입니다.

그래서 지난 반년간 저는 꽤 구체적인 일을 했습니다. “훨씬 빨라진 것 같다”를 증거에서 지워버린 겁니다. 누군가 또 그렇게 말하면, 저 자신이 말하는 경우까지 포함해서, 저는 먼저 한마디 따라붙입니다. 어디서 그게 보이느냐고. 이번 이터레이션이 지난번보다 며칠 덜 걸렸는지, 운영 환경 버그가 늘었는지 줄었는지, 재작업이 늘지는 않았는지, AI가 쓴 그 부분을 나중에 돌아가서 몇 번이나 고쳤는지. 숫자가 있으면 믿고, 없으면 그냥 한마디 체감으로 치고 의심을 품어둡니다. 저는 또 두루뭉술하게 “AI가 쓸모 있냐”고 묻는 것도 그만뒀습니다. “어느 작업에서 쓸모 있냐”로 바꿨습니다. 자동완성, 낯선 API 찾기, 새 프로젝트 시작하기, 여기엔 십중팔구 쓸모 있습니다. 우리가 몇 년째 굴려온 그 오래된 시스템을 건드리는 일이라면, 저는 기본적으로 그게 속도를 늦출 거라 봅니다. 누군가 반례를 들고 와서 제 생각을 바꿔놓지 않는 한 말입니다.

더 읽어보기

베테랑 개발자 16명이 AI로 코딩했더니, 20% 빨라졌다고 느꼈지만 실제로는 19% 느려졌습니다

더 읽어보기

토론