16 programmatori esperti hanno usato l'IA per scrivere codice: credevano di andare il 20% più veloci, in realtà erano il 19% più lenti
Comincio dal numero che mi ha fatto venire i brividi lungo la schiena.
L’esperimento randomizzato controllato di METR ha preso 16 sviluppatori open-source esperti, con molti anni di mestiere alle spalle, e li ha messi a svolgere compiti reali su progetti che mantenevano da una media di cinque anni: metà con strumenti IA, metà senza. Il gruppo che usava l’IA è andato il 19% più lento. Andare un po’ più piano non sorprende. Il vero problema è l’altra metà: queste persone avevano previsto che l’IA li avrebbe resi il 24% più veloci e, dopo aver finito davvero, dopo aver vissuto sulla propria pelle il rallentamento, continuavano a credere di essere stati il 20% più veloci. Tra percezione e realtà ci sono quasi 40 punti percentuali, con il segno pure invertito.
Da allora ho continuato a chiedermi: perché una persona sbaglia in modo così clamoroso, e proprio sul lavoro che conosce meglio?
La mia esperienza personale nell’usare l’IA per scrivere spiega buona parte della cosa. Digiti una frase e ti compare una schermata intera di codice: quell’istante è davvero appagante, le dita quasi non si muovono, e il pensiero che ti balza in testa è «com’è arrivato in fretta». Ma quello è solo l’inizio di tutta la faccenda. Dopo devi leggere ciò che ha scritto, giudicare se è corretto, eseguirlo una volta, e poi scoprire che ha confezionato una logica plausibile ma fasulla in modo particolarmente ordinato, particolarmente simile a quella giusta — e ci metti altri venti minuti a stanare quella cosa che «sembra giusta ma non lo è». Quell’appagamento iniziale viene registrato come «velocità»; i venti minuti di battaglia che seguono non finiscono nella casella «scrivere codice», finiscono in «debug» o in «oggi non sono in forma». Quello che l’IA fa risparmiare è la fatica fisica di battere sui tasti; quello che aggiunge è la fatica mentale di verificare. E l’essere umano è sensibilissimo al risparmio di fatica fisica, ma del tutto insensibile alla fatica mentale in più. È qui che la percezione e il cronometro non tornano.
C’è poi un presupposto che si tende a saltare: questi 16 sviluppatori lavoravano dentro codice in cui erano immersi da cinque anni. È esattamente il terreno in cui l’IA aiuta di meno, anzi, in cui rischia di più di fare danni: tu già conosci quel sistema meglio di qualsiasi modello, e metà dei suoi suggerimenti consiste nel ri-indovinare cose che tu avevi già chiarito da tempo — e poi ti tocca pure spendere tempo a confermare che non abbia indovinato storto. In uno scenario diverso la conclusione potrebbe ribaltarsi: se mi mettessi a toccare un framework completamente sconosciuto, a scrivere un mucchio di codice boilerplate, o a far partire da zero un piccolo strumento, l’IA molto probabilmente mi renderebbe davvero più veloce. Quindi questa ricerca non dice «l’IA è inutile»; dice che la velocità dell’IA dipende in modo estremo dallo scenario, e che la tua percezione non sa affatto distinguere in quale scenario ti trovi.
Perché a me, che faccio prodotto, questa cosa interessa in modo particolare. Perché nel nostro mestiere oggi quasi ogni decisione legata all’IA poggia in fondo sulla stessa frase: ci rende più veloci. Se aggiungere budget per comprare strumenti, se assumere due persone in meno, se in questo trimestre si può infilare un requisito in più, come rispondere quando il capo chiede «di quanto ci ha accelerato l’IA» — tutto si regge su quella frase. Anche l’ondata di licenziamenti legati all’IA di tutto il 2026 viene raccontata all’esterno con questa stessa narrazione dell’efficienza. Ma questa ricerca dice una cosa: persino chi sta facendo il lavoro con le proprie mani non riesce a giudicare con precisione se sia stato più veloce o no. Allora i budget, le pianificazioni, i licenziamenti costruiti su quel giudizio hanno le fondamenta molli. E la cosa più fastidiosa è che verificarlo è particolarmente difficile, perché il primo metodo che mi viene in mente è chiedere al team «l’IA vi ha aiutato?» — ed è esattamente la fonte di dati di cui meno bisognerebbe fidarsi.
Così in questi sei mesi ho fatto una cosa molto concreta: ho cancellato dalle prove il «mi sembra molto più veloce». Quando qualcuno lo dice di nuovo, me compreso, ribatto subito con: dove si vede? Questa iterazione ha richiesto qualche giorno in meno della precedente, i bug in produzione sono aumentati o diminuiti, il rework è cresciuto, quel pezzo scritto dall’IA quante volte è stato poi rimesso mano. Se c’è un dato ci credo; se non c’è lo tratto come una percezione, e lo metto da parte con il beneficio del dubbio. E non chiedo più genericamente «l’IA è servita o no», ma «su quale pezzo di lavoro è servita». Completamento, ricerca di API sconosciute, avvio di nuovi progetti: molto probabilmente sì; toccare quel nostro vecchio sistema che gira da anni: parto dal presupposto che ci rallenti, a meno che qualcuno non porti un controesempio che mi faccia cambiare idea.
Discussione