"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale super intelligente, un po' come un genio della programmazione che vive dentro il tuo computer. Questo assistente (chiamato LLM, o "ChatGPT" nel testo) è diventato molto popolare tra gli ingegneri del software perché promette di scrivere codice, risolvere bug e insegnare cose nuove in un attimo.

Tuttavia, questo studio si chiede: "Dovrei arrendermi ora?".

Gli autori hanno messo alla prova questo assistente chiedendo a 26 persone (dai studenti universitari ai programmatori esperti) di costruire un sito web complesso passo dopo passo, usando solo ChatGPT come aiuto. Ecco cosa hanno scoperto, spiegato con parole semplici e qualche metafora.

1. Il Genio che si distrae (I Problemi)

Immagina di avere un assistente che è bravissimo a scrivere una singola frase, ma quando gli chiedi di scrivere un intero romanzo, inizia a dimenticare i personaggi, a inventare fatti che non sono mai accaduti o a darti risposte troppo lunghe e confuse.

Lo studio ha trovato 9 tipi di "incidenti" principali:

Risposte incomplete: Chiedi "costruiscimi una casa" e l'assistente ti dà le fondamenta e il tetto, ma dimentica le pareti. Devi tu a metterle.
Risposte sbagliate: L'assistente ti dà istruzioni che sembrano perfette, ma se le segui, la casa crolla (codice pieno di errori).
Dimenticanze (Perdita di contesto): Se dopo 10 minuti di conversazione chiedi "ricordi che volevo il tetto rosso?", l'assistente fa finta di nulla e ti risponde come se fosse la prima volta. È come parlare con qualcuno che ha una memoria di pesce rosso.
Sovraccarico cognitivo: A volte l'assistente ti spara addosso 50 pagine di testo invece di dirti semplicemente "cambia questo numero". È come ricevere un'enciclopedia quando volevi solo l'orario del treno.

2. Chi è il colpevole? (Le Cause)

Non è sempre colpa dell'assistente, né sempre tua. È come un duetto di danza dove uno dei due inciampa.

Colpa dell'utente: A volte le persone chiedono cose troppo vaghe ("Fai un sito bello") o saltano le istruzioni importanti perché leggono troppo velocemente.
Colpa dell'assistente: Altre volte, anche se chiedi cose precise, l'assistente ignora le tue regole, inventa file che non esistono o non capisce che sei un principiante e ti dà soluzioni da esperto (o viceversa).

3. La danza dei tentativi (Le Strategie di Riparazione)

Quando l'assistente sbaglia, le persone provano a "aggiustare il tiro". Hanno usato strategie come:

Spezzettare il compito: Invece di chiedere "fai tutto", chiedono "fai prima il menu, poi il footer".
Riformulare la domanda: "No, intendevo questo..."
Controllare a mano: Copiare il codice, provarlo e correggerlo da soli.
Cercare altrove: Quando l'assistente continua a sbagliare, le persone vanno su Google o StackOverflow.

4. Il momento della verità: Quando si arrendono?

Qui arriva il dato più importante. 17 persone su 26 hanno deciso di buttare via l'assistente e finire il lavoro da sole.

Perché?

La risposta inutile è un killer: Se l'assistente dà una risposta inutile, la probabilità che l'utente si arrende aumenta di 11 volte. È come se ti dessi una mappa sbagliata per 10 volte di fila: alla fine smetti di chiedere indicazioni e cammini a tentoni.
Più provi, meno ti arrendi: Paradossalmente, chi continua a fare domande (anche se molte) tende a non arrendersi subito. È come se dire "provo ancora" tenesse viva la speranza.
L'esperienza conta: I programmatori esperti si arrendono prima se vedono che l'assistente non funziona, perché sanno che perdere tempo a correggere errori è peggio che farlo da soli. I principianti, invece, tendono a insistere di più, anche se spesso si perdono in un labirinto di domande senza uscita.

5. Il paradosso del "Nuovo Modello"

Lo studio è stato ripetuto anche con una versione più nuova e potente dell'assistente (GPT-5.1).
Risultato sorprendente: Anche se il nuovo assistente è più intelligente e fa meno errori all'inizio, gli stessi problemi di fondo rimangono. Quando il compito diventa lungo e complesso, il nuovo assistente continua a dimenticare il contesto, a confondersi e a far perdere tempo. È come avere un'auto di lusso che ha un motore potente, ma se il GPS si blocca, arrivi comunque in ritardo.

Conclusione: Cosa dobbiamo imparare?

Questo studio ci dice che l'Intelligenza Artificiale nella programmazione non è ancora un "magico sostituto" che lavora al posto nostro. È più simile a un tirocinante molto veloce ma distratto.

Non è magico: Non puoi affidargli tutto e aspettare che funzioni. Devi essere il "capo" che controlla, corregge e guida.
Il rischio è la frustrazione: Se l'assistente ti fa perdere più tempo a correggere i suoi errori che a lavorare da solo, la scelta logica è abbandonarlo.
Il futuro: Per funzionare bene, questi strumenti dovranno imparare a non dimenticare le conversazioni passate, a capire meglio chi li sta usando (principiante o esperto) e a non dare risposte troppo lunghe e confuse.

In sintesi: l'AI è uno strumento potente, ma finché non impara a essere un vero "partner" e non solo un "generatore di testo", gli ingegneri dovranno spesso dire: "Ok, basta, lo faccio io".

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. Il Genio che si distrae (I Problemi)

2. Chi è il colpevole? (Le Cause)

3. La danza dei tentativi (Le Strategie di Riparazione)

4. Il momento della verità: Quando si arrendono?

5. Il paradosso del "Nuovo Modello"

Conclusione: Cosa dobbiamo imparare?

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

A. Tipologie di Fallimento (RQ1)

B. Cause Sottostanti (RQ2)

C. Strategie di Mitigazione (RQ3)

D. Fattori di Abbandono (RQ5) - Risultati Quantitativi

5. Significato e Implicazioni

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. Il Genio che si distrae (I Problemi)

2. Chi è il colpevole? (Le Cause)

3. La danza dei tentativi (Le Strategie di Riparazione)

4. Il momento della verità: Quando si arrendono?

5. Il paradosso del "Nuovo Modello"

Conclusione: Cosa dobbiamo imparare?

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

A. Tipologie di Fallimento (RQ1)

B. Cause Sottostanti (RQ2)

C. Strategie di Mitigazione (RQ3)

D. Fattori di Abbandono (RQ5) - Risultati Quantitativi

5. Significato e Implicazioni

Articoli simili

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities