Beyond Functional Correctness: Design Issues in AI… — Spiegazione divulgativa

✨

Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un architetto robot super-intelligente chiamato Cursor. Questo robot non si limita a scriverti una singola frase o a disegnare un singolo mattone; può costruire intere città (progetti software complessi) partendo da una semplice descrizione che gli dai.

Il titolo del paper, "Oltre la correttezza funzionale: Problemi di design nei progetti su larga scala generati dall'IA", ci dice una cosa fondamentale: il fatto che la città funzioni (le luci si accendono, l'acqua scorre) non significa che sia ben costruita.

Ecco la storia di questa ricerca, spiegata con un linguaggio semplice e qualche analogia creativa.

1. La Sfida: Costruire una Cattedrale con un Robot

Fino a poco tempo fa, gli assistenti AI (come GitHub Copilot) erano come muratori esperti: ti davano un mattone perfetto alla volta se glielo chiedevi. Ma se volevi costruire un grattacielo intero, dovevi guidare tu ogni singolo mattone.

Ora, con i nuovi IDE potenziati dall'AI (come Cursor), il robot è diventato un capocantiere autonomo. Gli dai un progetto ("Costruiscimi un e-commerce") e lui prova a mettere insieme tutti i mattoni, le tubature e i cavi da solo.

Gli autori di questo studio (un gruppo di ricercatori cinesi e internazionali) si sono chiesti: "Se diamo a questo robot un progetto enorme, riesce a costruirlo? E se sì, la casa sarà solida o crollerà tra dieci anni?"

2. Il Metodo: Non basta dire "Costruisci!"

Hanno scoperto che se chiedi al robot di costruire tutto in un colpo solo (un approccio chiamato "Vibe Coding", ovvero "codifica a sensazione"), il risultato è spesso un disastro: muri storti, tubature che non collegano e fondamenta deboli.

Per ottenere risultati decenti, hanno inventato un metodo chiamato FD-HITL (Feature-Driven Human-In-The-Loop).

L'analogia: Immagina di non dire al muratore robot "Costruisci la casa". Invece, gli dai un piano dettagliato: "Prima costruiamo le fondamenta, poi il primo piano, poi il tetto. Controlliamo ogni piano prima di passare al successivo".
Il ruolo umano: L'essere umano non scrive più il codice, ma fa da capocantiere. Dice al robot cosa fare, controlla se il lavoro è fatto bene e corregge gli errori prima di procedere.

3. L'Esperimento: 10 Città in 10 Settimane

Hanno usato questo metodo per generare 10 progetti software complessi (app mobili, siti web, strumenti utili).

Dimensione: Ogni progetto era enorme, con una media di 17.000 righe di codice (come scrivere 17.000 pagine di un libro).
Risultato Funzionale: Il robot ha fatto un ottimo lavoro! Il 91% delle funzioni richieste funzionava. Le luci si accendevano, i pulsanti funzionavano. La casa era "abitabile".

4. Il Problema Nascosto: La "Casa dei Sogni" piena di difetti

Qui arriva il punto cruciale dello studio. Anche se la casa funzionava, quando i ricercatori hanno usato dei ispettori digitali (strumenti chiamati CodeScene e SonarQube) per controllare la qualità della costruzione, hanno trovato un sacco di problemi nascosti.

Immagina di entrare in una casa bellissima, ma scopri che:

Duplicazione: Hanno costruito 5 porte identiche invece di farne una sola e riutilizzarla (violazione del principio "Non Ripeterti" - DRY).
Complessità: Alcune stanze (metodi di codice) sono così grandi e piene di corridoi tortuosi che è impossibile capire come si entra o si esce (Metodi "Grandi" e "Complessi").
Violazioni delle regole: Hanno usato materiali sbagliati per il tipo di casa (violazione delle "Best Practice" del framework).
Accessibilità: Hanno messo una porta che solo chi ha le mani può aprire, dimenticando che c'è chi usa una sedia a rotelle (problemi di accessibilità).

I numeri:

Hanno trovato 1.305 problemi con un ispettore e 3.193 con l'altro.
Molti di questi problemi violano le regole d'oro dell'architettura software, come il Principio di Responsabilità Unica (ogni stanza dovrebbe fare una sola cosa, non tutto insieme).

5. La Conclusione: Il Robot è un Ottimo Operaio, ma non un Architetto

Cosa ci insegna tutto questo?

L'AI è potente: Con il giusto metodo (il piano passo-passo), Cursor può costruire progetti enormi e funzionanti molto velocemente.
Ma non è perfetto: Il codice generato è spesso "sporco" e difficile da mantenere nel tempo. È come costruire una casa con mattoni incollati male: oggi sta in piedi, ma se vuoi aggiungere una finestra tra 5 anni, rischi che il muro crolli.
L'umano è indispensabile: Non possiamo affidarci ciecamente al robot. Serve un capocantiere umano esperto che:
- Pianifichi bene il progetto prima di iniziare.
- Controlli costantemente la qualità.
- Corregga i difetti di design.

In sintesi

Questo studio ci dice che l'Intelligenza Artificiale sta cambiando il modo in cui costruiamo software, rendendoci più veloci. Ma la velocità non deve sostituire la qualità. Se usiamo l'AI come un "turbo" per scrivere codice senza supervisione, stiamo costruendo castelli di sabbia che sembrano belli da lontano, ma che crolleranno al primo soffio di vento (o al primo cambiamento richiesto).

Il futuro non è "l'AI che sostituisce gli sviluppatori", ma "l'AI che lavora sotto la guida attenta degli sviluppatori" per creare software che non solo funziona oggi, ma che dura per anni.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema di Ricerca

L'integrazione di modelli linguistici di grandi dimensioni (LLM) ha trasformato lo sviluppo software. Tuttavia, mentre i precedenti strumenti di generazione di codice (come GitHub Copilot) si limitavano a generare frammenti di codice (snippet), una nuova generazione di IDE basati sull'IA (come Cursor, Claude Code) possiede capacità "agentiche" (interazione con il codicebase, pianificazione, esecuzione di comandi) che permettono di generare codice a livello di progetto.

Il problema centrale affrontato dallo studio è il divario tra la capacità di generare progetti su larga scala e la qualità del design di tali progetti. Sebbene esistano studi sulla correttezza funzionale o sulla sicurezza del codice generato, c'è una mancanza di evidenze empiriche su:

Se gli AI IDE possano effettivamente generare sistemi software complessi e su larga scala (simili a quelli industriali).
Quali problemi di design (design issues) e violazioni dei principi architetturali emergono in questi progetti generati autonomamente.

2. Metodologia

Gli autori hanno condotto uno studio empirico basato su Cursor (un AI IDE specifico), utilizzando un approccio strutturato per mitigare la natura caotica della generazione "ad hoc" (spesso chiamata Vibe Coding).

Framework FD-HITL (Feature-Driven Human-In-The-Loop)

Per guidare Cursor nella generazione di progetti complessi, gli autori hanno proposto il framework FD-HITL, che si ispira allo sviluppo guidato dalle funzionalità (FDD). Il processo prevede quattro fasi principali:

Inizializzazione del Progetto: Definizione del contesto e selezione collaborativa dello stack tecnologico.
Requisiti e Design: Generazione di file requirements.md e tasklist.md che scompongono il progetto in funzionalità indipendenti e testabili.
Implementazione: Ciclo iterativo di sviluppo per funzionalità. Si inizia con il backend e il database, si testano le API, e solo successivamente si integra il frontend. Ogni funzionalità viene testata manualmente prima di procedere alla successiva.
Revisione e Testing di Sistema: Test manuale dell'intero sistema per verificare la coerenza UI/UX e la logica complessiva.

Generazione dei Dati

Dataset: Sono stati generati 10 progetti su larga scala (definizione: $\ge$ 8.000 righe di codice, stack tecnologico complesso, componenti architetturali multipli).
Dominii: Applicazioni Web, App Mobile e Utility.
Tecnologie: React, Spring Boot, Django, React Native, PHP (WordPress), Vue.js, ecc.
Valutazione Funzionale: Due autori hanno valutato manualmente la correttezza funzionale confrontando il codice generato con i requisiti definiti.

Analisi della Qualità del Design

Per identificare i problemi di design, sono stati utilizzati due strumenti di analisi statica:

CodeScene: Per analisi a livello di file e metodo (complessità, duplicazione).
SonarQube: Per analisi a livello di statement e best practice (sicurezza, bug, code smells).

Filtraggio: È stata effettuata una verifica manuale per rimuovere i falsi positivi (es. convenzioni di naming specifiche di WordPress che SonarQube segnava erroneamente). Sono stati rimossi 1.612 falsi positivi.

3. Risultati Chiave

Correttezza Funzionale (RQ1)

Con l'uso del framework FD-HITL, Cursor è stato in grado di generare progetti funzionanti su larga scala.
Dimensioni medie: 16.965 righe di codice (LoC) e 114 file per progetto.
Correttezza Funzionale Media: 91%. I progetti hanno soddisfatto la maggior parte dei requisiti, sebbene siano stati rilevati alcuni errori logici e requisiti mancanti (es. funzionalità di aggiornamento post non implementata in un'app sociale).

Problemi di Design Identificati (RQ2)

Nonostante l'alta correttezza funzionale, i progetti presentano un numero significativo di problemi di design che minacciano la manutenibilità a lungo termine.

Analisi con CodeScene (1.305 problemi in 9 categorie):

Code Duplication (28.4%): Il problema più frequente. Violazione del principio DRY (Don't Repeat Yourself). Spesso presente nel frontend.
Metodi Complessi (27.9%) e Grandi (12.6%): Metodi con alta complessità ciclomatica e troppa lunghezza. Violazione del principio SRP (Single Responsibility Principle).
Complessità del Codice: Include condizioni complesse, annidamento profondo e "bumpy road ahead" (logica decisionale frammentata). Violazione del principio KISS (Keep It Simple, Stupid).

Analisi con SonarQube (3.193 problemi validi in 11 categorie):

Violazioni delle Best Practice del Framework (35.3%): Es. mancata validazione delle props in React, uso di System.out invece di logger in Java.
Gestione delle Eccezioni (10.4%): Cattura di eccezioni generiche, blocchi catch vuoti. Violazione del principio Fail Fast.
Accessibilità (6.1%): Mancanza di etichette associate ai controlli, elementi interattivi non navigabili da tastiera.
Violazioni dei Principi di Design: Costruttori con troppi parametri, metodi con troppi punti di uscita.

Sovrapposizione e Tecnologie:

Solo 133 problemi sono stati rilevati da entrambi gli strumenti, ma tutti sono di severità "Critica" e riguardano la complessità del codice.
Il 59% dei problemi rilevati da SonarQube è specifico della tecnologia (es. problemi specifici di React, Spring Boot, PHP).

4. Contributi Principali

Framework FD-HITL: Una metodologia sistematica per guidare gli AI IDE nella generazione di progetti su larga scala, dimostrando che l'approccio strutturato è superiore al prompting casuale.
Valutazione Empirica: La prima analisi approfondita della qualità del design di progetti end-to-end generati da AI IDE, andando oltre la semplice correttezza funzionale.
Dataset Pubblico (DIinAGP): Un dataset curato contenente 10 descrizioni di progetti, i relativi progetti generati da Cursor (169.646 righe di codice totali) e l'elenco dettagliato dei problemi di design identificati.
Raccomandazioni Pratiche: Linee guida per gli sviluppatori su come utilizzare gli AI IDE mantenendo il controllo sulla qualità del design.

5. Significato e Implicazioni

Lo studio conclude che, sebbene gli AI IDE come Cursor possano generare sistemi software complessi e funzionanti, non possono sostituire completamente l'ingegneria umana, specialmente nelle fasi di alto livello.

Rischio di Manutenibilità: I progetti generati tendono a violare principi fondamentali (SRP, DRY, KISS), rendendoli difficili da mantenere ed evolvere nel tempo.
Ruolo Umano: Il ruolo dello sviluppatore deve spostarsi dalla scrittura del codice alla supervisione del design, alla definizione dei requisiti e alla decomposizione delle funzionalità. L'uomo deve guidare l'agente, non solo ricevere output.
Necessità di Revisione: I progetti generati da AI IDE richiedono una revisione rigorosa da parte di sviluppatori esperti per correggere i problemi di design prima di essere considerati pronti per la produzione industriale.
Accessibilità e Sicurezza: Sono aree critiche dove l'IA tende a fallire se non esplicitamente istruita, richiedendo controlli manuali o strumenti specifici.

In sintesi, il paper avverte che l'adozione di AI IDE per progetti su larga scala senza un controllo umano sui principi di design porta a un aumento della velocità di sviluppo ma a un degrado della qualità architetturale a lungo termine.

Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects