Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study

Each language version is independently generated for its own context, not a direct translation.

🤖 L'Intelligenza Artificiale alla Scuola di Programmazione: Un Esame in "Lingua Straniera"

Immagina di avere un tutor privato super intelligente, capace di scrivere codice, correggere errori e spiegare concetti complessi. Questo è quello che sono i LLM (i modelli linguistici come ChatGPT). La maggior parte delle persone li usa per imparare a programmare in lingue molto comuni, come l'inglese o lo spagnolo del mondo informatico: Python e Java.

Ma cosa succede se lo stesso tutor deve insegnarti una lingua molto più difficile, rara e complessa? Una lingua dove le regole sono rigide, la logica è diversa e c'è meno materiale di studio disponibile? Questa è la sfida che gli autori di questo studio hanno affrontato con OCaml, una lingua di programmazione "funzionale" usata nei corsi universitari avanzati.

Hanno messo alla prova 9 dei migliori "tutor AI" del mondo per vedere se sono davvero bravi o se, in questa lingua difficile, fanno confusione.

🧪 I Tre Esami (I Benchmark)

Per valutare questi tutor, gli autori hanno creato tre tipi di "compiti" diversi, come se fossero tre materie scolastiche:

📝 Il Compito a Casa (λCodeGen):
- La sfida: L'AI deve scrivere un programma da zero partendo da una descrizione in linguaggio naturale (es: "Scrivi una funzione che calcola la profondità di un albero").
- L'analogia: È come chiedere a uno studente di scrivere un saggio o un racconto senza avere un modello davanti.
- Risultato: I migliori tutor (come GPT-4o e o3-mini) sono stati bravi, prendendo circa un B o un B+. Ma non sono perfetti: spesso sbagliano la logica o usano trucchi che il professore non vuole. I tutor più piccoli o gratuiti hanno preso voti molto bassi, spesso non riuscendo nemmeno a far funzionare il codice.
🔧 Il Laboratorio di Riparazione (λRepair):
- La sfida: L'AI deve prendere un programma rotto (preso da veri studenti) e aggiustarlo. Ci sono tre tipi di rotture:
  - Errori di sintassi: Come un errore di grammatica (mancano punti o virgole).
  - Errori di tipo: Come confondere un numero con una parola in una frase.
  - Errori logici: La frase è grammaticalmente corretta, ma non ha senso (es: "Il gatto ha mangiato la macchina").
- L'analogia: È come essere un meccanico che deve riparare un'auto. Se manca una vite (sintassi), è facile. Se il motore è sbagliato (logica), è molto più difficile.
- Risultato: Qui i tutor AI sono stati sorprendentemente bravi a sistemare gli errori di grammatica e di tipo. Sono quasi come meccanici esperti. Ma quando si tratta di capire perché il motore non funziona (errore logico), faticano un po' di più.
🗣️ La Spiegazione Teorica (λExplain):
- La sfida: L'AI deve spiegare concetti astratti (es: "Cos'è la ricorsione?" o "Come funziona la valutazione delle funzioni?").
- L'analogia: È come chiedere a un professore di spiegare la teoria della relatività a un bambino.
- Risultato: Qui c'è stato il vero test. I migliori tutor sono stati molto bravi a spiegare, prendendo voti alti. Tuttavia, molti tutor più piccoli hanno prodotto risposte confuse o troppo lunghe e verbose, come se parlassero per non dire nulla.

📊 Cosa hanno scoperto? (I Risultati in Pillole)

Non sono tutti uguali: C'è una grande differenza tra i "tutor" costosi e potenti (come GPT-4o) e quelli gratuiti o più piccoli. I primi sono affidabili, i secondi spesso falliscono.
La difficoltà della lingua conta: Anche i migliori AI fanno più errori in OCaml rispetto a Python. È come se un poliglotta parlasse perfettamente l'inglese, ma facesse ancora qualche errore di grammatica in un dialetto locale raro.
Correggere è più facile che creare: È più facile per un AI riparare un codice rotto che scriverne uno nuovo da zero.
Il pericolo della "finta competenza": Spesso l'AI scrive codice che sembra corretto ma non lo è, o spiega concetti in modo molto eloquente ma con errori nascosti. Gli studenti potrebbero fidarsi ciecamente e imparare le cose sbagliate.

💡 Cosa significa per noi?

Questo studio ci dà tre lezioni importanti:

Per gli studenti: Non fidatevi ciecamente dell'AI. Usatela come un assistente, non come un oracolo. Dovete avere la capacità di controllare se quello che vi dice è vero, specialmente in materie difficili.
Per i professori: L'AI è qui per restare. Invece di vietarla, i professori dovrebbero insegnare agli studenti a criticare le risposte dell'AI, a trovare i suoi errori e a usarla per imparare a debuggare, non solo per copiare.
Per i ricercatori: Le lingue di programmazione "rare" o difficili hanno bisogno di strumenti migliori. L'AI attuale è potente, ma deve imparare a ragionare meglio su concetti teorici complessi, non solo a imitare quello che ha letto.

In sintesi

Immaginate l'Intelligenza Artificiale come un genio un po' distratto. In un mondo semplice (Python), è un genio perfetto. In un mondo complesso e raro (OCaml), è ancora un genio, ma tende a fare errori di distrazione, a volte inventa cose che sembrano vere, e ha bisogno di un supervisore umano (lo studente o il professore) per controllare il suo lavoro.

Non è ancora il sostituto del professore, ma è diventato un compagno di studio molto potente, purché si sappia come usarlo con cautela.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study", presentata in italiano.

Titolo: Valutazione dei LLM nel Contesto di un Corso di Programmazione Funzionale: Uno Studio Completo

Autori: Yihan Zhang, Brigitte Pientka, Xujie Si (McGill University e University of Toronto)
Lingua di Programmazione: OCaml (linguaggio a risorse limitate)
Contesto: Corsi di programmazione funzionale di secondo anno (livello intermedio/avanzato).

1. Il Problema

I Large Language Models (LLM) stanno trasformando l'apprendimento informatico, ma la maggior parte degli studi esistenti si concentra su linguaggi ad alta risorsa come Python o Java in corsi introduttivi. Esiste un vuoto di conoscenza riguardo all'efficacia di questi modelli in:

Linguaggi a risorse limitate: Come OCaml, dove i dati di addestramento sono scarsi.
Contesti avanzati: Corsi di programmazione funzionale che richiedono concetti teorici complessi (semantica, inferenza di tipo, continuazioni) oltre alla semplice generazione di codice.
Qualità della risposta: La maggior parte delle valutazioni precedenti si basa solo sulla correttezza sintattica/esecutiva, trascurando la qualità algoritmica, la leggibilità e la concisione, aspetti cruciali in ambito educativo.

Il paper si pone l'obiettivo di valutare se i LLM siano strumenti affidabili per gli studenti e gli istruttori in un contesto di programmazione funzionale avanzata, analizzando la loro capacità di generare codice, correggere errori e spiegare concetti teorici.

2. Metodologia

Gli autori hanno costruito tre benchmark specifici basati su dati reali di un corso di programmazione funzionale presso l'Università McGill (Autunno 2022 e 2024), coinvolgendo 9 LLM all'avanguardia (inclusi GPT-4o, o3-mini, Claude 3.7 Sonnet, Llama 3.1, Qwen2.5, Gemini).

I Tre Benchmark:

$\lambda$ CodeGen (Generazione di Codice):
- Composizione: 10 assegnazioni di compiti (53 task totali) con descrizioni in linguaggio naturale e specifiche di tipo.
- Contenuto: Copre tecniche di base (pattern matching, ricorsione) fino a concetti avanzati (continuations, backtracking, parser, teoria dei linguaggi di programmazione).
- Sfida: Generazione di codice multi-task in un linguaggio a risorse limitate.
$\lambda$ Repair (Correzione di Codice):
- Composizione: 150 programmi OCaml reali con errori, prelevati dalle sottomissioni degli studenti.
- Categorie: 50 errori di sintassi, 50 errori di tipo, 50 errori logici.
- Setup: Valutazione zero-shot (nessun esempio fornito) e one-shot (un esempio fornito) per la correzione.
$\lambda$ Explain (Spiegazione di Concetti):
- Composizione: 50 domande teoriche tratte da esami e materiali di preparazione.
- Contenuto: Scope delle variabili, induzione, deduzione dei tipi, valutazione (call-by-value vs call-by-name), sostituzione.
- Sfida: Risposte senza compilatore, basate su ragionamento astratto.

Protocollo di Valutazione:

Automatizzato: Uso del compilatore OCaml e di un autograder per verificare la correttezza sintattica e il passaggio dei test case.
Manuale: Due assistenti didattici esperti hanno valutato le risposte su tre dimensioni:
1. Correttezza: Passaggio di tutti i test case.
2. Design dell'Algoritmo: Aderenza alle specifiche (es. uso corretto di HOF, ricorsione di coda, assenza di funzioni vietate).
3. Leggibilità/Concisione: Assenza di codice ridondante o spiegazioni verbose eccessive.
Scala di Voto: Le risposte sono classificate in livelli: Mastery (Padronanza), Proficient, Developing, Beginning, Non-gradable. Questi livelli sono convertiti in voti universitari (da A a F).

3. Risultati Chiave

Prestazioni Generali e Gerarchie

Top Tier: I modelli o3-mini, Claude 3.7 Sonnet e GPT-4o si sono distinti come i migliori, ottenendo voti complessivi nella fascia B+/B.
Bottom Tier: Modelli open-source più piccoli (Llama 3.1 8B, Qwen2.5 7B) e alcuni modelli Flash (Gemini 1.5 Flash 8B) hanno ottenuto voti F o D, con alti tassi di risposte "Non gradabili" (codice che non compila).
Confronto con Linguaggi ad Alta Risorsa: Le prestazioni sono significativamente inferiori rispetto ai benchmark Python/Java (es. HumanEval), dove i top model superano il 90% di accuratezza. Qui, i top model raggiungono circa il 70% di Mastery su $\lambda$ CodeGen.

Analisi per Compito (RQ1-RQ3)

Generazione di Codice ( $\lambda$ CodeGen):
- I top model risolvono circa il 70% dei problemi a livello Mastery.
- Il confronto con strumenti specifici per OCaml (come BURST) mostra che i LLM generalisti sono superiori nella gestione di task complessi e aperti, mentre BURST fallisce su task avanzati (es. continuations) ottenendo solo l'11.3% di successo.
- I modelli più piccoli falliscono spesso a causa di errori di sintassi o strutture di codice invalide.
Correzione di Errori ( $\lambda$ Repair):
- Sintassi: I top model superano l'80% di Mastery, competendo con strumenti specializzati.
- Tipi: Prestazioni ancora buone (72-83% per i top model), ma con un calo più marcato per i modelli open-source rispetto alla correzione sintattica.
- Logici: La difficoltà aumenta. I top model scendono sotto il 70% di Mastery. Gli errori logici sono i più difficili da correggere perché richiedono una comprensione profonda della semantica.
- One-Shot Learning: Fornire un singolo esempio di correzione migliora leggermente le prestazioni (specialmente per i modelli più piccoli), riducendo le risposte non gradabili.
Spiegazione Teorica ( $\lambda$ Explain):
- o3-mini eccelle (80% Mastery, voto A).
- Tuttavia, molti modelli soffrono di verbosità eccessiva (spiegano troppo o forniscono versioni multiple non richieste), anche quando istruiti a essere concisi.
- Esiste un divario significativo tra la capacità di generare codice e quella di spiegare concetti astratti complessi (es. inferenza di tipo).

Impatto della Difficoltà

I modelli performano meglio su task di base (pattern matching, ricorsione semplice) rispetto a task avanzati (continuations, teoria dei linguaggi).
Le domande di teoria dei linguaggi di programmazione (PT) sono le più critiche: i modelli più deboli ottengono lo 0% di Mastery.
I modelli tendono a "pattern matchare" esempi di addestramento piuttosto che comprendere la teoria sottostante, fallendo su concetti come la sostituzione di variabili libere o la valutazione dinamica.

4. Contributi Chiave

Benchmark Specializzati: Introduzione di $\lambda$ CodeGen, $\lambda$ Repair e $\lambda$ Explain, dataset specifici per la programmazione funzionale in OCaml, derivati da dati reali di studenti.
Valutazione Olistica: Superamento della sola metrica di "pass/fail" tramite una valutazione manuale che considera design algoritmico, efficienza e leggibilità.
Analisi Comparativa: Confronto diretto tra LLM generalisti e strumenti di sintesi specifici (BURST), dimostrando che i LLM offrono maggiore adattabilità a scapito di una precisione assoluta in domini ristretti.
Implicazioni Educative: Dimostrazione che, sebbene i LLM siano utili, non sono ancora affidabili al 100% per compiti avanzati, richiedendo agli studenti competenze critiche per valutare le uscite del modello.

5. Significato e Implicazioni

Per gli Studenti: È fondamentale sviluppare la capacità di valutare criticamente le soluzioni generate dall'IA. L'uso acritico dei LLM in corsi avanzati può portare all'acquisizione di concetti errati o soluzioni inefficienti.
Per gli Istruttori: I benchmark offrono uno strumento per progettare valutazioni che vadano oltre la semplice risoluzione di problemi, focalizzandosi su debugging, verifica e critica del codice generato dall'IA.
Per la Ricerca sui Linguaggi di Programmazione (PL):
- Evidenzia la necessità di integrare il ragionamento specifico del dominio (es. regole di tipo formali) nei LLM.
- Suggerisce che i tool specifici per linguaggio (come BURST) hanno ancora un ruolo, ma i LLM generalisti stanno colmando il divario per task complessi.
- Indica la necessità di sviluppare strumenti di sintesi e riparazione più potenti per linguaggi a risorse limitate.

In conclusione, il paper stabilisce che i LLM all'avanguardia sono strumenti potenti ma imperfetti per la programmazione funzionale. Sebbene eccelano nella correzione di errori sintattici e di base, faticano ancora con la complessità teorica e la generazione di codice avanzato in linguaggi a risorse limitate, richiedendo un'attenta supervisione umana in ambito educativo.