Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Questo studio valuta l'efficacia di quattro modelli linguistici di grandi dimensioni open-weight nel correggere automaticamente saggi in tedesco di livello A austriaci basandosi su rubriche, rivelando che, sebbene i modelli siano in grado di applicare i criteri di valutazione, la loro bassa concordanza con i valutatori umani (massimo 40,6% per le dimensioni e 32,8% per i voti finali) li rende attualmente inadatti all'uso in contesti di valutazione reali.

Jonas Kubesch, Lena Huber, Clemens Havas

Pubblicato 2026-03-09
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un insegnante di tedesco austriaco. Hai davanti a te 101 compiti scritti a mano, pieni di errori di battitura, grafie difficili da decifrare e idee che a volte sono geniali e a volte... beh, diciamo che hanno bisogno di aiuto. Il tuo compito? Assegnare un voto a ciascuno di questi saggi, seguendo una griglia di valutazione molto precisa. È un lavoro che ti toglie ore di vita, che ti stanca e che, ammettiamolo, può essere influenzato dal fatto che sei stanco o che quel giorno hai bevuto troppa caffè.

Gli autori di questo studio, Jonas, Lena e Clemens, si sono chiesti: "Possiamo insegnare a un'intelligenza artificiale a fare questo lavoro al posto nostro?"

Hanno provato a usare i "cervelli digitali" più potenti del momento (chiamati LLM, o Modelli Linguistici di Grande Dimensione) per correggere questi compiti. Ecco come è andata, spiegato in modo semplice.

1. Il Problema: L'AI è un po' come un bambino geniale ma distratto

Hanno provato quattro diversi "cervelli" digitali (nomi strani come Llama, DeepSeek, Qwen e Mixtral).

  • Mixtral si è comportato come un bambino che non ha studiato: ha dato quasi sempre il voto "3" (la sufficienza) a tutti, senza guardare davvero il testo. Era inutile.
  • DeepSeek era troppo severo e, cosa curiosa, a volte scriveva le sue critiche in cinese invece che in tedesco!
  • Qwen era molto severo, ma almeno spiegava bene perché dava un voto basso.
  • Llama3.3 (il modello più grande) è stato l'unico che ha capito davvero il gioco. È stato l'unico capace di dare voti diversi (da 1 a 5) e di scrivere commenti sensati.

2. La Soluzione: Come insegnare all'AI a correggere

Il problema principale era che l'AI, da sola, non sapeva come pensare come un insegnante umano. Era come dare a uno studente un compito senza spiegargli le regole. Quindi, gli autori hanno provato due trucchi magici:

Trucco A: Il "RAG" (La biblioteca dei modelli)

Immagina di dare all'AI una pila di saggi già corretti da un umano: uno perfetto (voto 1), uno medio (voto 3) e uno disastroso (voto 5).

  • Cosa è successo? L'AI ha guardato questi esempi e ha cercato di imitarli. È stato meglio che non dare nulla, ma l'AI tendeva a essere un po' rigida e a non cogliere le sfumature.

Trucco B: Il "Few-Shot" (La conversazione passo dopo passo)

Qui è diventato interessante. Invece di dare solo esempi statici, hanno fatto fare all'AI un "allenamento" interattivo.

  • L'analogia: Immagina di essere un allenatore di calcio. Non mostri solo le foto dei giocatori vincenti. Ti siedi con il giocatore, gli fai vedere un gol, gli chiedi: "Secondo te, quanto vale questo tiro?". Lui risponde. Tu gli dici: "Quasi, ma guarda che il piede era storto. Riprova".
  • L'AI ha fatto esattamente questo: ha provato a dare un voto, l'ha corretto guardando gli esempi giusti, e ha imparato a calibrare il suo giudizio.

3. Il Risultato: L'AI è pronta a sostituire l'insegnante?

La risposta breve è: No, non ancora.

Ecco i numeri, tradotti in linguaggio umano:

  • Quando l'AI ha dovuto dare il voto finale, è andata d'accordo con l'insegnante umano solo nel 32,8% dei casi.
  • Se guardiamo le singole parti del compito (come la grammatica o la struttura), l'accordo sale al massimo al 40,6%.

È un miglioramento rispetto al passato, ma è ancora come avere un assistente che sbaglia più di una volta su tre.

4. Perché non funziona perfettamente?

Ci sono tre ostacoli principali, come tre muri alti:

  1. La lentezza: Il modello migliore (Llama) impiegava circa 4 minuti per correggere un solo compito. Se devi correggere 100 compiti, ci metti quasi 7 ore. Per un insegnante che deve farlo in fretta, è troppo lento.
  2. La confusione: L'AI a volte si confonde con le sfumature. Se un testo è molto creativo ma grammaticalmente debole, l'AI fatica a bilanciare i due aspetti come farebbe un umano.
  3. I dati sporchi: I compiti erano scannerizzati (fotocopiati). L'AI ha faticato a leggere la calligrafia a mano o le scansioni di bassa qualità, scambiando macchie d'inchiostro per errori grammaticali.

5. La Conclusione: Un assistente, non un sostituto

Gli autori concludono che l'Intelligenza Artificiale non è pronta a sostituire l'insegnante. Non puoi affidarle il compito di dare il voto finale che decide se uno studente passa o ripete l'anno.

Tuttavia, può essere un ottimo assistente.
Immagina un insegnante che usa l'AI per:

  • Fare una prima bozza di correzione.
  • Evidenziare gli errori grammaticali più ovvi.
  • Suggerire punti di forza e debolezza.

L'insegnante umano poi guarda tutto, corregge i "falsi allarmi" dell'AI e dà il voto finale. In questo modo, l'insegnante risparmia tempo e si concentra su ciò che conta davvero: spiegare agli studenti come migliorare.

In sintesi: L'AI è come un nuovo apprendista molto intelligente ma un po' goffo. Ha bisogno di un maestro esperto che lo guidi, non può lavorare da solo. Ma con il tempo e computer più potenti, potrebbe diventare il miglior aiutante che un insegnante abbia mai avuto.