NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza competenze tecniche.

Immagina di essere un giudice di un concorso di racconti. Il compito non è dire "chi ha vinto", ma valutare quanto una certa interpretazione di una parola abbia senso in una storia specifica.

Il Gioco: "La Plausibilità della Parola"

Immagina una parola che può significare due cose diverse, come "anello".

Significato A: Un gioiello che si mette al dito.
Significato B: Il suono di un telefono che squilla.

Ora, ti viene raccontata una breve storia di 5 frasi. Alla fine, devi dire: "Quanto è probabile che qui 'anello' significhi il gioiello?". Dai un voto da 1 (assolutamente impossibile, come un pesce che vola) a 5 (perfettamente ovvio, come il sole che sorge).

Il problema è che le storie sono ambigue: a volte il contesto iniziale suggerisce una cosa, ma la frase finale ne conferma un'altra. È un gioco di logica sottile.

I Tre "Campioni" in Gara

Gli autori di questo studio hanno messo in gara tre tipi di "giudici" (computer) per vedere chi è il migliore nel dare questo voto:

1. Il "Calcolatore di Distanze" (Metodi basati su Embedding)

Immagina questo giudice come un archivista che usa un metro.
Prende la storia e il significato della parola, li trasforma in due "punti" su una mappa e misura la distanza tra di loro. Se sono vicini, dice "è probabile".

Il risultato: È stato un disastro. Come cercare di capire la trama di un film misurando solo la distanza tra le poltrone del cinema. Non capisce la storia, non capisce il contesto, si limita a fare calcoli matematici superficiali.

2. Il "Studente che Impara a Memoria" (Fine-Tuning)

Questo giudice è come uno studente universitario brillante che ha studiato migliaia di storie simili. Gli hanno insegnato a leggere e a capire le sfumature.

Il risultato: Va molto meglio dell'archivista. Capisce il contesto e le relazioni tra le frasi. Tuttavia, quando si trova di fronte a una storia nuova e strana che non ha mai visto, tende a confondersi o a fare errori perché si basa troppo su quello che ha imparato a memoria durante lo studio.

3. Il "Detective con una Checklist" (LLM con Prompting Strutturato)

Questo è il vincitore. Immagina un investigatore privato molto intelligente (una Intelligenza Artificiale avanzata come GPT-4o), ma con un trucco speciale: non gli si chiede solo "cosa pensi?", ma gli si dà una checklist rigorosa.
Invece di dire "leggi la storia e indovina", gli si dice:

Analizza l'inizio: Cosa prepara il terreno?
Analizza la frase chiave: Cosa dice esattamente la parola qui?
Analizza la fine: Cosa conferma o smentisce tutto?
Regola d'oro: "Se la fine contraddice l'inizio, il voto deve essere basso. Se c'è dubbio, scegli il voto più basso."

Il risultato: Questo detective vince a mani basse. Non ha bisogno di aver letto milioni di storie prima; basta che segua le regole logiche della checklist.

La Grande Scoperta: La Regola è più importante della Potenza

La cosa più sorprendente che hanno scoperto è che non serve il computer più potente, serve il metodo migliore.

Un modello "piccolo" ma con una checklist perfetta (il detective) batte un modello "gigante" che cerca di indovinare a caso.
È come dire che un cuoco con una ricetta precisa cucinerà un piatto migliore di un chef famoso che cucina "a sensazione" senza seguire le istruzioni.

Perché è importante?

Questo studio ci insegna che per risolvere problemi complessi di comprensione del linguaggio, non basta "buttare più dati" o "usare computer più potenti". La vera magia sta nel insegnare all'AI come ragionare, passo dopo passo, dandole regole chiare su come smontare un problema e ricomporlo.

In sintesi: Non è la forza bruta a vincere, è la strategia.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating", presentata in italiano.

1. Il Problema: Valutazione di Plausibilità del Senso delle Parole

Il compito affrontato è la SemEval-2026 Task 5, che si discosta dalla tradizionale Disambiguazione del Senso delle Parole (WSD). Invece di selezionare un unico senso "corretto" per una parola ambigua, il sistema deve prevedere la plausibilità percepita dall'uomo di un senso specifico all'interno di un contesto narrativo, su una scala da 1 a 5.

Dataset: Viene utilizzato AmbiStory, una raccolta di brevi storie narrative (5 frasi) contenenti omonimi ambigui.
Struttura dell'input: Ogni campione include un pre-testo (3 frasi), una frase target contenente l'omnimo, e una frase finale che può disambiguare il senso.
Obiettivo: Assegnare un punteggio di plausibilità (1-5) a un senso candidato dato l'intero contesto. Il "gold label" è la media delle valutazioni di almeno cinque annotatori.

2. Metodologia

Gli autori hanno sistematicamente confrontato tre approcci distinti per risolvere il problema:

A. Metodi Basati su Embedding

Questo approccio estrae caratteristiche di similarità tra l'embedding della storia e quello del senso della parola, utilizzando regressori classici.

Modelli: MPNet e RoBERTa per generare gli embedding delle frasi.
Feature: Vengono estratte 8 o 23 feature (similarità coseno, distanza euclidea, prodotto scalare, sovrapposizione lessicale, lunghezza del testo, ecc.).
Regressori: Ridge Regression (per MPNet) e XGBoost (per RoBERTa).
Limite: Questo metodo tratta il problema come una semplice similarità statica, ignorando il ragionamento composizionale necessario per comprendere la narrazione.

B. Fine-Tuning di Transformer

Adattamento di modelli linguistici pre-addestrati tramite tecniche efficienti (LoRA - Low-Rank Adaptation) per la regressione.

Modelli: Varianti di ELECTRA (base e large) e DeBERTa-large.
Strategie di Ottimizzazione Avanzate:
- Loss Funzioni: Oltre alla perdita di regressione standard (MSE o Huber), sono stati introdotti:
  - RankNet Pairwise Loss: Per ottimizzare direttamente la correlazione di Spearman (ordinamento delle coppie).
  - Uncertainty-aware Loss: Penalizza gli errori solo se superano la deviazione standard degli annotatori, permettendo al modello di ignorare i campioni con alto disaccordo umano.
- Pooling: Utilizzo di mean pooling su tutti i token invece che solo sul token [CLS].

C. Prompting con Grandi Modelli Linguistici (LLM)

Utilizzo di modelli LLM (GPT-4o, GPT-5, Llama 3, Ministral) senza fine-tuning, basandosi su strategie di prompting.

Strategia P1 (Few-Shot): Uso di 5 esempi nel prompt (uno per livello di rating) con temperature 0.
Strategia P2 (Prompting Strutturato con Regole Decisionali): L'approccio vincente. Invece di esempi, il prompt fornisce:
1. Valutazione Componente per Componente: Istruzioni per valutare separatamente pre-testo, frase target e finale.
2. Regole Decisionali Esplicite: Esempio: "Se il finale contraddice chiaramente il senso, il rating deve essere 1 o 2"; "Se le prove sono miste, scegliere il rating più basso plausibile".
3. Inquadramento Imparziale: Il modello agisce come un valutatore oggettivo basato solo sul testo fornito.

3. Risultati Sperimentali

I risultati sono stati valutati su due metriche: Correlazione di Spearman ( $\rho$ ) e Accuratezza (percentuale di previsioni entro una deviazione standard dal gold).

Metodi basati su Embedding: Hanno ottenuto prestazioni molto scarse ( $\rho < 0.14$ sul test set), confermando che le feature di similarità statica non catturano il ragionamento narrativo.
Fine-Tuning: Ha superato gli embedding ( $\rho \approx 0.53$ per ELECTRA-large), ma ha mostrato difficoltà di generalizzazione sui dati di test rispetto allo sviluppo. L'aggiunta di loss per l'incertezza ha migliorato l'accuratezza.
LLM Prompting: Ha dominato la classifica.
- Il passaggio dal prompting Few-Shot (P1) a quello Strutturato (P2) ha portato a un miglioramento significativo (es. GPT-5.2: da $\rho=0.635$ a $0.717$).
- Sistema Migliore: GPT-4o con Prompting Strutturato (P2) ha raggiunto i risultati migliori sul set di test: $\rho = 0.731$ e Accuratezza = 0.794.
- Nota Importante: Un modello più piccolo (GPT-4o) con un prompt ben progettato ha superato modelli più grandi (GPT-5.2) con lo stesso prompt, suggerendo che la progettazione del prompt è più critica della scala del modello per questo compito.

4. Contributi Chiave

Superiorità del Prompting Strutturato: Dimostrazione che decomporre il giudizio in componenti narrative e applicare regole decisionali esplicite è più efficace del fine-tuning o del few-shot prompting per compiti di plausibilità graduale.
Analisi del Fallimento degli Embedding: Evidenza che le metriche di similarità statica falliscono nel catturare le relazioni causali e contestuali complesse all'interno di una narrazione.
Gestione dell'Incertezza: L'uso di loss funzioni che tengono conto della deviazione standard degli annotatori nel fine-tuning ha migliorato la robustezza del modello.
Impatto del Design del Prompt: La scoperta che la struttura del prompt (regole esplicite) supera la dimensione del modello.

5. Significato e Conclusioni

Il lavoro dimostra che per compiti di valutazione semantica sfumata (graded plausibility) in contesti narrativi, la capacità di ragionamento strutturato è fondamentale. L'approccio vincente non richiede un addestramento pesante, ma una ingegnerizzazione del prompt che guida il modello a simulare un processo di valutazione umano, analizzando le prove in modo modulare e applicando criteri di calibrazione rigorosi.

L'analisi degli errori rivela che i modelli faticano ancora con:

Disaccordo umano elevato: Quando gli annotatori non sono d'accordo, la previsione diventa instabile.
Valutazioni di mezzo: I punteggi intermedi (3.5-4.5) sono più difficili da prevedere rispetto agli estremi (1 o 5).
Contesti ingannevoli: Situazioni in cui il pre-testo suggerisce fortemente un senso, ma il finale ne conferma un altro, portando a errori catastrofici se il modello non bilancia correttamente i segnali.

Il codice è disponibile pubblicamente, offrendo una base solida per future ricerche su ensemble methods e gestione dei conflitti contestuali.