NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Questo paper presenta il sistema NCL-UoR per SemEval-2026 Task 5, dimostrando che un approccio di prompting strutturato con regole decisionali esplicite supera i metodi basati su embedding e sul fine-tuning nel valutare la plausibilità dei sensi delle parole.

Tong Wu, Thanet Markchom, Huizhi Liang

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza competenze tecniche.

Immagina di essere un giudice di un concorso di racconti. Il compito non è dire "chi ha vinto", ma valutare quanto una certa interpretazione di una parola abbia senso in una storia specifica.

Il Gioco: "La Plausibilità della Parola"

Immagina una parola che può significare due cose diverse, come "anello".

  • Significato A: Un gioiello che si mette al dito.
  • Significato B: Il suono di un telefono che squilla.

Ora, ti viene raccontata una breve storia di 5 frasi. Alla fine, devi dire: "Quanto è probabile che qui 'anello' significhi il gioiello?". Dai un voto da 1 (assolutamente impossibile, come un pesce che vola) a 5 (perfettamente ovvio, come il sole che sorge).

Il problema è che le storie sono ambigue: a volte il contesto iniziale suggerisce una cosa, ma la frase finale ne conferma un'altra. È un gioco di logica sottile.

I Tre "Campioni" in Gara

Gli autori di questo studio hanno messo in gara tre tipi di "giudici" (computer) per vedere chi è il migliore nel dare questo voto:

1. Il "Calcolatore di Distanze" (Metodi basati su Embedding)

Immagina questo giudice come un archivista che usa un metro.
Prende la storia e il significato della parola, li trasforma in due "punti" su una mappa e misura la distanza tra di loro. Se sono vicini, dice "è probabile".

  • Il risultato: È stato un disastro. Come cercare di capire la trama di un film misurando solo la distanza tra le poltrone del cinema. Non capisce la storia, non capisce il contesto, si limita a fare calcoli matematici superficiali.

2. Il "Studente che Impara a Memoria" (Fine-Tuning)

Questo giudice è come uno studente universitario brillante che ha studiato migliaia di storie simili. Gli hanno insegnato a leggere e a capire le sfumature.

  • Il risultato: Va molto meglio dell'archivista. Capisce il contesto e le relazioni tra le frasi. Tuttavia, quando si trova di fronte a una storia nuova e strana che non ha mai visto, tende a confondersi o a fare errori perché si basa troppo su quello che ha imparato a memoria durante lo studio.

3. Il "Detective con una Checklist" (LLM con Prompting Strutturato)

Questo è il vincitore. Immagina un investigatore privato molto intelligente (una Intelligenza Artificiale avanzata come GPT-4o), ma con un trucco speciale: non gli si chiede solo "cosa pensi?", ma gli si dà una checklist rigorosa.
Invece di dire "leggi la storia e indovina", gli si dice:

  1. Analizza l'inizio: Cosa prepara il terreno?
  2. Analizza la frase chiave: Cosa dice esattamente la parola qui?
  3. Analizza la fine: Cosa conferma o smentisce tutto?
  4. Regola d'oro: "Se la fine contraddice l'inizio, il voto deve essere basso. Se c'è dubbio, scegli il voto più basso."
  • Il risultato: Questo detective vince a mani basse. Non ha bisogno di aver letto milioni di storie prima; basta che segua le regole logiche della checklist.

La Grande Scoperta: La Regola è più importante della Potenza

La cosa più sorprendente che hanno scoperto è che non serve il computer più potente, serve il metodo migliore.

  • Un modello "piccolo" ma con una checklist perfetta (il detective) batte un modello "gigante" che cerca di indovinare a caso.
  • È come dire che un cuoco con una ricetta precisa cucinerà un piatto migliore di un chef famoso che cucina "a sensazione" senza seguire le istruzioni.

Perché è importante?

Questo studio ci insegna che per risolvere problemi complessi di comprensione del linguaggio, non basta "buttare più dati" o "usare computer più potenti". La vera magia sta nel insegnare all'AI come ragionare, passo dopo passo, dandole regole chiare su come smontare un problema e ricomporlo.

In sintesi: Non è la forza bruta a vincere, è la strategia.