COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

Immagina di leggere una storia breve e di imbatterti in una parola che può avere due significati molto diversi. Ad esempio, la parola "banco". Potrebbe essere un posto dove sedersi in una scuola, o potrebbe essere un luogo dove si depositano i soldi.

In una storia normale, il contesto ti dice subito quale dei due significati è quello giusto. Ma gli autori di questo studio hanno creato una sfida speciale: hanno scritto storie in cui entrambi i significati sono possibili, ma uno è leggermente più probabile dell'altro, a seconda di come finisce la storia.

Il compito del loro sistema (chiamato COGNAC) era quello di fare il "giudice": leggere la storia e dire, su una scala da 1 a 5, quanto è plausibile che la parola abbia un certo significato.

1 significa: "Assolutamente impossibile".
5 significa: "È l'unico senso che ha senso".
3 significa: "È uno dei tanti modi validi per interpretarla".

Il problema è che gli esseri umani non sono tutti uguali. Se chiedi a 5 persone di leggere la stessa storia, potrebbero dare voti diversi (uno dice 4, un altro 2, un altro 5). Non c'è una risposta "giusta" in senso assoluto, ma solo una media delle opinioni umane.

Ecco come hanno risolto il problema i ricercatori, usando l'intelligenza artificiale (LLM):

1. Tre modi per chiedere all'IA di pensare

Hanno provato tre strategie diverse per "parlare" con l'intelligenza artificiale:

Il metodo "Fai da te" (Zero-shot): Hanno semplicemente chiesto all'IA: "Quanto è plausibile questo significato?". È come chiedere a un amico: "Secondo te, questa frase ha senso?". È veloce, ma a volte l'IA sbaglia perché non ci ha pensato abbastanza.
Il metodo "Passo dopo passo" (Chain-of-Thought): Hanno chiesto all'IA di spiegare il suo ragionamento prima di dare il voto. "Prima analizza la grammatica, poi il contesto, poi confronta le opzioni...". È come chiedere a uno studente di scrivere tutti i passaggi di un problema di matematica prima di dare la soluzione. Risultato: Non ha funzionato bene. L'IA diventava troppo logica e analitica, perdendo l'intuizione umana che invece è fondamentale per capire le sfumature di una storia.
Il metodo "Confronto diretto" (Comparative): Questa è stata la mossa vincente. Invece di chiedere all'IA di giudicare un significato da solo, gli hanno detto: "Ecco due significati possibili per la parola 'banco' in questa storia. Quale dei due è più probabile? Dai un voto a entrambi". È come chiedere a un giudice di confrontare due candidati per un lavoro invece di valutare uno alla volta. Questo ha aiutato l'IA a capire meglio le sfumature, proprio come farebbe un umano.

2. Il trucco del "Comitato di Giudici" (Ensemble)

Qui arriva la parte più interessante. Hanno notato che, anche con il metodo migliore, un singolo modello di IA non riusciva a imitare perfettamente la media delle opinioni umane, perché l'IA tende a essere troppo sicura di sé.

La soluzione? Hanno creato un "comitato".
Invece di usare un solo modello di IA, ne hanno usati dieci diversi (alcuni molto potenti, altri più piccoli e veloci). Hanno fatto fare il compito a tutti e poi hanno fatto la media dei loro voti.

È come se invece di chiedere il parere a un solo esperto, avessi chiesto a 10 persone diverse (un medico, un ingegnere, un artista, un cuoco...) e avessi fatto la media delle loro risposte.

Se uno sbaglia, un altro potrebbe avere ragione.
Se uno è troppo severo e un altro troppo gentile, la media si avvicina alla verità.

Il Risultato

Grazie a questo "comitato di IA" che confronta le opzioni, il sistema COGNAC è riuscito a imitare le opinioni umane con una precisione incredibile.

Nella gara ufficiale, sono arrivati 4º su tutti i partecipanti.
Dopo la gara, aggiungendo altri modelli al "comitato", hanno migliorato ulteriormente il punteggio, arrivando quasi al livello del primo classificato.

In sintesi

Questo studio ci insegna due cose importanti:

Quando si tratta di capire le sfumature umane (come in una storia), è meglio chiedere all'IA di confrontare le opzioni piuttosto che analizzarle singolarmente.
Per compiti dove le opinioni umane variano molto, un gruppo di intelligenze artificiali che lavorano insieme (anche se sono modelli piccoli) funziona meglio di un singolo "super-cervello". È la vecchia massima: "L'unione fa la forza", applicata all'intelligenza artificiale.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Valutazione della Plausibilità del Senso in Narrativa

Il paper affronta la Task 5 di SemEval-2026, basata sul dataset AmbiStory. A differenza della tradizionale Disambiguazione del Senso delle Parole (WSD), che cerca una singola etichetta corretta, questo compito richiede di valutare la plausibilità di diversi sensi di un omònimo all'interno di brevi storie.

Contesto: Le storie sono costruite in modo ambiguo, dove i sensi concorrenti possono essere tutti plausibili in misura diversa.
Compito: Dato un contesto narrativo e un senso candidato, il sistema deve assegnare un punteggio di plausibilità su una scala Likert a 5 punti (da 1 "implausibile" a 5 "unico senso plausibile").
Sfida Principale: Le annotazioni umane (gold standard) mostrano un'alta variabilità inter-annotatore (Krippendorff's $\alpha$ = 0.506). Spesso, annotatori diversi assegnano punteggi molto diversi (es. 1 e 5) allo stesso senso nella stessa storia. L'obiettivo non è indovinare un "vero" senso, ma allinearsi alla media dei giudizi umani e alla loro distribuzione.
Metriche di Valutazione: La valutazione è basata sulla media non ponderata di due metriche:
1. Accuratezza: Percentuale di previsioni entro una deviazione standard dalla media dei giudizi umani.
2. Correlazione di Spearman: Correlazione di rango tra le previsioni del modello e i giudizi umani medi.

2. Metodologia

Gli autori hanno esplorato tre strategie di prompting utilizzando dieci modelli linguistici (LLM) chiusi (commerciali) e hanno proposto un approccio di ensemble per gestire la variabilità umana.

A. Strategie di Prompting

Sono state testate tre modalità di interazione con i modelli:

Zero-shot (Baseline): Un prompt diretto che chiede al modello di valutare il senso senza esempi few-shot (per ridurre costi e lunghezza del contesto) e richiede una breve giustificazione in formato JSON.
Chain-of-Thought (CoT): Una strategia strutturata che guida il modello attraverso 5 passaggi di ragionamento esplicito (analisi del contesto, ruolo grammaticale, adattamento semantico, confronto con sensi alternativi, assegnazione del punteggio). L'obiettivo era ridurre il bias della "prima interpretazione".
Prompting Comparativo: Una strategia innovativa in cui il modello riceve entrambi i sensi candidati simultaneamente per lo stesso contesto. Il modello deve assegnare un punteggio a entrambi, costringendolo a un confronto diretto. Questo si allinea meglio alla natura relativa della definizione dei punteggi nella scala Likert (es. "meno plausibile degli altri").

B. Ensemble di Modelli

Riconoscendo che un singolo modello fatica a replicare la media soggettiva di più annotatori umani, gli autori hanno proposto un ensemble di LLM.

Meccanismo: Le previsioni di diversi modelli (e diverse strategie di prompting) vengono aggregate calcolando la media non ponderata.
Configurazioni: Sono stati creati ensemble specifici per ogni strategia ( $E_{zeroshot}$ , $E_{CoT}$ , $E_{comp}$ ) e un ensemble globale ( $E_{all}$ ) che combina tutte le previsioni.

3. Risultati Sperimentali

Performance dei Singoli Modelli (Set di Sviluppo)

Il prompting comparativo ha costantemente superato sia la baseline zero-shot che il CoT per la maggior parte dei modelli (9 su 10).
Il CoT ha mostrato risultati misti; in alcuni modelli più grandi (es. DeepSeek-v3.2, gpt-5.1) ha migliorato le prestazioni, ma in generale non ha superato la baseline, suggerendo che il ragionamento passo-passo può talvolta allontanare il modello dall'intuizione umana soggettiva.
Il modello singolo migliore è stato gpt-5-mini con il prompt zero-shot (Accuratezza: 0.83, $\rho$ : 0.80, Media: 0.81).

Performance degli Ensemble

L'approccio di ensemble ha dimostrato un miglioramento significativo rispetto ai singoli modelli.
L'ensemble $E_{all}$ (che include tutti i modelli e tutte le strategie) ha ottenuto i risultati migliori sul set di sviluppo: Accuratezza 0.89, $\rho$ 0.84, Punteggio Medio 0.87.
Risultato Post-Competizione: Aggiungendo quattro modelli aggiuntivi non disponibili durante la competizione, le prestazioni sono ulteriormente migliorate fino a 0.92 di accuratezza e 0.85 di Spearman (Media: 0.89).
Impatto degli Ensemble di Modelli Piccoli: È stato notato che ensemble composti anche da modelli più piccoli e meno capaci (es. gemini-2.0-flash, gpt-4o-mini) potevano raggiungere prestazioni competitive (media 0.812) rispetto ai singoli modelli più grandi, grazie alla riduzione della varianza.

Risultati Ufficiali (Test Set)

La sottomissione ufficiale (ensemble con 6 modelli iniziali) si è classificata 4ª nella classifica con un punteggio medio di 0.86 (0.88 Accuratezza, 0.83 $\rho$ ).
Le sperimentazioni successive hanno portato il punteggio a 0.89, allineandolo con la prima posizione della classifica.

4. Contributi Chiave

Valutazione Comparativa: Dimostrazione che valutare i sensi concorrenti in un'unica richiesta (comparative prompting) è superiore alla valutazione isolata per compiti di plausibilità soggettiva.
Efficacia degli Ensemble: Evidenza empirica che l'ensembling di LLM è una strategia cruciale per allinearsi ai giudizi umani medi in compiti caratterizzati da alta variabilità di annotazione, superando spesso i modelli singoli più potenti.
Analisi del CoT: L'osservazione che il Chain-of-Thought non è sempre benefico per giudizi soggettivi e può talvolta degradare le prestazioni rispetto a un approccio più diretto.

5. Significato e Conclusioni

Il lavoro di COGNAC sottolinea che per i compiti di valutazione semantica soggettiva, dove non esiste una "verità" assoluta ma una distribuzione di opinioni umane, l'aggregazione di diverse prospettive (ensemble) è più efficace della ricerca di un singolo modello "perfetto".
Il sistema dimostra che è possibile raggiungere un livello di allineamento con i giudizi umani quasi perfetto (0.89) combinando modelli commerciali e strategie di prompting comparative. Questo suggerisce che per l'annotazione semantica su larga scala, l'uso di ensemble di LLM potrebbe sostituire o integrare efficacemente grandi panel di annotatori umani, riducendo costi e tempi pur mantenendo alta la qualità della valutazione.

Limitazioni: Il sistema dipende da API commerciali (costi, riproducibilità limitata), non ha utilizzato il set di training completo per vincoli di costo/tempo, e l'approccio ensemble aumenta la latenza e il costo computazionale durante l'inferenza.