Immagina di essere seduto in una conversazione lunga e complessa con un amico. Inizi concordando che "il caffè è caldo". Due turni dopo, il tuo amico dice: "Il caffè è freddo", e poi cinque turni dopo ancora, afferma: "Il caffè è una roccia solida".

Se fossi un valutatore AI standard, potrebbe esaminare ogni frase isolatamente. "Il caffè è freddo" sembra una frase normale. "Il caffè è una roccia solida" sembra grammaticalmente corretta. L'AI potrebbe dare al tuo amico un punteggio alto per la cortesia e la fluidità, mancando completamente il fatto che si sta contraddicendo e perdendo il senno.

Questo è il problema che SKG-Eval risolve. È un nuovo modo per valutare le conversazioni AI che agisce meno come un correttore ortografico e più come un detective con una lavagna gigante ed evolutiva.

Ecco come funziona, scomposto in concetti semplici:

1. Il Problema: Il Giudice "Amnesico"

I giudici AI attuali (come chiedere a un'AI super-intelligente di valutare un'altra AI) guardano solitamente una frase alla volta. Sono come un giudice che dimentica tutto ciò che è accaduto cinque minuti prima.

Il Difetto: Se un'AI dice "Amo i gatti" al Turno 1, e poi "Odio i gatti" al Turno 10, un giudice standard potrebbe non notarlo perché è troppo occupato a guardare la grammatica del Turno 10.
Il Risultato: I sistemi AI possono allontanarsi dall'argomento, dimenticare le regole o contraddire se stessi senza essere penalizzati.

2. La Soluzione: La "Lavagna Vivente" (Grafo di Conoscenza Semantica)

SKG-Eval non si limita a leggere il testo; costruisce una mappa della conversazione mentre questa avviene. Immagina questa mappa come una lavagna gigante e vivente in una classe.

I Nodi (Post-it): Ogni volta che l'AI menziona una persona, un oggetto o un fatto (come "caffè", "metabolismo" o "saltare la colazione"), lo scrive su un post-it e lo attacca alla lavagna.
I Bordi (Filo): Legga questi appunti insieme con un filo per mostrare come si relazionano (es. "Caffè" $\rightarrow$ è caldo $\rightarrow$ "Liquido").
L'Aggiornamento: Mentre la conversazione continua, l'AI non inizia una nuova pagina; aggiunge alla stessa lavagna. Se l'AI cerca di dire "Il caffè è freddo", il sistema vede il filo che collega "Caffè" a "Caldo" e individua immediatamente il conflitto.

3. La Scheda di Valutazione in Tre Parti

Invece di dare un voto vago, SKG-Eval verifica tre cose specifiche per ogni nuova frase che l'AI dice:

A. Hai risposto alla domanda? (Rilevanza Locale)
- Analogia: Hai davvero ascoltato quello che ti ho appena chiesto?
- Verifica se la nuova frase corrisponde al prompt corrente. Se hai chiesto "Com'è il tempo?" e l'AI risponde "Mi piace la pizza", questo punteggio scende.
B. Ricordi il passato? (Coerenza Storica)
- Analogia: Stai ancora parlando dello stesso argomento o sei andato fuori tema?
- Verifica se i nuovi "post-it" si collegano a quelli vecchi sulla lavagna. Se la conversazione riguardava il "caffè" e improvvisamente l'AI inizia a parlare di "razzi spaziali" senza un ponte, il punteggio scende.
C. Ti stai contraddicendo? (Coerenza Logica)
- Analogia: Il momento "Ti ho beccato!".
- Questo è il superpotere. Utilizza un Motore Geometrico di Contraddizione. Immagina un robot che misura la "forma" dei fatti. Se la forma di "Il caffè è caldo" collide con la forma di "Il caffè è freddo", il robot lo segnala.
- Dettaglio Cruciale: Sa distinguere tra un errore e una correzione. Se dici: "Cambia il caffè con il tè", il sistema capisce che hai intenzionalmente aggiornato la lavagna. Non punisce l'AI per aver seguito il tuo ordine di cambiare i fatti.

4. Il Bonus della "Memoria Recente"

Il sistema sa che le conversazioni cambiano nel tempo. Utilizza una Trend Ponderata sulla Recenza.

Analogia: Pensa alla pagella di uno studente. Se prende un A lunedì, un B martedì e un E venerdì, l'insegnante si preoccupa di più dell'E perché mostra una tendenza al peggioramento.
SKG-Eval calcola il punteggio finale pesando i turni più recenti più fortemente, così può dire se una conversazione sta migliorando o lentamente crollando.

5. Perché Questo Importa (Il "Certificato")

Quando un giudice AI standard dice "Questo è brutto", spesso è una scatola nera. Non sai perché.
SKG-Eval ti fornisce un Certificato di Contraddizione.

Analogia: Invece di dire semplicemente "Hai fallito", ti consegna un foglio di carta che dice: "Hai fallito perché al Turno 4 hai detto 'X è Y', ma al Turno 1 avevi già stabilito 'X è Z'. Ecco il filo esatto sulla lavagna che lo prova."

Riepilogo

SKG-Eval è uno strumento che impedisce ai valutatori AI di essere "amnesici". Trasformando le conversazioni in una mappa strutturata e visiva di fatti e relazioni, può cogliere:

Contraddizioni (Dire cose opposte).
Deriva (Cambiare argomento senza preavviso).
Dimenticanza (Ignorare regole stabilite in precedenza).

Lo fa senza bisogno di un'AI "scatola nera magica" per indovinare la risposta. Invece, utilizza un sistema logico chiaro e passo-passo che produce un punteggio su cui puoi realmente fidarti e che puoi verificare. È la differenza tra un insegnante che dà solo un'occhiata ai tuoi compiti e uno che controlla il tuo lavoro confrontandolo con i tuoi appunti dall'inizio del semestre.

Riepilogo Tecnico: SKG-Eval

Enunciato del Problema

La valutazione dei sistemi di dialogo multi-turno presenta una sfida fondamentale: la qualità della risposta è intrinsecamente statale e temporale. Una risposta può apparire localmente fluida e pertinente ma fallire globalmente contraddicendo impegni precedenti, allontanandosi dall'intento originale dell'utente o dimenticando silenziosamente vincoli stabiliti. I paradigmi di valutazione automatica esistenti, inclusi i protocolli LLM-as-a-judge e le metriche basate su embedding, operano prevalentemente su rappresentazioni piatte o isolate per turno. Di conseguenza, faticano a rilevare in modo affidabile modalità di errore tra turni, come contraddizioni, deriva dell'argomento e incoerenza delle entità, specialmente quando le conversazioni si estendono oltre pochi turni. Inoltre, i giudici LLM soffrono di non-determinismo, pattern di attenzione inaffidabili su storie lunghe e scarsa capacità di richiamo per conflitti parafrasati o numerici.

Metodologia: SKG-Eval

Gli autori propongono SKG-Eval, un framework di valutazione quasi-deterministico e interpretabile che modella il dialogo come un Grafo di Conoscenza Semantica (SKG) in evoluzione. Invece di valutare una risposta rispetto a un prefisso testuale piatto, SKG-Eval aggiorna incrementalmente un grafo strutturato di entità, relazioni e impegni conversazionali ad ogni turno. Il framework calcola tre segnali complementari che vengono fusi e aggregati per produrre un punteggio a livello di sessione.

1. Grafo di Conoscenza Semantica Incrementale (SKG)

La rappresentazione di stato centrale è un multigrafo diretto $G_t = (V_t, E_t)$ aggiornato ad ogni turno $t$ .

Nodi: Rappresentano entità con attributi inclusi etichette normalizzate, tipi di entità (es. PERSONA, OGGETTO), embedding e punteggi di importanza.
Archi: Rappresentano affermazioni fattuali con metadati tipizzati (relazione, attributo, intento, tipo di proprietà).
Meccanismo di Aggiornamento: Nuove triple vengono estratte tramite una chiamata LLM deterministica. Il grafo esegue la deduplicazione tra turni (unendo nodi con alta similarità di embedding) e aggiunge archi semantici tra nodi nuovi ed esistenti basandosi sulla prossimità degli embedding.

2. Punteggio a Tre Componenti

Ad ogni turno vengono calcolati tre punteggi:

Pertinenza Locale ( $S^{\text{loc}}_t$ ): Misura l'allineamento con il prompt corrente e il riferimento opzionale. Utilizza un approccio "Triangolo Semantico", calcolando la massima similarità coseno tra le frasi della risposta e il prompt/riferimento, con gestione adattiva per risposte brevi o riferimenti mancanti.
Coerenza Storica ( $S^{\text{cons}}_t$ ): Quantifica come le nuove informazioni si connettono allo stato precedente. Combina:
- Punteggio di Ancoraggio al Grafo: Ponderato per l'importanza del nodo, misura se i nuovi nodi si connettono tramite archi fattuali (più forti), archi semantici, o sono derivati (isolati).
- Ancoraggio di Sessione: Un meccanismo di fallback che utilizza la similarità della risposta corrente con l'embedding del primo turno per catturare la continuità tematica nelle sessioni Q&A dove la disconnessione del grafo è strutturalmente attesa.
Coerenza Logica ( $S^{\text{log}}_t$ ): L'innovazione principale, calcolata da un Motore di Contraddizione Geometrica. Questo motore rileva incoerenze senza affidarsi a modelli NLI o giudici LLM per il ragionamento. Confronta gli archi correnti con gli archi storici utilizzando una cascata prioritizzata di rilevatori:
- Rilevatori Simbolici: Controlli ad alta precisione per inversioni di negazione, relazioni antonimiche e discrepanze numeriche.
- Rilevatori Geometrici: Controlli per conflitti di oggetti esclusivi e deriva semantica utilizzando similarità di embedding.
- Filtraggio Consapevole delle Revisioni: Identifica esplicitamente le revisioni autorizzate dall'utente (es. "cambia quello in...") e le esclude dai controlli di contraddizione per evitare di penalizzare aggiornamenti legittimi.

3. Fusione e Aggregazione

Fusione Adattiva al Regime: I tre punteggi sono combinati tramite una somma ponderata in cui i pesi dipendono dal regime di risposta (Breve, Q&A o Generale). Gate logici rigidi assicurano che le contraddizioni confermate non possano essere mascherate da punteggi di alta pertinenza.
Aggregazione a Livello di Sessione: Il punteggio finale della sessione $S(D)$ è derivato tramite una regressione ponderata per la recenza. Questo cattura sia il livello di qualità corrente (media ponderata) sia la tendenza temporale (pendenza), assicurando che il punteggio rifletta se la conversazione sta peggiorando o migliorando nel tempo, indipendentemente dalla lunghezza della sessione.

Contributi Chiave

Valutazione di Dialogo Statale tramite Memoria Semantica Esplicita: Formula la valutazione come ragionamento su un SKG in evoluzione, consentendo un'analisi strutturata delle dipendenze tra turni e della coerenza a lungo raggio.
Motore di Contraddizione Geometrica: Un framework deterministico e consapevole delle revisioni per rilevare incoerenze attraverso il confronto strutturato di relazioni e oggetti, producendo certificati di contraddizione interpretabili senza modelli NLI.
Coerenza Storica Ancorata al Grafo: Introduce una metrica che valuta la connettività semantica agli stati precedenti, potenziata da un meccanismo di ancoraggio di sessione per la continuità tematica.
Pertinenza Locale Robusta: Una metrica triangolata che considera congiuntamente l'allineamento al prompt e la copertura del riferimento con fallback adattivi.
Fusione Adattiva al Regime e Analisi delle Tendenze: Una strategia di ponderazione dinamica e un aggregatore di regressione ponderato per la recenza che cattura le tendenze di qualità nelle conversazioni lunghe.
Interpretabilità e Quasi-Determinismo: Fornisce tracce di audit esplicite (certificati di contraddizione, ancoraggi semantici) e punteggi deterministici dati input fissi, in contrasto con il non-determinismo dei giudici LLM.

Risultati Sperimentali

Gli autori hanno valutato SKG-Eval su MT-Bench (orizzonte breve) e MultiChallenge (orizzonte lungo), confrontandolo con baseline tra cui ECoh, LLM-Eval, DeepEval e varie configurazioni di Giudice GPT-4o.

Allineamento con Giudizi Umani: SKG-Eval ha raggiunto la correlazione più alta con le valutazioni umane su entrambi i benchmark. I guadagni sono stati più significativi su MultiChallenge, dove SKG-Eval ha superato la migliore baseline di giudice LLM consapevole della storia di +0.13 nella correlazione di Spearman per i punteggi a livello di sessione.
Rilevamento di Contraddizioni: Su un benchmark diagnostico controllato (SKG-PROBE) mirato a specifiche modalità di errore (negazione, antonimi, discrepanza numerica, deriva), SKG-Eval ha raggiunto un F1 medio del 79.8%, superando significativamente i giudici basati su LLM (60.4%) e altre baseline. Ha dimostrato un richiamo superiore nel rilevare sostituzioni numeriche e contraddizioni antonimiche.
Invarianza alla Lunghezza: Mentre le valutazioni baseline peggioravano all'aumentare della lunghezza della sessione, SKG-Eval ha mantenuto prestazioni stabili su tutti i bin di lunghezza grazie al suo recupero indicizzato dal grafo delle affermazioni storiche.
Efficienza Computazionale: SKG-Eval è significativamente più economico rispetto agli approcci LLM-as-a-judge (circa $0.71 contro $27.1 per 1.000 turni) ed è completamente riproducibile (deterministico), mentre i giudici LLM mostrano varianza tra i semi di decodifica.

Significato e Affermazioni

Il documento sostiene che il tracciamento dello stato esternalizzato tramite rappresentazioni strutturate è un'alternativa principiale al ragionamento implicito utilizzato nei valutatori basati su LLM per i sistemi di dialogo a orizzonte lungo.

Colmare il Divario: SKG-Eval colma il vuoto di un valutatore che mantiene uno stato esplicito e timestampato degli impegni fattuali, rileva contraddizioni tra turni in modo deterministico e interpretabile, e aggrega la qualità in modo invariante alla lunghezza.
Interpretabilità: A differenza dei giudici "scatola nera", SKG-Eval produce certificati di contraddizione che identificano esplicitamente gli archi conflittuali, il tipo di rilevatore e la confidenza, consentendo valutazioni verificabili e curatela dei dataset.
Scalabilità: Disaccoppiando il tracciamento dello stato dal meccanismo di punteggio, il framework scala a conversazioni lunghe dove il prompting ripetuto di LLM diventa computazionalmente proibitivo e soggetto a limitazioni della finestra di contesto.
Limitazioni: Gli autori riconoscono che il framework dipende dalla qualità dell'estrazione delle triple semantiche a monte ed è ottimizzato principalmente per incoerenze semantiche esplicite piuttosto che per contraddizioni pragmatiche profonde che richiedono conoscenze esterne del mondo.

In conclusione, gli autori sostengono che SKG-Eval offra un metodo scalabile, riproducibile e interpretabile per valutare la coerenza e la coerenza dei sistemi di dialogo multi-turno, in particolare in scenari dove la coerenza logica a lungo raggio è critica.

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs