Oorspronkelijke auteurs: Avijit Shil, Suman Samui

Gepubliceerd 2026-05-19✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Avijit Shil, Suman Samui

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je zit in een lang, complex gesprek met een vriend. Je begint ermee akkoord te gaan dat "koffie heet is". Twee beurten later zegt je vriend: "Koffie is koud", en vijf beurten daarna beweren ze: "Koffie is een vast rotsblok".

Als je een standaard AI-evaluator was, zou die misschien elke zin op zichzelf bekijken. "Koffie is koud" klinkt als een normale zin. "Koffie is een vast rotsblok" klinkt grammaticaal correct. De AI zou je vriend misschien een hoge score geven voor beleefdheid en vloeiendheid, en volledig het feit missen dat ze zichzelf tegenstrijden en hun verstand verliezen.

Dit is het probleem dat SKG-Eval oplost. Het is een nieuwe manier om AI-gesprekken te beoordelen die minder werkt als een spellingcontrole en meer als een detective met een gigantisch, evoluerend whiteboard.

Hier is hoe het werkt, opgesplitst in eenvoudige concepten:

1. Het Probleem: De "Amnesische" Rechter

Huidige AI-rechters (zoals het vragen aan een superslimme AI om een andere AI te beoordelen) kijken meestal naar één zin tegelijk. Ze zijn als een rechter die alles vergeet wat vijf minuten geleden is gebeurd.

De Fout: Als een AI in Beurt 1 zegt "Ik hou van katten", en vervolgens in Beurt 10 "Ik haat katten", dan kan een standaard rechter dit missen omdat die te druk is met het kijken naar de grammatica van Beurt 10.
Het Resultaat: AI-systemen kunnen van onderwerp afdrijven, regels vergeten of zichzelf tegenstrijden zonder gestraft te worden.

2. De Oplossing: Het "Levende Whiteboard" (Semantisch Kennisnetwerk)

SKG-Eval leest niet alleen de tekst; het bouwt een kaart van het gesprek terwijl het plaatsvindt. Denk aan deze kaart als een gigantisch, levend whiteboard in een klaslokaal.

De Knopen (Post-its): Elke keer dat de AI een persoon, object of feit noemt (zoals "koffie", "stofwisseling" of "ontbijt overslaan"), schrijft het dit op een post-it en plakt het op het bord.
De Randen (Snoer): Het verbindt deze notities met een snoer om te laten zien hoe ze samenhangen (bijv. "Koffie" $\rightarrow$ is heet $\rightarrow$ "Vloeistof").
De Update: Naarmate het gesprek doorgaat, begint de AI niet met een nieuwe pagina; het voegt toe aan hetzelfde bord. Als de AI probeert te zeggen "Koffie is koud", ziet het systeem het snoer dat "Koffie" verbindt met "Heet" en ontdekt het direct het conflict.

3. Het Driedelige Scorebord

In plaats van één vage cijfer te geven, controleert SKG-Eval drie specifieke dingen voor elke nieuwe zin die de AI zegt:

A. Heb je de vraag beantwoord? (Lokale Relevantie)
- Analogie: Heb je eigenlijk geluisterd naar wat ik zojuist vroeg?
- Het controleert of de nieuwe zin overeenkomt met de huidige prompt. Als je vraagt "Wat is het weer?" en de AI zegt "Ik hou van pizza", dan daalt deze score.
B. Herinner je je het verleden? (Historische Consistentie)
- Analogie: Heb je het nog steeds over hetzelfde onderwerp, of ben je afdwaald?
- Het controleert of de nieuwe "post-its" verbinding maken met de oude op het whiteboard. Als het gesprek ging over "koffie" en de AI begint plotseling over "ruiterketen" te praten zonder brug, dan daalt de score.
C. Tegensprek je jezelf? (Logische Coherentie)
- Analogie: Het "Gotcha!"-moment.
- Dit is de superkracht. Het maakt gebruik van een Geometrisch Contradictie-motor. Stel je een robot voor die de "vorm" van de feiten meet. Als de vorm van "Koffie is heet" botst met de vorm van "Koffie is koud", dan markeert de robot dit.
- Cruciaal Detail: Het maakt onderscheid tussen een fout en een correctie. Als je zegt "Verander de koffie in thee", begrijpt het systeem dat je het bord opzettelijk hebt bijgewerkt. Het straft de AI niet voor het volgen van jouw opdracht om de feiten te veranderen.

4. De "Recente Geheugen" Bonus

Het systeem weet dat gesprekken in de loop van de tijd veranderen. Het maakt gebruik van een Recentheid-gewogen Trend.

Analogie: Denk aan een rapportkaart van een student. Als ze maandag een 10 halen, dinsdag een 8 en vrijdag een 4, dan geeft de leraar meer om de 4 omdat die een trend laat zien van verslechteren.
SKG-Eval berekent de eindscore door de meest recente beurten zwaarder te wegen, zodat het kan vertellen of een gesprek verbetert of langzaam uit elkaar valt.

5. Waarom Dit Belangrijk Is (Het "Certificaat")

Wanneer een standaard AI-rechter zegt "Dit is slecht", is dat vaak een zwarte doos. Je weet niet waarom.
SKG-Eval geeft je een Contradictie-certificaat.

Analogie: In plaats van alleen te zeggen "Je bent gezakt", geeft het je een stuk papier dat zegt: "Je bent gezakt omdat je in Beurt 4 zei 'X is Y', maar in Beurt 1 had je al vastgesteld 'X is Z'. Hier is het exacte snoer op het whiteboard dat het bewijst."

Samenvatting

SKG-Eval is een tool die AI-evaluators verhindert "amnesici" te zijn. Door gesprekken om te zetten in een gestructureerde, visuele kaart van feiten en relaties, kan het opsporen:

Contradicties (Tegengestelde dingen zeggen).
Afdrijven (Het onderwerp veranderen zonder waarschuwing).
Vergeten (Regels die eerder zijn vastgesteld, negeren).

Dit doet het zonder een "magische zwarte doos" AI nodig te hebben om het antwoord te raden. In plaats daarvan maakt het gebruik van een duidelijk, stap-voor-stap logisch systeem dat een score produceert die je echt kunt vertrouwen en controleren. Het is het verschil tussen een leraar die alleen even naar je huiswerk kijkt en een die je werk controleert tegen je aantekeningen van het begin van het semester.

Technische Samenvatting: SKG-Eval

Probleemstelling

Het evalueren van meer-draads dialoogsystemen vormt een fundamentele uitdaging: de kwaliteit van een reactie is intrinsiek staat-afhankelijk en temporair. Een reactie kan lokaal vloeiend en relevant lijken, maar globaal falen door tegenstrijdigheden met eerdere toezeggingen, afwijkingen van de oorspronkelijke intentie van de gebruiker, of het stilzwijgend vergeten van vastgestelde beperkingen. Bestaande automatische evaluatieparadigma's, waaronder LLM-as-a-judge-protocollen en op embedding gebaseerde metrieken, werken grotendeels op platte of draad-geïsoleerde representaties. Bijgevolg hebben ze moeite om betrouwbaar foutmodi over draadgrenzen heen te detecteren, zoals tegenstrijdigheden, onderwerpverschuivingen en inconsistenties in entiteiten, vooral naarmate gesprekken verder gaan dan een paar draadjes. Bovendien lijden LLM-rechters onder niet-determinisme, onbetrouwbare aandachtspatronen over lange geschiedenissen en een slechte recall voor paraphraseringen of numerieke conflicten.

Methodologie: SKG-Eval

De auteurs stellen SKG-Eval voor, een quasi-deterministisch en interpreteerbaar evaluatiekader dat dialoog modelleert als een evoluerend Semantisch Kennisnetwerk (SKG). In plaats van een reactie te scoren tegen een platte tekstprefix, update SKG-Eval incrementeel een gestructureerd graf van entiteiten, relaties en conversationele toezeggingen bij elke draad. Het kader berekent drie complementaire signalen die worden gefuseerd en geaggregeerd om een sessieniveau-score te produceren.

1. Incrementeel Semantisch Kennisnetwerk (SKG)

De kernstaatsrepresentatie is een gerichte multigraf $G_t = (V_t, E_t)$ die bij elke draad $t$ wordt bijgewerkt.

Knopen: Representeren entiteiten met attributen, waaronder genormaliseerde labels, entiteitstypen (bijv. PERSOON, OBJECT), embedding's en belangrijkheidsscores.
Randen: Representeren feitelijke claims met getypeerde metadata (relatie, attribuut, intentie, eigenschapstype).
Update-mechanisme: Nieuwe triples worden geëxtraheerd via een deterministische LLM-aanroep. De graf voert cross-draad deduplicatie uit (samenvoegen van knopen met hoge embedding-ähnelijkheid) en voegt semantische randen toe tussen nieuwe en bestaande knopen op basis van embedding-proximaliteit.

2. Drie-componenten Scoren

Bij elke draad worden drie scores berekend:

Lokale Relevantie ( $S^{\text{loc}}_t$ ): Meet de uitlijning met de huidige prompt en optionele referentie. Het maakt gebruik van een "Semantische Driehoek"-benadering, waarbij de maximale cosinus-ähnelijkheid wordt berekend tussen de zinnen van de reactie en de prompt/referentie, met adaptieve verwerking voor korte reacties of ontbrekende referenties.
Historische Consistentie ( $S^{\text{cons}}_t$ ): Kwantificeert hoe nieuwe informatie verbinding maakt met de vorige staat. Het combineert:
- Graf-Anker Score: Gewogen op basis van knopenbelang, meet of nieuwe knopen verbinding maken via feitelijke randen (sterkst), semantische randen, of geïsoleerd zijn (afgedwaald).
- Sessie-Anker: Een fallback-mechanisme dat de ähnelijkheid van de huidige reactie met de embedding van de eerste draad gebruikt om thematische continuïteit vast te leggen in Q&A-sessies waarbij grafdisconnectie structureel wordt verwacht.
Logische Coherentie ( $S^{\text{log}}_t$ ): De primaire innovatie, berekend door een Geometrisch Contradictie-Engine. Deze engine detecteert inconsistenties zonder te vertrouwen op NLI-modellen of LLM-rechters voor redenering. Het vergelijkt huidige randen met historische randen met behulp van een geprioriteerde cascade van detectoren:
- Symbolische Detectoren: Hoog-precisie controles voor ontkenning-omkeringen, antonieme relaties en numerieke mismatches.
- Geometrische Detectoren: Controles op exclusieve-objectconflicten en semantische drift met behulp van embedding-ähnelijkheden.
- Herzienings-bewuste Filtering: Identificeert expliciet door de gebruiker geautoriseerde herzieningen (bijv. "verander dat naar...") en sluit deze uit van contradictiecontroles om legitieme updates niet te bestraffen.

3. Fusie en Aggregatie

Regime-adaptieve Fusie: De drie scores worden gecombineerd via een gewogen som waarbij de gewichten afhankelijk zijn van het reactieregime (Kort, Q&A of Algemeen). Harde logische poorten zorgen ervoor dat bevestigde contradicties niet kunnen worden gemaskeerd door hoge relevantiescores.
Sessieniveau Aggregatie: De uiteindelijke sessiescore $S(D)$ wordt afgeleid via een recency-gewogen regressie. Dit vangt zowel het huidige kwaliteitsniveau (gewogen gemiddelde) als de temporele trend (helling) op, zodat de score weerspiegelt of het gesprek verslechtert of verbetert in de tijd, onafhankelijk van de sessielengte.

Belangrijkste Bijdragen

Staat-afhankelijke Dialoogevaluatie via Expliciet Semantisch Geheugen: Formuleert evaluatie als redeneren over een evoluerend SKG, waardoor gestructureerde analyse van cross-draad afhankelijkheden en lange-afstand consistentie mogelijk wordt.
Geometrisch Contradictie-Engine: Een deterministisch, herzienings-bewust kader voor het detecteren van inconsistenties door gestructureerde vergelijking van relaties en objecten, wat interpreteerbare contradictiecertificaten oplevert zonder NLI-modellen.
Graf-geankerde Historische Consistentie: Introduceert een metriek die semantische connectiviteit met eerdere staten evalueert, verrijkt met een sessie-ankermechanisme voor thematische continuïteit.
Robuuste Lokale Relevantie: Een getrianguleerde metriek die gezamenlijk prompt-uitlijning en referentie-dekking overweegt met adaptieve fallbacks.
Regime-adaptieve Fusie en Trendanalyse: Een dynamische wegingstrategie en een recency-gewogen regressie-aggregator die kwaliteits-trends over lange gesprekken vastlegt.
Interpreteerbaarheid en Quasi-determinisme: Biedt expliciete audit-trails (contradictiecertificaten, semantische ankers) en deterministische scores bij vaste inputs, in contrast met het niet-determinisme van LLM-rechters.

Experimentele Resultaten

De auteurs hebben SKG-Eval geëvalueerd op MT-Bench (kort-horizon) en MultiChallenge (lang-horizon), en dit vergeleken met baselines waaronder ECoh, LLM-Eval, DeepEval en diverse GPT-4o Judge-configuraties.

Uitlijning met Menselijke Beoordelingen: SKG-Eval behaalde de hoogste correlatie met menselijke ratings op beide benchmarks. De winst was het meest significant op MultiChallenge, waar SKG-Eval de beste history-aware LLM-rechter baseline overtrof met +0,13 in Spearman-correlatie voor sessieniveau-scores.
Contradictie-detectie: Op een gecontroleerd diagnostisch benchmark (SKG-PROBE) gericht op specifieke foutmodi (ontkenning, antoniemen, numerieke mismatch, drift), bereikte SKG-Eval een gemiddelde F1 van 79,8%, wat significant beter was dan LLM-gebaseerde rechters (60,4%) en andere baselines. Het toonde een superieure recall bij het detecteren van numerieke substituties en antonieme contradicties.
Lengte-invariantie: Terwijl baselines-evaluatoren degradeerden naarmate de sessielengte toenam, behield SKG-Eval stabiele prestaties over alle lengte-bins dankzij zijn graf-geïndexeerde ophaling van historische claims.
Berekenings-efficiëntie: SKG-Eval is aanzienlijk goedkoper dan LLM-as-a-judge-benaderingen (ongeveer $0,71 versus $27,1 voor 1.000 draadjes) en is volledig reproduceerbaar (deterministisch), terwijl LLM-rechters variatie vertonen over decoding-zaden.

Betekenis en Claims

Het artikel betoogt dat geëxternaliseerde staat-tracking via gestructureerde representaties een principieel alternatief is voor het impliciete redeneren dat wordt gebruikt in LLM-gebaseerde evaluators voor lang-horizon dialoogsystemen.

Aanpakken van de Kloof: SKG-Eval vult de kloof van een evaluator die een expliciete, tijdstempelde staat van feitelijke toezeggingen bijhoudt, cross-draad contradicties deterministisch en interpreteerbaar detecteert, en kwaliteit op een lengte-invariante manier aggregeert.
Interpreteerbaarheid: In tegenstelling tot "black-box"-rechters, produceert SKG-Eval contradictiecertificaten die expliciet de conflicterende randen, het detectortype en het vertrouwen identificeren, wat controleerbare evaluatie en dataset-curatie mogelijk maakt.
Schaalbaarheid: Door staat-tracking te ontkoppelen van het scoremechanisme, schaalt het kader naar lange gesprekken waarbij herhaalde LLM-prompting computationeel onbetaalbaar wordt en vatbaar voor contextvenster-beperkingen.
Beperkingen: De auteurs erkennen dat het kader afhankelijk is van de kwaliteit van de upstream semantische triple-extractie en primair is geoptimaliseerd voor expliciete semantische inconsistentie in plaats van diepe pragmatische contradicties die externe wereldkennis vereisen.

Concluderend stellen de auteurs dat SKG-Eval een schaalbare, reproduceerbare en interpreteerbare methode biedt voor het evalueren van de consistentie en coherentie van meer-draads dialoogsystemen, met name in scenario's waar lange-afstand logische consistentie kritiek is.

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs