SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval is een nieuw, interpreteerbaar raamwerk dat multi-turn dialogsystemen evalueert door een semantisch kennisnetwerk stapsgewijs op te bouwen om langdurige inconsistenties en tegenstrijdigheden te detecteren via gestructureerde staatstracking, waardoor een hogere correlatie met menselijke beoordelingen wordt bereikt dan met bestaande vlakke of op afzonderlijke beurten gebaseerde metrieken.

Oorspronkelijke auteurs: Avijit Shil, Suman Samui

Gepubliceerd 2026-05-19✓ Author reviewed
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Avijit Shil, Suman Samui

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je zit in een lang, complex gesprek met een vriend. Je begint ermee akkoord te gaan dat "koffie heet is". Twee beurten later zegt je vriend: "Koffie is koud", en vijf beurten daarna beweren ze: "Koffie is een vast rotsblok".

Als je een standaard AI-evaluator was, zou die misschien elke zin op zichzelf bekijken. "Koffie is koud" klinkt als een normale zin. "Koffie is een vast rotsblok" klinkt grammaticaal correct. De AI zou je vriend misschien een hoge score geven voor beleefdheid en vloeiendheid, en volledig het feit missen dat ze zichzelf tegenstrijden en hun verstand verliezen.

Dit is het probleem dat SKG-Eval oplost. Het is een nieuwe manier om AI-gesprekken te beoordelen die minder werkt als een spellingcontrole en meer als een detective met een gigantisch, evoluerend whiteboard.

Hier is hoe het werkt, opgesplitst in eenvoudige concepten:

1. Het Probleem: De "Amnesische" Rechter

Huidige AI-rechters (zoals het vragen aan een superslimme AI om een andere AI te beoordelen) kijken meestal naar één zin tegelijk. Ze zijn als een rechter die alles vergeet wat vijf minuten geleden is gebeurd.

  • De Fout: Als een AI in Beurt 1 zegt "Ik hou van katten", en vervolgens in Beurt 10 "Ik haat katten", dan kan een standaard rechter dit missen omdat die te druk is met het kijken naar de grammatica van Beurt 10.
  • Het Resultaat: AI-systemen kunnen van onderwerp afdrijven, regels vergeten of zichzelf tegenstrijden zonder gestraft te worden.

2. De Oplossing: Het "Levende Whiteboard" (Semantisch Kennisnetwerk)

SKG-Eval leest niet alleen de tekst; het bouwt een kaart van het gesprek terwijl het plaatsvindt. Denk aan deze kaart als een gigantisch, levend whiteboard in een klaslokaal.

  • De Knopen (Post-its): Elke keer dat de AI een persoon, object of feit noemt (zoals "koffie", "stofwisseling" of "ontbijt overslaan"), schrijft het dit op een post-it en plakt het op het bord.
  • De Randen (Snoer): Het verbindt deze notities met een snoer om te laten zien hoe ze samenhangen (bijv. "Koffie" \rightarrow is heet \rightarrow "Vloeistof").
  • De Update: Naarmate het gesprek doorgaat, begint de AI niet met een nieuwe pagina; het voegt toe aan hetzelfde bord. Als de AI probeert te zeggen "Koffie is koud", ziet het systeem het snoer dat "Koffie" verbindt met "Heet" en ontdekt het direct het conflict.

3. Het Driedelige Scorebord

In plaats van één vage cijfer te geven, controleert SKG-Eval drie specifieke dingen voor elke nieuwe zin die de AI zegt:

  • A. Heb je de vraag beantwoord? (Lokale Relevantie)

    • Analogie: Heb je eigenlijk geluisterd naar wat ik zojuist vroeg?
    • Het controleert of de nieuwe zin overeenkomt met de huidige prompt. Als je vraagt "Wat is het weer?" en de AI zegt "Ik hou van pizza", dan daalt deze score.
  • B. Herinner je je het verleden? (Historische Consistentie)

    • Analogie: Heb je het nog steeds over hetzelfde onderwerp, of ben je afdwaald?
    • Het controleert of de nieuwe "post-its" verbinding maken met de oude op het whiteboard. Als het gesprek ging over "koffie" en de AI begint plotseling over "ruiterketen" te praten zonder brug, dan daalt de score.
  • C. Tegensprek je jezelf? (Logische Coherentie)

    • Analogie: Het "Gotcha!"-moment.
    • Dit is de superkracht. Het maakt gebruik van een Geometrisch Contradictie-motor. Stel je een robot voor die de "vorm" van de feiten meet. Als de vorm van "Koffie is heet" botst met de vorm van "Koffie is koud", dan markeert de robot dit.
    • Cruciaal Detail: Het maakt onderscheid tussen een fout en een correctie. Als je zegt "Verander de koffie in thee", begrijpt het systeem dat je het bord opzettelijk hebt bijgewerkt. Het straft de AI niet voor het volgen van jouw opdracht om de feiten te veranderen.

4. De "Recente Geheugen" Bonus

Het systeem weet dat gesprekken in de loop van de tijd veranderen. Het maakt gebruik van een Recentheid-gewogen Trend.

  • Analogie: Denk aan een rapportkaart van een student. Als ze maandag een 10 halen, dinsdag een 8 en vrijdag een 4, dan geeft de leraar meer om de 4 omdat die een trend laat zien van verslechteren.
  • SKG-Eval berekent de eindscore door de meest recente beurten zwaarder te wegen, zodat het kan vertellen of een gesprek verbetert of langzaam uit elkaar valt.

5. Waarom Dit Belangrijk Is (Het "Certificaat")

Wanneer een standaard AI-rechter zegt "Dit is slecht", is dat vaak een zwarte doos. Je weet niet waarom.
SKG-Eval geeft je een Contradictie-certificaat.

  • Analogie: In plaats van alleen te zeggen "Je bent gezakt", geeft het je een stuk papier dat zegt: "Je bent gezakt omdat je in Beurt 4 zei 'X is Y', maar in Beurt 1 had je al vastgesteld 'X is Z'. Hier is het exacte snoer op het whiteboard dat het bewijst."

Samenvatting

SKG-Eval is een tool die AI-evaluators verhindert "amnesici" te zijn. Door gesprekken om te zetten in een gestructureerde, visuele kaart van feiten en relaties, kan het opsporen:

  1. Contradicties (Tegengestelde dingen zeggen).
  2. Afdrijven (Het onderwerp veranderen zonder waarschuwing).
  3. Vergeten (Regels die eerder zijn vastgesteld, negeren).

Dit doet het zonder een "magische zwarte doos" AI nodig te hebben om het antwoord te raden. In plaats daarvan maakt het gebruik van een duidelijk, stap-voor-stap logisch systeem dat een score produceert die je echt kunt vertrouwen en controleren. Het is het verschil tussen een leraar die alleen even naar je huiswerk kijkt en een die je werk controleert tegen je aantekeningen van het begin van het semester.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →