SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

Dit paper introduceert SEVADE, een zelfevoluerend multi-agent framework met ontkoppelde evaluatie dat hallucinaties vermindert en state-of-the-art prestaties bereikt bij de detectie van sarcasme door middel van een dynamische agentieve redeneermotor en een gescheiden rationele adjudicator.

Ziqi Liu, Ziyang Zhou, Yilin Li, Mingxuan Hu, Yushan Pan, Zhijie Xu, Yangbin Chen

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gesprek aan het lezen bent en iemand zegt: "Oh, wat een briljant idee, ik ga nu gewoon mijn huis in brand steken om het warm te houden."

Een simpele computer zou denken: "Klinkt als een goed plan!" en het als serieus nemen. Maar een mens denkt direct: "Nee, dat is sarcasme! Hij bedoelt het precies andersom."

Het is heel moeilijk voor kunstmatige intelligentie (AI) om dit soort ironie te begrijpen. Vaak raakt de AI in de war, maakt hij "hallucinaties" (hij verzint dingen die niet waar zijn) of kijkt hij alleen maar naar één kant van het verhaal.

De auteurs van dit paper hebben een nieuwe oplossing bedacht, genaamd SEVADE. Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. Het Probleem: De Eenzame Detective

Vroeger probeerde één grote AI (zoals een super-intelligente detective) het hele verhaal in één keer te analyseren.

  • Het probleem: Deze detective kijkt vaak maar door één bril (bijvoorbeeld alleen naar de woorden, niet naar de toon). Als hij twijfelt, verzint hij soms een antwoord om de vraag te beantwoorden, in plaats van eerlijk te zeggen: "Ik weet het niet zeker." Dit noemen ze hallucinaties.

2. De Oplossing: Het Team van Speciale Expertise

In plaats van één detective, heeft SEVADE een team van zes gespecialiseerde detectives (agenten) die samenwerken. Iedereen heeft een andere bril op:

  • De Woord-Bril: Kijkt of de woorden botsen met de werkelijkheid (bijv. "Wat een mooi weer" terwijl het stormt).
  • De Emotie-Bril: Kijkt of de emotie niet klopt met de situatie.
  • De Context-Bril: Kijkt naar de situatie en de geschiedenis van het gesprek.
  • De Internet-Bril: Zoekt online of er extra achtergrondinformatie nodig is.

3. Hoe het Team Werkt: De "DARE"-Methode

Dit team werkt niet statisch. Ze hebben een Teamleider (de Controller).

  1. Start: De Teamleider roept de agenten die nodig zijn voor dat specifieke gesprek.
  2. Twijfel oplossen: Als een agent twijfelt (bijvoorbeeld: "Is dit nu sarcastisch of niet?"), zegt de Teamleider: "Oké, jij bent de twijfelaar. Kijk eens naar wat de anderen zeggen en pas je mening aan."
  3. Uitbreiden: Als het team het nog steeds niet eens wordt, roept de Teamleider een nieuwe agent bij die ze nog niet hadden gebruikt, om een heel nieuw perspectief te geven.
  4. Samenvatten: Uiteindelijk maken ze een gestructureerd verslag van hun redenering: "Wij denken dat dit sarcastisch is, omdat X, Y en Z..."

4. De Scheiding: De "Rechter" (Rationale Adjudicator)

Dit is het slimste deel van SEVADE.

  • In de oude methoden deed de AI het denken én het oordeel in één keer. Dat leidt tot fouten.
  • Bij SEVADE is er een scheiding.
    • Het Team doet alleen het denken en maakt het verslag.
    • Een kleine, simpele Rechter kijkt alleen naar dat verslag en zegt dan pas: "Ja, dit is sarcastisch" of "Nee, dit is niet sarcastisch."

De Metafoor:
Stel je voor dat je een rechtszaak hebt.

  • De Teamleider en Agenten zijn de advocaten en getuigen die alle feiten onderzoeken, discussiëren en een dossier opstellen.
  • De Rechter (de kleine AI) leest alleen dat dossier. Hij hoeft niet zelf na te denken over de woorden of de toon; hij vertrouwt op de logica van het dossier.
  • Waarom is dit goed? Omdat de Rechter niet kan "hallucineren" door de woorden van de getuigen te verwarren. Hij kijkt puur naar de logica van het verslag. Dit maakt de beslissing veel betrouwbaarder.

Wat is het resultaat?

De onderzoekers hebben dit systeem getest op vier verschillende moeilijkheidsgraden van sarcasme. Het resultaat?

  • Het systeem is veel beter dan de beste bestaande methoden (ongeveer 7% beter).
  • Het is slimmer in het begrijpen van context (het weet wanneer iemand echt boos is en wanneer hij het maar grappig bedoelt).
  • Het maakt minder fouten door hallucinaties.

Kortom: SEVADE is als een slimme redactie van een krant. In plaats van één journalist die alles schrijft en soms dingen verzint, hebben ze een team van experts die elkaar controleren, een verslag maken, en een onafhankelijke redacteur die alleen dat verslag leest om de kop te bepalen. Zo komt de waarheid het dichtst bij de feiten.