Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation

Kestrel is een trainingsvrij kader dat hallucinaties in grote visueel-taalmodellen vermindert door een agent voor visuele gronding te combineren met een mechanisme voor zelfverfijning op basis van bewijs, wat leidt tot aanzienlijk betere prestaties en transparante verificatietraces.

Jiawei Mao, Hardy Chen, Haoqin Tu, Yuhan Wang, Letian Zhang, Zeyu Zheng, Huaxiu Yao, Zirui Wang, Cihang Xie, Yuyin Zhou

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt. Deze kunstenaar kan prachtige schilderijen zien en er gedetailleerde verhalen over vertellen. Maar soms, als hij naar een foto kijkt, begint hij te fantaseren. Hij ziet een kat waar er geen is, of hij zegt dat een auto rood is terwijl hij blauw is. Dit noemen onderzoekers "hallucinaties".

Deze kunstenaar is een LVLM (een groot visueel-taalmodel). Hij is geweldig, maar die droomtoestand is een groot probleem als je hem echt wilt gebruiken, bijvoorbeeld in een ziekenhuis of voor een veiligheidscontrole.

Het probleem is dat je deze kunstenaar niet zomaar kunt "herprogrammeren". Het kost te veel tijd, geld en energie om hem opnieuw te leren. Dus, wat kun je doen?

Hier komt Kestrel om de hoek kijken. Kestrel is geen nieuwe kunstenaar, maar een slimme assistent die naast de kunstenaar staat om hem te helpen de realiteit te blijven vasthouden, zonder dat je hem hoeft te herscholen.

Hoe werkt Kestrel? (De Analogie van de Detective en de Fotograaf)

Stel je voor dat de kunstenaar (het model) een verhaal vertelt over een foto. Kestrel is als een detective die niet blindelings gelooft wat de kunstenaar zegt, maar eerst bewijs verzamelt.

Het proces verloopt in vier stappen, alsof je een zaak oplost:

1. De Vraag Opsplitsen (De "Claim")
De kunstenaar zegt: "Er staat een rode fiets naast een grote boom."
Kestrel denkt: "Oké, laten we dat niet als één groot verhaal zien, maar als losse beweringen die we kunnen controleren."

  • Bewering A: Is er een fiets?
  • Bewering B: Is de fiets rood?
  • Bewering C: Is er een boom?
  • Bewering D: Staat de fiets naast de boom?

2. De Foto's Maken (De "Grounding Agent")
In plaats van alleen naar de originele foto te staren (wat de kunstelaar soms verkeerd interpreteert), roept Kestrel een fotograaf aan (een hulpmiddel genaamd SAM3).
Deze fotograaf doet iets heel specifieks:

  • Hij zoomt in op de plek waar de fiets zou moeten zijn.
  • Hij maakt een omtrek (een kader) om de boom.
  • Hij snijdt een stukje van de foto uit om de kleur van de fiets van dichtbij te bekijken.
    Dit zijn geen zachte vermoedens meer, maar harde, visuele bewijzen.

3. De Bewijzen Vertalen (De "Vertaler")
De fotograaf geeft alleen plaatjes. Kestrel pakt die plaatjes en schrijft er een kort verslag bij:

  • "Op de ingezoomde foto zie ik duidelijk een fiets."
  • "De kleur is rood, zoals hier op de close-up te zien is."
  • "De boom is er, maar de fiets staat er niet naast, maar er achter."

4. De Voorzichtige Correctie (De "Zelf-Verbetering")
Nu komt het slimme deel. De detective (Kestrel) vergelijkt het verhaal van de kunstenaar met het verslag van de fotograaf.

  • Als het verslag zegt: "De fiets is blauw", dan corrigeert Kestrel de kunstenaar: "Je dacht rood, maar het is blauw."
  • Maar hier is de truc: Kestrel is voorzichtig. Als de fotograaf niet 100% zeker is, of als het bewijs niet sterk genoeg is, laat Kestrel het antwoord van de kunstenaar zoals het is. Hij corrigeert niet zomaar iets omdat hij het "misschien" leuker vindt. Hij wacht tot het bewijs onweerlegbaar is.

Als de kunstenaar nog steeds twijfelt, doet Kestrel een nieuwe ronde: hij vraagt de fotograaf om nog een andere hoek te bekijken, totdat het antwoord zeker is.

Waarom is dit zo goed?

  • Geen nieuwe school: Je hoeft de kunstenaar niet opnieuw te laten leren. Het werkt met elk bestaand model.
  • Geen gissen: Veel andere methoden proberen het antwoord te raden door te kijken naar welke woorden het model kiest. Kestrel kijkt naar bewijs.
  • Geen overcorrectie: Soms proberen slimme systemen een fout te herstellen, maar maken ze er een grotere fout van. Kestrel is conservatief: hij verandert alleen wat hij zeker weet.
  • Transparantie: Je kunt precies zien waarom Kestrel iets veranderde. Hij laat de foto's en het verslag zien: "Ik heb dit veranderd omdat de close-up toont dat de auto blauw is."

Samenvattend

Kestrel is als een waakhond die een dromerige kunstenaar bij de hand houdt. Als de kunstenaar begint te fantaseren over een paard in de tuin, roept de waakhond: "Wacht even, ik heb een foto gemaakt van die plek. Daar staat alleen een struik."

Door deze samenwerking tussen de slimme kunstenaar en de bewijsverzamelende waakhond, krijgen we antwoorden die niet alleen creatief zijn, maar ook waarheidsgetrouw en betrouwbaar. Het is een manier om AI veiliger en eerlijker te maken zonder dat we de hele machine opnieuw hoeven te bouwen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →