MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Deze paper introduceert MAP, een trainingsvrije decoderingsmethode die hallucinaties in grote visueel-taalmodellen vermindert door de verborgen toestanden te interpreteren als een 2D-semantische kaart en deze te verwerken via kruisgewijze attentie en logit-fusie om de feitelijke consistentie te verbeteren.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt die foto's bekijkt en er verhalen over schrijft. Deze kunstenaar is een LVLM (een groot visueel-taalmodel). Hij is geweldig in het begrijpen van wat hij ziet, maar soms "droomt" hij dingen in die er niet zijn. Dit noemen we hallucinaties.

Bijvoorbeeld: Als je hem een foto van een hond toont, zegt hij misschien: "Wat een prachtige hond met een rode hoed!" Terwijl er op de foto helemaal geen hoed zit. Hij heeft de rode hoed "uit zijn duim gezogen" omdat hij dat vaak ziet bij honden in zijn trainingsdata.

De onderzoekers van dit paper (MAP) hebben een oplossing bedacht om deze dromerige kunstenaar te kalmeren en hem weer op de feiten te laten focussen. Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. Het oude probleem: Kijken door een smalle sleuf

Voorheen keken andere methoden naar de "gedachten" van de kunstenaar op twee manieren, maar ze waren allemaal een beetje beperkt:

  • Inter-layer: Ze keken alleen naar wat er gebeurde tussen verschillende lagen van denken (zoals het vergelijken van wat hij dacht in stap 1 versus stap 10).
  • Intra-layer: Ze keken alleen naar wat er binnen één specifieke stap gebeurde (alleen stap 10 zelf).

Het probleem was dat ze de "feitelijke informatie" (de waarheid over de foto) als verspreid zagen. Ze dachten: "Oh, de waarheid zit vast in stap 10 of in de vergelijking tussen stap 1 en 10." Maar ze zagen niet dat de waarheid eigenlijk overal verspreid ligt.

2. Het nieuwe idee: De "Gedachtenkaart" (De 2D-Map)

De onderzoekers zeggen: "Wacht even, laten we niet alleen naar één lijn of één stap kijken. Laten we kijken naar alles wat de kunstenaar heeft gedacht, tegelijkertijd."

Ze stellen je voor om alle gedachten van de kunstenaar te zien als een groot, tweedimensionaal landkaartje (een 2D-kaart).

  • De horizontale as is de tijd (welke woorden hij al heeft bedacht).
  • De verticale as is de diepte (hoe diep hij heeft nagedacht).

Op deze kaart hebben ze ontdekt dat de "waarheid" (bijvoorbeeld dat er een bed op de foto ligt) niet op één plekje zit. Het is verspreid als goudklompjes over het hele kaartje. Soms zit het in een diepe laag, soms in een vroege laag, soms bij woordje 5, soms bij woordje 50.

3. De oplossing: MAP (Kaart-gebaseerde Aandacht)

Om de kunstenaar te helpen al die verspreide goudklompjes (de waarheid) te vinden en de dromen (de hallucinaties) te negeren, hebben ze drie slimme tools bedacht:

A. Het Kruis- en Kruispatroon (Layer-Wise Criss-Cross Attention)

Stel je voor dat de kunstenaar op zijn kaartje staat. In plaats van alleen naar links/rechts of alleen naar boven/onder te kijken, laat je hem een kruis trekken.

  • Hij kijkt naar alle andere gedachten in dezelfde rij (dezelfde stap in het denkproces).
  • Hij kijkt naar alle andere gedachten in dezelfde kolom (dezelfde diepte in het denkproces).

Door deze "kruisende" blik te werpen, verzamelt hij alle feitelijke hints die ergens op de kaart liggen. Het is alsof hij een net trekt over het hele kaartje om de waarheid op te vissen, in plaats van alleen naar één hoek te staren.

B. Het Samenvoegen van Lokale en Globale Wijsheid (Global-Local Logit Fusion)

Soms is de kunstenaar heel goed in details (lokaal), maar mist hij het grote plaatje. Soms is hij goed in het grote plaatje (globaal), maar vergeet hij details.

  • Lokaal: Hij kijkt heel nauwkeurig naar de directe omgeving van het woord dat hij nu gaat schrijven.
  • Globaal: Hij kijkt naar het hele kaartje om de context te begrijpen.

De MAP-methode neemt de mening van beide versies en mixt ze. Het is alsof je twee experts aan tafel zet: één die de details kent en één die het overzicht heeft. Samen komen ze tot een veel betrouwbaarder antwoord dan alleen.

4. Waarom is dit geweldig?

  • Geen extra training nodig: Ze hoeven de kunstenaar niet opnieuw te leren (wat duur en langzaam is). Ze passen alleen aan hoe hij zijn antwoorden kiest op het moment dat hij spreekt.
  • Sneller en slimmer: Omdat ze slimme trucs gebruiken om alleen de laatste woorden te "vragen" in plaats van het hele verhaal opnieuw te berekenen, is het zelfs sneller dan sommige oude methoden.
  • Werkt overal: Of het nu gaat om het tellen van objecten, het beschrijven van een landschap of het beantwoorden van moeilijke vragen, deze methode helpt de kunstenaar om minder te "dromen" en meer naar de foto te kijken.

Kortom:
De onderzoekers hebben ontdekt dat de waarheid in een AI niet op één plek zit, maar verspreid ligt als een puzzel over een groot kaartje. Met hun nieuwe methode (MAP) leren ze de AI om naar dat hele kaartje te kijken en de stukjes waarheid samen te voegen, zodat hij eindelijk stopt met het verzinnen van rode hoeden voor honden die er niet zijn.