Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Die Arbeit stellt CAPL vor, ein Framework zur Reduzierung von Halluzinationen in Large Vision-Language Models bei Multi-Image-Aufgaben, das durch eine kalibrierte Cross-Image-Attention und eine präferenzbasierte Lernstrategie die modellübergreifende Interaktion verbessert und die Modellierung auf echte visuelle Evidenz statt auf textuelle Priors ausrichtet.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas verwirrten Freund, der riesige Mengen an Bildern und Texten lesen kann. Dieser Freund ist ein KI-Modell (ein sogenanntes "Large Vision-Language Model"). Wenn man ihm nur ein Bild zeigt, ist er oft brillant. Aber wenn man ihm zwei oder mehr Bilder gleichzeitig gibt, um sie zu vergleichen oder eine Geschichte daraus zu erzählen, wird er schnell verwirrt und beginnt zu halluzinieren.

Das bedeutet: Er erfindet Dinge, die gar nicht da sind, oder vermischt Details aus Bild A mit Bild B, als wären sie zusammengehörig.

Dieses Papier beschreibt eine neue Methode namens CAPL, um diesem Freund zu helfen, die Bilder wirklich richtig zu verstehen. Hier ist die Erklärung in einfachen Worten mit ein paar bildhaften Vergleichen:

1. Das Problem: Der einseitige Blick (Die Einbahnstraße)

Normalerweise lesen diese KI-Modelle Bilder wie ein Buch: Sie schauen sich das erste Bild an, dann das zweite, dann das dritte.

  • Das Problem: Das zweite Bild darf sich das erste "ansehen", aber das erste Bild darf sich das zweite nicht ansehen. Es ist wie eine Einbahnstraße.
  • Die Folge: Wenn das Modell versucht, Gemeinsamkeiten zu finden, muss es sich nur auf das erste Bild verlassen und raten, was im zweiten sein könnte. Es verlässt sich dann zu sehr auf das, was es aus Texten kennt (seine "Vorurteile"), statt wirklich hinzuschauen. Es sagt dann vielleicht: "Ah, im ersten Bild ist ein Hund, also muss im zweiten Bild auch ein Hund sein", obwohl dort eine Katze ist.

2. Die Lösung Teil 1: Der "Rückblick" (Cross-Image Attention)

Die Forscher haben eine neue Brille für den Freund gebaut, die CAPL heißt.

  • Die Idee: Statt nur nach vorne zu schauen, erlaubt diese Brille den Bildern, sich gegenseitig anzusehen.
  • Der Vergleich: Stell dir vor, du hast zwei Freunde, die ein Rätsel lösen. Normalerweise darf nur der zweite Freund auf den ersten schauen. Mit der neuen Brille dürfen sie sich in die Augen schauen und miteinander reden.
  • Die "Selektive" Komponente: Da sie nicht jedes Detail jedes Bildes gleichzeitig ansehen wollen (das wäre zu viel Chaos), wählt die KI nur die wichtigsten Teile (die "Schlüssel-Tokens") aus. Es ist wie ein Spotlight, das nur auf die relevanten Objekte in beiden Bildern leuchtet, damit sie sich genau dort "treffen" und vergleichen können.

3. Die Lösung Teil 2: Der "Lern-Coach" (Preference Learning)

Nur eine neue Brille reicht nicht; der Freund muss auch lernen, sie richtig zu benutzen. Dafür nutzen die Forscher eine Methode namens DPO (Direct Preference Optimization).

  • Das Trainingsszenario:

    • Der gute Weg (Positive Probe): Die KI schaut sich beide Bilder mit der neuen "Zwei-Wege-Brille" an und gibt eine korrekte Antwort. Das ist die "gute Antwort".
    • Der schlechte Weg (Negative Probe): Hier ist der Trick! Die Forscher zwingen die KI, die Bilder so zu betrachten, als wären sie voneinander isoliert (wie bei der alten Einbahnstraße). Sie schalten die Verbindung zwischen den Bildern komplett ab.
    • Das Ergebnis: Wenn die Verbindung fehlt, macht die KI fast garantiert einen Fehler (sie halluziniert). Diese falsche Antwort ist die "schlechte Antwort".
  • Die Lektion: Der Coach sagt der KI: "Schau mal, wenn du die Bilder nicht verbindest, erfindest du Unsinn (schlechte Antwort). Wenn du sie verbindest, bekommst du es richtig hin (gute Antwort). Lerne, die Verbindung zu bevorzugen!"

Durch diesen Vergleich lernt die KI, dass sie sich wirklich auf die visuellen Beweise verlassen muss, statt auf ihre eigenen Fantasien.

4. Das Ergebnis: Ein besserer Detektiv

Nach diesem Training passiert etwas Wunderbares:

  • Bei mehreren Bildern wird die KI viel genauer. Sie vermischt keine Details mehr und erkennt Unterschiede sofort.
  • Bei einem einzelnen Bild wird sie nicht schlechter (sie vergisst nicht, wie man ein Bild allein betrachtet). Sie wird sogar noch stabiler, weil sie gelernt hat, nicht blind zu raten.

Zusammenfassung in einem Satz

Die Forscher haben einer KI beigebracht, Bilder nicht wie eine Einbahnstraße zu lesen, sondern wie ein Gespräch zwischen zwei Freunden, und sie haben sie durch einen harten Vergleich von "richtigem Sehen" und "blindem Raten" trainiert, damit sie endlich aufhört, sich Dinge aus dem Kopf zu erfinden.

Das ist CAPL: Ein System, das Bilder verbindet und die KI diszipliniert, damit sie die Wahrheit sieht.