Benchmarking Deflection and Hallucination in Large Vision-Language Models

Die Arbeit stellt VLM-DeflectionBench vor, ein dynamisches Benchmarking-Framework, das die Fähigkeit von Large Vision-Language Models testet, bei widersprüchlichen oder unzureichenden multimodalen Beweisen korrekte Ablehnungen auszusprechen, anstatt Halluzinationen zu erzeugen.

Nicholas Moratelli, Christopher Davis, Leonardo F. R. Ribeiro, Bill Byrne, Gonzalo Iglesias

Veröffentlicht 2026-04-15
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Der ehrliche Seher – Warum KI manchmal besser schweigt als lügt

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber manchmal etwas zu selbstbewussten Assistenten namens „Großer Vision-Sprach-Assistent" (LVLM). Dieser Assistent kann Bilder sehen, Texte lesen und Fragen beantworten. Er ist wie ein Super-Genie, das die ganze Welt im Kopf hat.

Aber hier ist das Problem: Wenn dieser Assistent nicht genug Informationen hat, um eine Frage zu beantworten, neigt er dazu, zu lügen. Er erfindet Fakten, nur um nicht mit leeren Händen dazustehen. Das nennt man in der Fachsprache „Halluzination".

Die Forscher aus diesem Papier haben sich gedacht: „Das reicht nicht! Ein guter Assistent sollte wissen, wann er die Antwort nicht weiß und höflich sagen: 'Entschuldigung, ich kann das nicht beantworten'." Das nennt man „Ablenkung" oder „Deflection" (im Sinne von: sich aus der Affäre ziehen, statt zu bluffen).

Um das zu testen, haben sie einen neuen Prüfstein (einen Benchmark) namens VLM-DeflectionBench gebaut. Hier ist die Geschichte davon, wie sie das gemacht haben, einfach erklärt:

1. Das Problem: Der vergessliche Lehrer

Frühere Tests waren wie alte Schulbücher. Sie waren veraltet. Die KI hat sich so viele Dinge auswendig gelernt (wie ein Schüler, der den Lehrbuchtext auswendig kann), dass sie viele Fragen beantworten konnte, ohne überhaupt nachschauen zu müssen. Das war unfair für den Test, weil wir wissen wollten: Kann die KI auch dann richtig antworten, wenn sie sich nichts merken kann und erst nachschauen muss?

Außerdem haben alte Tests nur darauf geachtet, ob die Antwort richtig war. Sie haben nicht geschaut, ob die KI gelogen hat, als sie eigentlich nichts wusste.

2. Die Lösung: Ein dynamischer Filter

Die Forscher haben eine Art intelligenten Filter gebaut. Stellen Sie sich das wie eine strenge Türsteher-Polizei vor:

  • Sie nehmen eine Frage.
  • Sie fragen den KI-Assistenten: „Kannst du das ohne Hilfe beantworten?"
  • Wenn die KI es ohne Hilfe kann (weil sie es auswendig weiß), wird die Frage weggeworfen.
  • Nur die Fragen bleiben übrig, bei denen die KI wirklich Hilfe braucht (z. B. einen Text oder ein Bild, das sie gerade erst suchen muss).

So stellen sie sicher, dass der Test immer schwer bleibt, auch wenn die KI immer schlauer wird.

3. Der Test: Vier Szenarien im „Vertrauens-Parcours"

Der neue Test (VLM-DeflectionBench) stellt die KI in vier verschiedene Situationen, wie ein Fahrschüler in verschiedenen Verkehrslagen:

  • Szenario 1: Der Gedächtnistest (Parametric)
    Die KI darf nichts nachschauen. Sie muss aus dem Gedächtnis antworten.

    • Erwartung: Sie sollte bei den schwierigen Fragen schweigen (da wir die leichten Fragen ja schon weggefiltert haben).
    • Realität: Viele KIs lügen trotzdem.
  • Szenario 2: Der perfekte Lehrer (Oracle)
    Die KI bekommt die perfekte Antwortquelle (den „Gold-Text" oder das „Gold-Bild").

    • Erwartung: Sie sollte die Antwort finden.
    • Realität: Selbst mit der perfekten Antwortquelle lügen manche KIs noch, weil sie die Informationen nicht richtig lesen können.
  • Szenario 3: Der chaotische Markt (Realistic)
    Die KI bekommt die richtige Antwortquelle, aber sie ist mit falschen Informationen (Distraktoren) vermischt. Es ist wie ein Markt, wo ein Verkäufer die Wahrheit sagt, aber daneben stehen 10 Lügner, die laut schreien.

    • Erwartung: Die KI soll die Wahrheit finden und die Lügner ignorieren.
    • Realität: Die KIs werden oft verwirrt und folgen den Lügern.
  • Szenario 4: Die Falle (Adversarial)
    Die KI bekommt nur falsche Informationen. Es gibt gar keine richtige Antwort.

    • Erwartung: Die KI sollte sofort sagen: „Ich kann das nicht beantworten!"
    • Realität: Die meisten KIs versuchen trotzdem, eine Antwort zu erfinden.

4. Was haben sie herausgefunden?

Die Ergebnisse waren ernüchternd, aber wichtig:

  • Text schlägt Bilder: Wenn die falschen Informationen in Textform waren und die richtigen in Bildform, haben die KIs fast immer dem Text geglaubt. Sie sind wie Menschen, die einem lauten Sprecher mehr glauben als einem stummen Bild.
  • Lieber lügen als schweigen: Die KIs haben Angst, „dumm" zu wirken. Wenn sie unsicher sind, erfinden sie lieber eine Antwort, als zuzugeben, dass sie nichts wissen.
  • Strenge Befehle helfen nicht immer: Wenn man der KI streng sagt: „Wenn du nicht sicher bist, schweig!", dann schweigt sie zwar, aber sie schweigt auch dann, wenn sie die Antwort hätte finden können. Sie wird zu ängstlich.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie fragen eine KI: „Ist dieses Medikament sicher für mein Kind?"

  • Wenn die KI halluziniert (lügt) und sagt „Ja", könnte das tödlich sein.
  • Wenn die KI deflektiert (sagt „Ich weiß es nicht, bitte fragen Sie einen Arzt"), ist das sicher.

Dieser neue Test zeigt uns, dass wir KI-Systeme nicht nur darauf trainieren müssen, richtige Antworten zu geben, sondern auch darauf, zu wissen, wann sie schweigen müssen. Es ist der Unterschied zwischen einem arroganten Dummkopf, der alles weiß, und einem ehrlichen Experten, der weiß, wo seine Grenzen liegen.

Fazit: Die Forscher haben einen neuen Spiegel für KIs gebaut. Und wenn wir in diesen Spiegel schauen, sehen wir, dass unsere KIs noch lernen müssen, dass es in Ordnung ist, „Ich weiß es nicht" zu sagen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →