Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification

Diese Arbeit stellt die Evidenzbasierte Unsicherheitsquantifizierung (EUQ) vor, eine feingranulare Methode, die mithilfe der Evidenztheorie interne Konflikte und Wissenslücken in Large Vision-Language Models erfasst, um deren Fehlverhalten wie Halluzinationen oder Sicherheitsverletzungen zuverlässiger zu erkennen als bestehende Ansätze.

Tao Huang, Rui Wang, Xiaofei Liu, Yi Qin, Li Duan, Liping Jing

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „halluzinierende" KI-Koch

Stell dir vor, du hast einen riesigen, super-intelligenten Koch namens LVLM (Large Vision-Language Model). Dieser Koch kann Bilder sehen und dazu Geschichten erzählen. Er ist genial, aber er hat einen kleinen Defekt: Manchmal lügt er.

  • Halluzination: Er sieht ein Bild von einem Hund und sagt: „Das ist ein Elefant."
  • Jailbreak: Jemand zeigt ihm ein Bild mit einem versteckten Code, und plötzlich beginnt er, gefährliche Anleitungen zu geben, obwohl er eigentlich „gut" programmiert ist.
  • Verwirrung: Er sieht ein Bild, das er noch nie gesehen hat (z. B. ein futuristisches Auto), und gibt einfach eine zufällige Antwort, weil er es nicht kennt.

Das Problem ist: Wenn wir diesen Koch in kritischen Situationen einsetzen (z. B. beim Autofahren oder in der Medizin), müssen wir wissen, wann er lügt oder unsicher ist. Bisherige Methoden waren wie ein einfacher Thermometer: Sie sagten nur „Es ist heiß" oder „Es ist kalt", aber nicht warum.

Die Lösung: Ein neuer Detektiv namens EUQ

Die Autoren dieses Papers haben einen neuen Detektiv erfunden, der EUQ (Evidential Uncertainty Quantification) heißt. Statt nur zu messen, wie „unsicher" der Koch ist, schaut er sich genau an, woher die Unsicherheit kommt.

Sie haben herausgefunden, dass es im Gehirn des Kochs zwei Hauptgründe für Fehler gibt:

  1. Der innere Konflikt (Conflict): Der Koch sagt sich selbst: „Moment mal, das Bild zeigt ein rotes Auto, aber mein Text sagt 'Blau'. Das passt nicht zusammen!" Er ist hin- und hergerissen.
  2. Die Unwissenheit (Ignorance): Der Koch sagt: „Ich habe keine Ahnung, was das ist. Ich habe das noch nie gesehen." Er hat keine Informationen, um eine Entscheidung zu treffen.

Wie funktioniert der Detektiv? (Die Analogie)

Stell dir vor, der Koch trifft eine Entscheidung, indem er Hinweise (Beweise) sammelt.

  • Positive Hinweise: „Das sieht aus wie ein Hund."
  • Negative Hinweise: „Aber es hat keine Pfoten."

Der Detektiv EUQ nutzt eine alte mathematische Regel (die Dempster-Shafer-Theorie, klingt kompliziert, ist aber wie ein cleveres Abstimmen), um diese Hinweise zu zählen.

  • Szenario A (Konflikt): Der Koch hat 10 Hinweise, die sagen „Hund", und 10 Hinweise, die sagen „Katze". Das ist ein hoher Konflikt. Der Detektiv schreit: „Achtung! Der Koch ist verwirrt!" (Das passiert oft bei Halluzinationen).
  • Szenario B (Unwissenheit): Der Koch hat 0 Hinweise für „Hund" und 0 Hinweise für „Katze". Er steht einfach nur da und starrt ins Leere. Das ist hohe Unwissenheit. Der Detektiv schreit: „Achtung! Der Koch weiß gar nichts!" (Das passiert oft bei fremden Bildern, die nicht in seiner Trainingsdatenbank waren).

Warum ist das genial?

Bisherige Methoden mussten den Koch oft mehrmals dasselbe Bild zeichnen lassen, um zu sehen, ob er jedes Mal dasselbe sagt (wie wenn man einen Freund 10 Mal fragt: „Ist das ein Hund?" und hofft, dass er nicht jedes Mal eine andere Antwort gibt). Das ist langsam und rechnet viel Energie.

EUQ ist anders:

  1. Einmal reicht: Der Detektiv schaut sich nur einmal an, was im Gehirn des Kochs passiert, während er das Bild betrachtet. Das ist extrem schnell.
  2. Kein Training nötig: Man muss den Koch nicht neu lernen lassen. Der Detektiv schaut sich einfach die bestehenden Daten an.
  3. Präzise Diagnose: Er kann unterscheiden: „Hey, bei diesem Bild lügt er, weil er verwirrt ist (Konflikt), aber bei jenem Bild lügt er, weil er es einfach nicht kennt (Unwissenheit)."

Was haben sie herausgefunden?

In ihren Tests haben sie vier verschiedene Arten von Fehlern geprüft (Lügen, Sicherheitslücken, Angriffe, fremde Bilder).

  • Ergebnis: Wenn der Koch halluziniert (etwas Erfindet), ist der Konflikt hoch.
  • Ergebnis: Wenn der Koch an einem fremden Bild scheitert, ist die Unwissenheit hoch.

Das ist wie ein Arzt, der nicht nur sagt „Der Patient ist krank", sondern genau weiß: „Er hat Fieber wegen einer Infektion" oder „Er ist schwach, weil ihm das Essen fehlt".

Fazit

Diese Forschung gibt uns ein besseres Werkzeug, um KI-Systeme zu überwachen. Anstatt blind darauf zu vertrauen, können wir jetzt genau sehen, warum eine KI unsicher ist. Das macht KI sicherer, besonders wenn wir sie in wichtigen Bereichen wie dem Autofahren oder der Medizin einsetzen.

Kurz gesagt: EUQ ist wie ein Spiegel, der der KI zeigt, ob sie sich nur streitet oder ob sie einfach nichts weiß.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →