VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas zu selbstbewussten Roboter-Fotografen. Du zeigst ihm ein Foto und stellst eine Frage: „Ist das Schild auf dem Bild lesbar?" oder „Schaut die Person links auf den Laptop?"

Das Problem ist: Manchmal ist die Antwort einfach nicht auf dem Bild zu sehen. Vielleicht ist das Schild zu klein, vielleicht ist es von einem Baum verdeckt, oder vielleicht schaut die Person gar nicht dorthin. Ein guter Roboter müsste dann sagen: „Ich kann das nicht sehen, also kann ich es nicht beantworten." Ein schlechter Roboter würde raten und sich dabei vielleicht irren.

Genau das ist das Thema dieses neuen Forschungsprojekts namens VB (Visibility Benchmark). Hier ist eine einfache Erklärung, was die Forscher gemacht haben und was sie herausgefunden haben, mit ein paar bildhaften Vergleichen.

1. Der Test: Ein Spiel mit „Minimale Änderungen"

Die Forscher haben 100 verschiedene „Familienszenen" erstellt. Stell dir das wie ein Spiel vor, bei dem man nur eine winzige Sache an einem Foto ändert, um zu sehen, ob der Roboter den Unterschied merkt.

Das Grundfoto: Ein Bild, auf dem etwas nicht zu sehen ist (z. B. ein verdeckter Schlüssel). Die richtige Antwort ist: „Nein, ich sehe ihn nicht."
Das Text-Flip: Man ändert nur die Frage im Text (z. B. von „Ist der Schlüssel sichtbar?" zu „Ist der Schlüssel nicht sichtbar?").
Das Bild-Flip: Man ändert nur das Bild (z. B. man schiebt den verdeckenden Gegenstand weg). Jetzt ist der Schlüssel sichtbar. Die richtige Antwort ist: „Ja, ich sehe ihn!"
Das Doppel-Flip: Man ändert beides.

Warum machen sie das?
Stell dir vor, du trainierst einen Hund, auf ein rotes Licht zu reagieren. Wenn du das Licht nur ein wenig heller machst (Bild-Flip) oder das Wort „Rot" durch „Nicht-Rot" ersetzt (Text-Flip), muss der Hund immer noch genau wissen, was er tun soll. Wenn der Roboter bei der kleinen Bildänderung verwirrt ist, aber bei der Textänderung perfekt funktioniert, wissen wir: Er versteht die Sprache besser als die Bilder.

2. Die drei möglichen Antworten

Der Roboter darf nicht einfach raten. Er hat drei Optionen:

Sichtbar-Wahr: „Ja, ich sehe es ganz klar."
Sichtbar-Falsch: „Nein, das ist auf dem Bild definitiv nicht zu sehen."
Abwarten (Abstain): „Ich bin mir nicht sicher, oder das Bild reicht nicht aus."

Das „Abwarten" ist der wichtigste Teil! In der echten Welt (z. B. bei einem selbstfahrenden Auto) ist es gefährlicher, etwas falsch zu erraten, als gar keine Antwort zu geben. Wenn der Roboter sagt: „Ich sehe den Fußgänger nicht, also bremse ich lieber", ist das besser als: „Ich sehe keinen Fußgänger, also fahre weiter" (und dann kracht er hinein).

3. Die Ergebnisse: Wer ist der Beste?

Die Forscher haben 9 verschiedene KI-Modelle getestet – von den allerneuesten, sehr teuren „Super-Modellen" (wie GPT-4o oder Gemini) bis hin zu kleineren, kostenlosen Modellen.

Die Gewinner: Die beiden stärksten Modelle (GPT-4o und Gemini 3.1 Pro) haben am besten abgeschnitten. Sie sind wie sehr erfahrene Detektive: Sie sehen genau hin, geben zu, wenn sie etwas nicht sehen können, und ändern ihre Meinung, wenn sich das Bild minimal ändert.
Die Überraschung: Das beste „kostenlose" Modell (Gemma 3 12B) ist so gut geworden, dass es sogar ein älteres, teures Modell geschlagen hat. Das ist wie ein junger Sportler, der einen alten Weltmeister schlägt. Es zeigt, dass die Technologie für alle schneller besser wird.
Das Problem: Viele Modelle sind immer noch zu selbstbewusst. Sie raten oft, auch wenn sie unsicher sind. Ein paar Modelle haben sogar die Antwortformate falsch verstanden (wie ein Schüler, der die Aufgabe nicht verstanden hat und den Zettel zerreißt).

4. Die große Entdeckung: Text vs. Bilder

Ein sehr interessanter Befund ist die Asymmetrie:
Die meisten Roboter sind viel besser darin, kleine Änderungen im Text zu erkennen als kleine Änderungen im Bild.

Vergleich: Stell dir vor, du änderst ein Wort in einem Satz („Der Hund ist nicht da"). Das ist für die KI leicht zu verstehen. Aber wenn du den Hund im Bild nur ein paar Zentimeter nach links schiebst, damit er hinter einem Baum verschwindet, dann sind viele KIs verwirrt und sagen immer noch: „Da ist ein Hund!"
Bedeutung: Das bedeutet, dass wir KI-Systeme noch viel besser darin trainieren müssen, die visuelle Realität zu verstehen und nicht nur die Wörter zu lesen.

5. Warum ist das wichtig?

Dieser Test (VB) ist wie ein Sicherheitscheck für KI.

Wenn eine KI in einem Krankenhaus Bilder von Röntgenaufnahmen analysiert, darf sie nicht raten, ob ein Bruch zu sehen ist. Sie muss sagen: „Ich sehe nichts, aber ich bin mir nicht sicher, ob das Bild scharf genug ist."
Wenn eine KI einem blinden Menschen beschreibt, was in einem Raum ist, muss sie wissen, was wirklich zu sehen ist und was nur eine Vermutung ist.

Fazit:
Die KI wird immer besser darin, zu sehen, was auf einem Foto zu sehen ist – und noch wichtiger: zu wissen, was nicht zu sehen ist. Aber sie muss noch lernen, bei kleinen Bildänderungen nicht den Kopf zu verlieren und ihre Unsicherheit ehrlich zuzugeben. Die Forscher haben jetzt eine Art „Fahrschul-Prüfung" für KIs entwickelt, um genau das zu testen.

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

1. Der Test: Ein Spiel mit „Minimale Änderungen"

2. Die drei möglichen Antworten

3. Die Ergebnisse: Wer ist der Beste?

4. Die große Entdeckung: Text vs. Bilder

5. Warum ist das wichtig?

1. Problemstellung und Motivation

2. Methodik: Der VB-Benchmark

3. Bewertungsmetriken

4. Experimentelles Setup

5. Ergebnisse

6. Bedeutung und Beiträge

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

1. Der Test: Ein Spiel mit „Minimale Änderungen"

2. Die drei möglichen Antworten

3. Die Ergebnisse: Wer ist der Beste?

4. Die große Entdeckung: Text vs. Bilder

5. Warum ist das wichtig?

1. Problemstellung und Motivation

2. Methodik: Der VB-Benchmark

3. Bewertungsmetriken

4. Experimentelles Setup

5. Ergebnisse

6. Bedeutung und Beiträge

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers