VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎨 VOILA: Der große Test für die „Kopfkino"-Fähigkeit von KI

Stell dir vor, du hast einen sehr klugen Roboter, der Bilder sehen und beschreiben kann. Er ist super darin, zu sagen: „Das ist ein Hund" oder „Das ist eine Frau, die schwimmt". Aber kann er auch denken? Kann er Muster erkennen und logische Schlussfolgerungen ziehen, wenn er mehrere Bilder auf einmal sieht?

Genau das wollten die Forscher mit dem neuen Test namens VOILA herausfinden.

1. Das Spiel: Ein visuelles Rätsel

Stell dir VOILA wie ein Spiel vor, das auf einem Prinzip basiert, das wir alle kennen: Analogien.
Im Text wäre das so: „Ein Hammer ist zu einem Nagel wie ein Pinsel ist zu ...?" (Die Antwort: Ein Pinsel).

Bei VOILA ist es aber mit Bildern:

Bild 1 & 2: Du siehst zwei Bilder. Vielleicht ist auf Bild 1 ein einzelner Hund, der läuft, und auf Bild 2 zwei Hunde, die laufen. Die Regel ist also: „Die Anzahl verdoppelt sich".
Bild 3: Jetzt kommt ein neues Bild: Drei Katzen.
Die Aufgabe: Der Roboter muss das vierte Bild erfinden. Wenn er die Regel verstanden hat, muss er ein Bild generieren, auf dem sechs Katzen zu sehen sind.

Das Tolle an VOILA: Der Roboter muss das vierte Bild nicht nur beschreiben, er muss es tatsächlich zeichnen (generieren). Das ist wie ein Maler, der nicht nur sagt, was er malt, sondern es auch auf die Leinwand bringt.

2. Die zwei Schwierigkeitsstufen

Die Forscher haben zwei Versionen des Spiels gebaut, um zu sehen, wo die KI hakt:

VOILA-ND (Ohne Ablenkung): Ein sauberes Spiel. Die Regeln sind klar. Wenn die Anzahl der Tiere sich ändert, dann ändert sie sich.
VOILA-WD (Mit Ablenkung): Hier wird es tückisch! Die Forscher fügen „Störgeräusche" hinzu.
- Beispiel: Auf Bild 1 und 2 ändern sich die Tiere und die Anzahl. Aber auf Bild 3 und 4 ist plötzlich die Farbe der Tiere anders oder sie tragen Hüte. Diese Details sind aber wichtig, um zu erkennen, dass sie nichts mit der eigentlichen Regel zu tun haben.
- Die Metapher: Stell dir vor, du suchst in einem lauten Raum nach einem bestimmten Gespräch. VOILA-WD ist wie dieser laute Raum, in dem jemand neben dir laut singt. Die KI muss das Singen ignorieren und sich auf das Gespräch konzentrieren.

3. Was haben die Forscher herausgefunden?

Das Ergebnis ist ziemlich ernüchternd, aber auch wichtig für die Zukunft:

Menschen sind Champions: Wenn Menschen dieses Spiel spielen, lösen sie es zu etwa 70% richtig. Sie verstehen die Logik sofort.
KIs stolpern: Die besten aktuellen KI-Modelle (wie GPT-4o oder LLaMa) schaffen es nur bei 13% bis 29% der Fälle richtig.
- Warum? Die KIs sind super darin, Bilder zu beschreiben (z. B. „Ich sehe zwei Hunde"). Aber sobald sie die Regel zwischen den Bildern finden und diese auf ein neues Bild anwenden müssen, verlieren sie den Faden. Es ist, als ob sie den Text lesen, aber die Logik dahinter nicht verstehen.
Das Problem mit dem „Collage"-Bild: Wenn man die drei Bilder als ein einziges großes Bild (eine Collage) vor die KI legt, wird sie noch schlechter. Es ist, als würde man ihr drei verschiedene Zeitungen auf einmal vor die Nase halten; sie verliert den Überblick. Wenn man die Bilder nacheinander zeigt, geht es etwas besser.

4. Wie kann man die KI helfen?

Die Forscher haben eine Methode namens „Least-to-Most" (Von wenig zu viel) ausprobiert.
Statt die KI zu fragen: „Was ist das vierte Bild?", haben sie sie Schritt für Schritt geführt:

„Beschreibe Bild 1 und 2."
„Was hat sich geändert?"
„Wende diese Regel auf Bild 3 an."
„Zeichne das Ergebnis."

Das half! Die KI wurde etwas besser, aber sie erreichte immer noch nicht das menschliche Niveau. Es ist wie beim Lernen: Wenn man einem Schüler die Lösungsschritte zeigt, versteht er mehr, aber er kann die Logik immer noch nicht perfekt selbstständig anwenden.

5. Warum ist das wichtig?

Heute können KIs Bilder beschreiben und sogar welche malen. Aber abstraktes Denken – also das Verstehen von Beziehungen und das Übertragen von Regeln auf neue Situationen – ist immer noch eine große Hürde.

VOILA zeigt uns: Unsere KIs sind wie sehr talentierte Maler, denen es an der Logik des Malers fehlt. Sie können einen Hund malen, aber sie verstehen nicht immer, warum der Hund auf dem nächsten Bild größer ist.

Fazit: Wir haben noch einen langen Weg vor uns, bis KIs so denken können wie Menschen. VOILA ist wie ein strenger Lehrer, der uns genau zeigt, wo wir noch üben müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben zwar beeindruckende Fortschritte bei Aufgaben wie Bildbeschriftung und visuellem Frage-Antwort-Spielen (VQA) gemacht. Dennoch besteht eine signifikante Lücke in ihrer Fähigkeit, abstrakte relationale Schlussfolgerungen über mehrere Bilder hinweg zu ziehen.

Herausforderung: Bestehende Benchmarks basieren oft auf Multiple-Choice-Fragen, die das Modell lediglich eine Auswahl aus vorgegebenen Optionen treffen lassen. Dies testet nicht die Fähigkeit, komplexe Lösungen zu generieren oder abstrakte Beziehungen zwischen visuellen Kontexten zu verstehen und zu übertragen.
Ziel: Es fehlt ein Benchmark, der MLLMs zwingt, analoges Denken (Analogical Reasoning) in einem offenen, generativen Format anzuwenden, bei dem sie eine vierte Bildkomponente basierend auf den Mustern der ersten drei Bilder vorhersagen müssen.

2. Methodik: Der VOILA-Benchmark

Die Autoren stellen VOILA (Visual Open-ended Analogical Inference and Learning Assessment) vor, einen groß angelegten, dynamischen und offenen Benchmark.

Aufgabenformat: Die Aufgabe folgt dem Schema einer visuellen Analogie: $A : A' :: B : ?$ . Das Modell erhält drei Bilder (Referenzpaar $A, A'$ und Anwendungsbild $B$ ) und muss ein viertes Bild generieren, das die Beziehung zwischen $A$ und $A'$ auf $B$ überträgt.
Datenstruktur:
- Eigenschaften: Die Bilder basieren auf drei variablen Eigenschaften: Anzahl der Subjekte, Subjekttyp (z. B. Tier, Mensch) und Aktion.
- Regeln: Es werden vier Regeltypen angewendet, um die Beziehungen zu definieren:
  1. Stable: Die Eigenschaft bleibt gleich.
  2. Change: Die Eigenschaft ändert sich (z. B. von Hund zu Katze).
  3. Arithmetic: Die Anzahl der Subjekte ändert sich mathematisch (z. B. +2).
  4. Distraction: Eine Eigenschaft ändert sich willkürlich und ist irrelevant für die Analogie (Ablenkung).
Datensätze:
- VOILA-ND (No Distraction): Enthält nur die drei grundlegenden Regeln (Stable, Change, Arithmetic).
- VOILA-WD (With Distraction): Fügt die Ablenkungsregel hinzu, was die Aufgabe erheblich erschwert, da das Modell irrelevante Änderungen filtern muss.
- Skalierbarkeit: Der Datensatz wird dynamisch generiert (mittels SDXL) und umfasst über 6,4 Millionen mögliche Szenarien. Für die Evaluation wurden 10.000 Fragen (WD) und 3.600 Fragen (ND) erstellt.
Evaluierungs-Pipeline:
- Schrittweise Analyse: Die Aufgabe wird in vier Sub-Schritte zerlegt: (1) Bildinhalt beschreiben, (2) Beziehungen identifizieren, (3) Beziehung auf das dritte Bild anwenden, (4) das vierte Bild generieren.
- Prompting-Strategien: Es werden direkte Antworten und Least-to-Most (L2M) Prompting verglichen, bei dem das Modell schrittweise durch die Teilaufgaben geführt wird.
- Input-Formate: Vergleich von sequenziellen Bildern vs. einem Bild-Collage (alle Bilder in einem Bild).

3. Wichtige Beiträge

VOILA-Benchmark: Einführung eines großen, offenen Benchmarks, der MLLMs zwingt, hochkognitive Aufgaben (Erstellung statt nur Bewertung) zu lösen.
Dynamische Generierung: Entwicklung einer Pipeline zur Erstellung von über 6,4 Millionen einzigartigen visuellen Analogie-Szenarien durch Kombination von Regeln und Eigenschaften.
Umfassende Evaluation: Systematischer Test von State-of-the-Art-Modellen (GPT-4o, LLaMa 3.2, Qwen2-VL, CogVLM2, etc.) unter verschiedenen Bedingungen (mit/ohne Ablenkung, verschiedene Prompting-Techniken, Eingabeformate).
Menschlicher Vergleich: Durchführung einer Human-Evaluation via Amazon Mechanical Turk, um eine solide Obergrenze für die Modellleistung zu etablieren.

4. Ergebnisse

Die Experimente zeigen deutliche Defizite aktueller MLLMs im Vergleich zum menschlichen Leistungsvermögen:

Leistungslücke: Menschen erreichen eine Genauigkeit von ca. 70–71% (sowohl bei WD als auch ND). Die besten MLLMs liegen weit darunter:
- GPT-4o: Beste Leistung bei VOILA-ND mit 29% (Anwendung der Beziehung), aber nur 19% bei VOILA-WD.
- LLaMa 3.2: Überraschend gut bei VOILA-WD mit 13% (besser als GPT-4o in dieser Kategorie), aber insgesamt schwächer bei der Bildgenerierung.
- Allgemein: Die Genauigkeit bricht drastisch ein, sobald die Aufgabe von der Bildbeschreibung zur relationalen Anwendung übergeht.
Einfluss von Ablenkungen (Distraction): Die Einführung von Ablenkungsregeln (VOILA-WD) senkt die Leistung der meisten Modelle drastisch (z. B. -22% bei GPT-4o), was zeigt, dass sie Schwierigkeiten haben, irrelevante Informationen zu filtern.
Prompting & Input:
- L2M vs. Direkt: Least-to-Most Prompting verbessert die Leistung signifikant im Vergleich zu direkten Antworten (z. B. bei GPT-4o von 17% auf 29% bei ND).
- Input-Format: Die Verwendung von sequenziellen Bildern führt zu einer ca. 40% höheren Genauigkeit im Vergleich zu Bild-Collagen. Dies deutet auf Probleme bei der räumlichen Trennung von Informationen in Collage-Formaten hin.
Ablationsstudien: Selbst wenn Ground-Truth-Informationen (z. B. korrekte Bildbeschreibungen) bereitgestellt werden, scheitern Modelle oft daran, diese Beziehungen korrekt auf neue visuelle Eingaben anzuwenden (nur 17% Genauigkeit bei GPT-4o unter idealen Bedingungen).

5. Bedeutung und Fazit

Das Paper unterstreicht, dass aktuelle MLLMs zwar hervorragend darin sind, visuelle Inhalte zu beschreiben, aber noch weit davon entfernt sind, abstrakte relationale Muster zu verstehen und kreativ anzuwenden.

Kognitive Grenzen: Die Ergebnisse deuten darauf hin, dass MLLMs noch kein echtes kognitives Verständnis für Analogien besitzen, das für höheres Denken (Bloom's Taxonomie: "Erstellen") notwendig ist.
Zukunftspfad: VOILA dient als strenger Teststein, um zukünftige Modelle zu entwickeln, die nicht nur Muster erkennen, sondern logische Schlussfolgerungen über visuelle Kontexte hinweg ziehen und generieren können.
Praktische Implikation: Die Studie zeigt, dass einfache Prompting-Techniken (wie L2M) und optimierte Eingabeformate (sequenziell statt Collage) die Leistung verbessern können, aber die fundamentale Lücke zum menschlichen Denken (ca. 40–58% Differenz) weiterhin besteht.

Zusammenfassend liefert VOILA einen kritischen neuen Maßstab, der zeigt, dass der Weg zu menschenähnlicher visueller Intelligenz bei MLLMs noch lang ist, insbesondere bei Aufgaben, die abstraktes Denken und die Übertragung von Wissen auf neue Szenarien erfordern.

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

🎨 VOILA: Der große Test für die „Kopfkino"-Fähigkeit von KI

1. Das Spiel: Ein visuelles Rätsel

2. Die zwei Schwierigkeitsstufen

3. Was haben die Forscher herausgefunden?

4. Wie kann man die KI helfen?

5. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der VOILA-Benchmark

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora