Vision Language Models Cannot Reason About Physical Transformation

Each language version is independently generated for its own context, not a direct translation.

🧠 Der große Test: Können KI-Augen wirklich sehen und verstehen?

Stell dir vor, du hast einen sehr intelligenten Roboter, der Bilder sehen und darüber sprechen kann (eine sogenannte Vision Language Model oder VLM). Dieser Roboter kann dir sagen, was auf einem Foto zu sehen ist, und er kann sogar Witze machen. Aber die Forscher aus dieser Studie haben eine ganz einfache, aber verblüffende Frage gestellt:

"Versteht dieser Roboter wirklich, wie die physische Welt funktioniert?"

Um das herauszufinden, haben sie einen Test namens Conservation-Bench (Erhaltungs-Bank) entwickelt.

🪄 Das Zauberspiel: Der Piaget-Test für Roboter

In der Psychologie gibt es ein klassisches Experiment für Kinder (entwickelt von Jean Piaget), das prüft, ob sie verstehen, dass sich die Menge eines Gegenstands nicht ändert, nur weil sich sein Aussehen ändert.

Stell dir dieses Szenario vor:

Du hast zwei Gläser. Glas A ist kurz und breit, Glas B ist hoch und dünn.
Du füllst Wasser aus Glas A in Glas B um.
Das Wasser steht nun viel höher in Glas B.

Ein kleines Kind (oder ein Erwachsener) weiß: "Es ist immer noch die gleiche Menge Wasser!" Das nennt man Erhaltung (Conservation). Die Menge bleibt gleich, auch wenn die Form sich ändert.

Die Forscher haben diesen Test für KI-Modelle in Videoform umgewandelt. Sie zeigten 112 verschiedenen KI-Modellen Videos, in denen Dinge umgeschüttet, auseinandergezogen oder umgeformt wurden. Die KI musste entscheiden: "Ist die Menge/die Länge/die Anzahl immer noch die gleiche?"

📉 Das schockierende Ergebnis: Die KI "halluziniert" die Physik

Das Ergebnis war ernüchternd. Die meisten KIs haben gescheitert.

Die KI ist wie ein Betrüger: Wenn die KI sieht, dass das Wasser im hohen Glas höher steht, denkt sie: "Oh, das ist mehr Wasser!" Sie ignoriert den Prozess des Umfüllens und schaut nur auf das Endergebnis.
Die KI ist wie ein Text-Student: Die Forscher haben herausgefunden, dass die KIs oft gar nicht auf das Video schauen, sondern nur auf die Worte in der Frage. Da die Frage oft so klingt wie ein Schulbuch ("Ist die Menge gleich?"), antworten die KIs automatisch mit "Ja", weil sie denken, das sei die "richtige" Antwort in einem Test.
- Analogie: Stell dir vor, du fragst jemanden: "Wenn ich einen langen Strohhalm in zwei Teile schneide, ist die Gesamtlänge gleich?" Wenn die Person nur das Wort "Schneiden" hört, antwortet sie vielleicht "Nein", weil sie denkt, etwas wurde weggenommen. Aber wenn du sagst "Ich habe den Halm nur umgeformt", sollte die Antwort "Ja" sein. Die KIs scheitern daran, den Unterschied zu verstehen.

🎲 Der "Glücksfall"-Effekt

Interessanterweise haben die KIs bei den Tests, bei denen die Menge tatsächlich gleich blieb, oft recht geraten. Aber das war kein Beweis für Intelligenz!

Der Trick: Die KIs haben einfach immer "Ja" (Es bleibt gleich) gesagt, weil sie denken, das sei die Norm.
Der Beweis: Als die Forscher Videos zeigten, bei denen die Menge sich wirklich änderte (z. B. Wasser wurde weggelassen), fielen die KIs durch. Sie sagten immer noch "Ja, es ist gleich", weil sie auf ihre Text-Gewohnheiten hereingefallen sind.

Es ist, als würde ein Schüler in einer Mathearbeit immer die Zahl "5" ankreuzen, weil er denkt, das sei die richtige Antwort. Manchmal hat er Glück (wenn die Antwort wirklich 5 ist), aber wenn die Antwort 7 ist, ist er falsch.

🚀 Hilft mehr Rechenleistung oder bessere Fragen?

Die Forscher haben verschiedene Dinge ausprobiert, um den KIs zu helfen:

Mehr Bilder pro Sekunde: Haben wir der KI mehr Einzelbilder gezeigt (wie bei einem Film statt einem Standbild)? Nein, das half nicht.
Bessere Fragen: Haben wir der KI gesagt: "Schau genau hin, beschreibe jeden Schritt"? Nein, das machte es sogar schlimmer.
Größere Modelle: Sind die riesigen, teuersten Modelle besser? Nein, die Größe der KI spielte kaum eine Rolle.

🏁 Das Fazit: Was lernen wir daraus?

Die Studie zeigt, dass unsere aktuellen KI-Modelle zwar super darin sind, Bilder zu beschreiben und Texte zu schreiben, aber sie haben kein echtes Verständnis für die physische Welt.

Die KI hat keine "Bauchgefühl"-Physik: Sie versteht nicht, dass ein Ball, der flachgedrückt wird, immer noch die gleiche Masse hat.
Sie ist zu sehr auf Text fixiert: Sie verlässt sich mehr auf das, was sie in Büchern gelesen hat, als auf das, was sie auf dem Bildschirm sieht.

Die große Metapher:
Stell dir die KI wie einen sehr gut ausgebildeten Touristen vor, der eine Landkarte (Text) auswendig gelernt hat. Wenn du ihn fragst: "Wie sieht der Berg aus?", kann er dir perfekt beschreiben, wie er aussieht. Aber wenn du ihn in den echten Berg führt und sagst: "Der Weg ist steiler als auf der Karte, aber die Höhe ist gleich", wird er verwirrt sein. Er vertraut seiner Landkarte mehr als seinen eigenen Augen.

Zusammenfassend: Bislang können diese KIs nicht wirklich "sehen" und die Gesetze der Physik verstehen. Sie sind noch keine echten Roboter, die sicher in unserer dynamischen Welt agieren können, ohne sich zu täuschen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Obwohl Vision Language Models (VLMs) beeindruckende Fortschritte in der Wahrnehmung und im visuellen Common-Sense-Verständnis gezeigt haben, bleibt unklar, ob sie physikalische Prinzipien wirklich verstehen oder lediglich oberflächliche Muster erkennen. Ein zentraler Aspekt menschlicher Intelligenz für das Navigieren in einer physischen Welt ist die Fähigkeit, physikalische Transformationen zu verstehen und zu schlussfolgern.

Spezifisch geht es um das Konzept der Konstanz (Conservation): Die Erkenntnis, dass bestimmte physikalische Größen (wie Menge, Volumen, Länge oder Anzahl) unter Transformationen (z. B. Umfüllen, Ausbreiten, Verformen) invariant bleiben, auch wenn sich das Erscheinungsbild ändert. Bisherige Benchmarks testen oft statische Szenen oder die Generierung physikalisch plausibler Videos, lassen aber die Frage offen, ob VLMs in der Lage sind, über dynamische Transformationen hinweg stabile Repräsentationen physikalischer Eigenschaften zu bilden und diese von rein textuellen Vorurteilen zu unterscheiden.

2. Methodik: ConservationBench

Die Autoren stellen ConservationBench vor, einen kognitiv fundierten Benchmark, der die Fähigkeit von VLMs testet, physikalische Größen unter Transformationen als konstant zu erkennen.

Datensatz: Der Benchmark umfasst 384 Videos (192 konservierende Aufgaben + 192 nicht-konservierende Kontrollaufgaben), die über vier quantitative Eigenschaften verteilt sind:
1. Anzahl (Number): Ausbreiten von Münzen.
2. Länge (Length): Verschieben von Strohhalmen.
3. Volumen (Volume): Umfüllen von Flüssigkeit in Gefäße unterschiedlicher Form.
4. Größe/Masse (Size): Umformen von Knetmasse.
Aufgabenstruktur:
- Konservierende Aufgaben: Die physikalische Größe bleibt trotz visueller Veränderung erhalten (z. B. gleiche Anzahl Münzen, aber weiter auseinander).
- Nicht-konservierende Kontrollen (Counterfactuals): Die Größe ändert sich tatsächlich (z. B. wird eine Münze hinzugefügt), während irrelevante Merkmale konstant bleiben. Dies dient dazu, zu prüfen, ob Modelle echte Transformationen erkennen oder nur auf Heuristiken zurückgreifen.
Experimentelle Bedingungen: Um verschiedene Faktoren zu isolieren, wurden 23.040 Versuche (Trials) durchgeführt, indem folgende Variablen systematisch variiert wurden:
- Temporal Resolution: Anzahl der extrahierten Frames (3, 5, 7, 9, 16 Frames).
- Sampling-Strategie: Gleichmäßige Stichprobe, menschlich ausgewählte Frames (basierend auf Intuition) und modellbasierte Auswahl (SeViLA/BLIP-2).
- Prompting-Strategien: Direkte Fragen, sequenzielle Verarbeitung, Chain-of-Thought (CoT) und Betonung der Kontinuität.
Modell-Pool: Evaluation von 112 verschiedenen VLMs (von 1B bis 76B Parametern), einschließlich kommerzieller und Open-Source-Modelle.

3. Wichtige Ergebnisse

Systematisches Versagen: Die meisten Modelle (112 getestete) erreichen nur eine Genauigkeit nahe dem Zufallsniveau (ca. 33 %). Selbst die besten Modelle liegen weit unter menschlicher Leistung (Menschen: ~98 %).
Inversionseffekt (Bias): Es wurde eine starke negative Korrelation ( $r = -0.51$ ) zwischen der Leistung auf konservierenden und nicht-konservierenden Aufgaben festgestellt. Modelle, die bei konservierenden Aufgaben gut abschneiden, scheitern oft bei den Kontrollaufgaben. Dies deutet darauf hin, dass sie nicht die Transformation analysieren, sondern stattdessen eine Heuristik der Invarianz anwenden (sie antworten standardmäßig „nein, es hat sich nichts geändert", was bei konservierenden Aufgaben richtig, bei Kontrollen aber falsch ist).
Textuelle Priors vs. Visuelle Eingabe:
- In Experimenten mit leeren Bildern (nur Text-Prompt) oder reinen Text-Prompts neigten Modelle stark zu „Invarianz"-Antworten (ca. 70–85 %).
- Interessanterweise führte das Hinzufügen echter visueller Inhalte zu einer Verschlechterung der Leistung bei konservierenden Aufgaben. Die visuellen Informationen scheinen die korrekte textuelle Vorhersage zu stören, anstatt sie zu unterstützen. Modelle können visuelle Transformationen nicht nutzen, um ihre textuellen Priors zu validieren.
Kein Nutzen durch mehr Frames oder bessere Prompts:
- Erhöhte temporale Auflösung (mehr Frames) verbesserte die Leistung nicht signifikant.
- Chain-of-Thought (CoT) Prompts verschlechterten die Leistung sogar, da sie die Modelle dazu brachten, ihre fragilen Heuristiken verbal zu untermauern.
- Human-curated Sampling (menschlich ausgewählte Frames) half nicht; bei komplexen Aufgaben (Volumen/Größe) performten sogar gleichmäßige Stichproben besser.
Skalierungsgesetze: Die Leistung bei konservierenden Aufgaben korreliert nicht mit der Modellgröße ( $R^2 = 0.019$ ). Größere Modelle zeigen kein „Emergent Behavior" in diesem Bereich. Im Gegensatz dazu zeigen nicht-konservierende Aufgaben eine leichte positive Korrelation mit der Größe, was darauf hindeutet, dass größere Modelle besser darin sind, Textmuster zu erkennen, aber nicht, physikalische Invarianzen zu verstehen.

4. Schlüsselbeiträge

Einführung von ConservationBench: Ein rigoroser Benchmark, der über statische Zähl- oder Erkennungsaufgaben hinausgeht und die Fähigkeit zur Verfolgung von Invarianzen über dynamische Transformationen hinweg testet.
Nachweis des Fehlens physikalischer Reasoning-Fähigkeiten: Der Nachweis, dass aktuelle VLMs keine transformation-invarianten Repräsentationen physikalischer Eigenschaften bilden können.
Entkopplung von Text und Vision: Die Demonstration, dass VLMs oft starke textuelle Vorurteile (Bias) besitzen, die durch visuelle Eingaben aktiv gestört werden, anstatt durch diese verbessert zu werden.
Fehlende Skalierbarkeit: Die Erkenntnis, dass das Verständnis physikalischer Transformationen nicht einfach durch das Vergrößern von Modellen oder das Hinzufügen von mehr Daten erreicht wird.

5. Bedeutung und Implikationen

Die Ergebnisse haben tiefgreifende Konsequenzen für die Entwicklung von Embodied AI (robotischen Systemen, die in der physischen Welt agieren). Wenn Modelle nicht verstehen, dass sich die Menge einer Flüssigkeit beim Umfüllen nicht ändert, können sie keine zuverlässigen physikalischen Vorhersagen treffen oder Werkzeuge sicher bedienen.

Das Paper zeigt, dass aktuelle VLMs eher auf oberflächliche Heuristiken und textuelle Priors angewiesen sind als auf ein tiefes, strukturiertes Verständnis der physikalischen Welt. Es unterstreicht die Notwendigkeit neuer Architekturen oder Trainingsmethoden, die eine echte Integration von sequenzieller visueller Information und physikalischem Common Sense ermöglichen, anstatt nur auf statischen Mustern zu basieren. Der Benchmark dient als wichtiger diagnostischer Test („Sanity Check") für zukünftige Fortschritte in der physikalischen KI.

Vision Language Models Cannot Reason About Physical Transformation

🧠 Der große Test: Können KI-Augen wirklich sehen und verstehen?

🪄 Das Zauberspiel: Der Piaget-Test für Roboter

📉 Das schockierende Ergebnis: Die KI "halluziniert" die Physik

🎲 Der "Glücksfall"-Effekt

🚀 Hilft mehr Rechenleistung oder bessere Fragen?

🏁 Das Fazit: Was lernen wir daraus?

1. Problemstellung

2. Methodik: ConservationBench

3. Wichtige Ergebnisse

4. Schlüsselbeiträge

5. Bedeutung und Implikationen

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes