Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: „Mehr ist nicht immer besser"

Stell dir vor, du möchtest einen sehr klugen Roboter (einen KI-Modell) bauen, der Bilder versteht und darüber reden kann. Die aktuelle Annahme in der Tech-Welt war lange: „Wenn wir dem Roboter nur noch mehr Bilder und Texte zeigen, wird er von selbst schlau und kann alles verstehen."

Diese Studie sagt jedoch: „Nein, das funktioniert so nicht."

Das Problem liegt nicht daran, dass dem Roboter zu wenig Informationen fehlen, sondern daran, wie diese Informationen gesammelt wurden. Es ist ein Problem der Berichterstattung (im Englischen „Reporting Bias").

Die Analogie: Der Fotograf und der Reporter

Stell dir vor, du hast einen Fotografen, der Bilder macht, und einen Reporter, der die Bilder beschreibt.

Wie Menschen Bilder beschreiben: Wenn du ein Foto von einem Hund und einer Katze siehst, sagst du wahrscheinlich: „Ein Hund und eine Katze."
- Du sagst nicht: „Der Hund steht links von der Katze." (Das ist dir zu offensichtlich).
- Du sagst nicht: „Es gibt genau 37 Menschen im Hintergrund." (Das zählst du nicht).
- Du sagst nicht: „Der Hund wird gleich den Ball fangen." (Das ist eine Vermutung über die Zukunft).
- Du sagst nicht: „Hier ist kein Papagei." (Warum sollte man das erwähnen, wenn keiner da ist?)
Das Problem für den Roboter: Die KI lernt aus diesen Beschreibungen. Da die Menschen diese Details (Links/Rechts, Zählen, Zeit, Verneinungen) in ihren Beschreibungen fast immer weglassen, weil sie „selbstverständlich" oder „unnötig" wirken, lernt die KI nie, wie man diese Dinge tut.

Die KI denkt also: „Ah, Menschen erwähnen das nie. Also ist das wahrscheinlich nicht wichtig oder gar nicht vorhanden."

Was haben die Forscher herausgefunden?

Die Forscher haben drei große KI-Modelle untersucht (OpenCLIP, LLaVA, Molmo) und festgestellt:

Die Daten sind riesig, aber leer: Die Trainingsdaten enthalten Milliarden von Bildern. Aber wenn man genau hinsieht, fehlen darin fast alle Informationen über Raum (wo ist was?), Zeit (was passiert wann?), Zählen (wie viele?) und Verneinung (was ist nicht da?).
Mehr Skalen hilft nicht: Man könnte denken: „Okay, wir fügen einfach noch mehr Daten hinzu oder machen den Roboter noch größer." Die Studie zeigt: Das bringt nichts. Wenn die Grunddaten immer noch diese Lücken haben, wird ein riesiger Roboter mit riesigen Daten immer noch nicht besser im Zählen oder im Verstehen von „Links/Rechts". Es ist wie ein Koch, der nur mit Salz kocht – egal wie viele Töpfe er hat, er wird nie eine Suppe ohne Salz machen können.
Sprache spielt keine Rolle: Selbst wenn man Daten aus vielen verschiedenen Sprachen nimmt und ins Englische übersetzt, passiert das Gleiche. Menschen in allen Sprachen lassen diese Details aus.

Die Lösung: Der „Gute Chef" (Anweisungen)

Wie löst man das Problem? Nicht durch mehr Daten, sondern durch bessere Anweisungen.

Stell dir vor, du bist der Chef des Reporters.

Schlechter Chef: „Beschreibe das Bild." -> Der Reporter sagt: „Ein Hund."
Guter Chef: „Beschreibe das Bild, aber sag mir genau, wo der Hund steht, wie viele Tiere da sind und ob etwas fehlt." -> Der Reporter sagt: „Ein weißer Hund steht links von zwei Katzen. Es gibt keinen Papagei."

Die Forscher haben gezeigt: Wenn man die Menschen (oder andere KIs), die die Daten erstellen, explizit anweist, diese Details zu erwähnen, passiert Magie. Die Daten füllen sich mit den fehlenden Informationen.

Das Fazit für die Zukunft

Die Studie lehrt uns eine wichtige Lektion:
Wir können nicht einfach darauf hoffen, dass KI durch „Zufall" und „Menge" schlau wird. Wir müssen absichtlich und gezielt Daten sammeln. Wir müssen den Menschen (und den KIs), die die Daten schreiben, genau sagen, was sie tun sollen, damit sie die „stillschweigenden" Dinge (wie Zählen oder räumliche Beziehungen) auch wirklich aufschreiben.

Kurz gesagt: Ein riesiger Haufen Daten bringt nichts, wenn in allen Daten die gleichen wichtigen Details fehlen. Man muss die Daten erst „richtig" füllen, bevor die KI wirklich schlau werden kann.

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Das große Missverständnis: „Mehr ist nicht immer besser"

Die Analogie: Der Fotograf und der Reporter

Was haben die Forscher herausgefunden?

Die Lösung: Der „Gute Chef" (Anweisungen)

Das Fazit für die Zukunft

1. Problemstellung

2. Methodik

A. Theoretische Analyse & Datenuntersuchung

B. Benchmark-Erstellung

C. Skalierungsstudien (Scaling Laws)

D. Nutzerstudie zur Gegensteuerung

E. Feinabstimmung (Fine-Tuning)

3. Wichtige Ergebnisse

Datenanalyse (Reporting Bias)

Modellleistung

Wirksamkeit von Anweisungen

4. Hauptbeiträge

5. Bedeutung und Implikationen

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Das große Missverständnis: „Mehr ist nicht immer besser"

Die Analogie: Der Fotograf und der Reporter

Was haben die Forscher herausgefunden?

Die Lösung: Der „Gute Chef" (Anweisungen)

Das Fazit für die Zukunft

1. Problemstellung

2. Methodik

A. Theoretische Analyse & Datenuntersuchung

B. Benchmark-Erstellung

C. Skalierungsstudien (Scaling Laws)

D. Nutzerstudie zur Gegensteuerung

E. Feinabstimmung (Fine-Tuning)

3. Wichtige Ergebnisse

Datenanalyse (Reporting Bias)

Modellleistung

Wirksamkeit von Anweisungen

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora