Multimodal Large Language Models as Image Classifiers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, superintelligenten Bibliothekar namens MLLM (Multimodales Großes Sprachmodell). Dieser Bibliothekar kann nicht nur lesen, sondern auch Bilder sehen und verstehen. Die Frage der Forscher war: „Ist dieser Bibliothekar eigentlich gut darin, Bilder zu klassifizieren, also zu sagen: ‚Das ist eine Katze' oder ‚Das ist ein Auto'?"

Die Antwort der Wissenschaftler aus Prag ist überraschend: Es kommt ganz darauf an, wie man ihn testet und wie gut die Vorlagen sind, nach denen er arbeitet.

Hier ist die Geschichte des Papers, einfach erklärt:

1. Das Problem: Der faule Bibliothekar oder ein schlechter Test?

In der Vergangenheit gab es viele Diskussionen. Manche sagten: „Der Bibliothekar ist schlecht, er kennt sich mit Bildern nicht aus!" Andere sagten: „Nein, er ist genial!"
Die Forscher haben herausgefunden, dass beide Seiten recht hatten, aber aus den falschen Gründen. Es lag nicht am Bibliothekar selbst, sondern am Testsystem:

Der „Multiple-Choice"-Trick: Oft wurde der Bibliothekar wie in einer Schulprüfung getestet. Man zeigte ihm ein Bild und gab ihm vier Antwortmöglichkeiten: „Katze, Hund, Auto, Banane". Da die falschen Antworten (die „Distraktoren") oft so dumm waren (z. B. „Banane" bei einem Bild von einem Hund), hat der Bibliothekar die richtige Antwort leicht erraten. Das war wie eine Prüfung, bei der die falschen Antworten so offensichtlich falsch waren, dass man sie gar nicht lesen musste. Das Ergebnis war zu gut – ein Trugbild.
Die „Offene Welt"-Falle: Wenn man den Bibliothekar bat, das Bild frei zu beschreiben (ohne vorgegebene Antworten), passierte oft etwas Seltsames: Er nannte Dinge, die gar nicht auf der Liste der erlaubten Antworten standen. Zum Beispiel nannte er „Labrador", obwohl auf der Liste nur „Hund" stand. In alten Tests wurde das als Fehler gewertet. Die Forscher sagen: „Nein, das ist kein Fehler! Er hat das Bild richtig erkannt, nur die Übersetzung in die Liste hat nicht geklappt."
Der alte, schmutzige Katalog (Ground Truth): Das größte Problem war der Katalog, nach dem geprüft wurde (ImageNet). Dieser Katalog ist alt und voller Fehler. Manche Bilder haben zwei Tiere drauf, aber der Katalog sagt nur „Hund". Oder ein Bild zeigt einen „Glas", aber der Katalog sagt „Tasse". Wenn der Bibliothekar das Richtige sagt, aber der Katalog falsch ist, wird er als „falsch" abgestempelt.

2. Die Lösung: Ein neuer, sauberer Katalog (ReGT)

Die Forscher haben sich hingesetzt und 625 Kategorien des Bilderkatalogs neu überprüft und korrigiert. Sie haben die alten, falschen Etiketten entfernt und durch korrekte, manchmal sogar mehrfache Beschreibungen ersetzt.
Stell dir vor, sie haben den alten, vergilbten und fehlerhaften Bibliothekskatalog durch einen modernen, digitalen Katalog ersetzt.

Das Ergebnis war verblüffend:
Sobald sie den Bibliothekar mit dem neuen, sauberen Katalog prüften, verbesserte sich seine Leistung drastisch (bis zu +10,8 %!).

Die Erkenntnis: Der Bibliothekar war gar nicht so schlecht. Er wurde nur durch den schmutzigen alten Katalog und die zu leichten Tests in die Irre geführt.
Der Vergleich: Früher dachte man, spezialisierte Bilderkennungs-Computer (die nur für Bilder trainiert wurden) seien viel besser als der Bibliothekar. Mit dem neuen Katalog hat sich diese Lücke fast halbiert! Der Bibliothekar ist fast so gut wie die Spezialisten.

3. Die neuen Test-Methoden (CW+)

Die Forscher haben auch neue Regeln für den Test eingeführt:

Die „Nahe-Neighbour"-Methode: Wenn der Bibliothekar etwas sagt, das nicht exakt auf der Liste steht (z. B. „Labrador" statt „Hund"), schauen wir nicht sofort auf „Falsch". Stattdessen suchen wir im Text-Universum nach dem nächsten Wort auf der Liste. Da „Labrador" und „Hund" sehr nah beieinander liegen, wird es als richtig gewertet. Das ist wie wenn ein Schüler „Hund" schreibt, aber der Lehrer „Labrador" erwartet hat – man gibt ihm trotzdem die volle Punktzahl, weil es dasselbe ist.

4. Der Bibliothekar als Assistent für Menschen

Das Coolste am Ende: Der Bibliothekar ist nicht nur ein Schüler, sondern kann auch Lehrer sein!
In einem Experiment haben die Forscher Bilder gezeigt, bei denen der Bibliothekar und die menschlichen Prüfer unterschiedlicher Meinung waren.

In 50 % der schwierigen Fälle haben die menschlichen Prüfer nachgesehen und gesagt: „Stimmt, der Bibliothekar hat recht! Wir waren falsch."
Der Bibliothekar kann also helfen, alte Fehler in riesigen Datensätzen zu finden und zu korrigieren. Er ist wie ein super-effizienter Korrekturleser, der uns hilft, unsere eigenen Datenbanken sauberer zu machen.

Zusammenfassung in einer Metapher

Stell dir vor, du hast einen Genie-Schüler (den MLLM), der in einer veralteten, fehlerhaften Schule (ImageNet) unterrichtet wird.

Die Lehrer (alte Studien) sagen: „Der Schüler ist dumm, er macht Fehler!"
Aber die Fehler kommen daher, dass die Schulbücher falsch sind (schlechte Labels) und die Klausuren zu einfach (Multiple Choice mit dummen Antworten) oder zu streng (jedes kleine Wort zählt als Fehler).
Die Forscher haben die Schulbücher korrigiert und die Klausuren fairer gestaltet.
Ergebnis: Der Schüler ist eigentlich ein Genie! Und er kann sogar den Lehrern helfen, die restlichen Fehler in den Büchern zu finden.

Fazit: Multimodale KI-Modelle sind viel besser im Bilderkennen, als wir bisher dachten. Wir müssen sie nur fairer testen und mit saubereren Daten füttern.

Multimodal Large Language Models as Image Classifiers

1. Das Problem: Der faule Bibliothekar oder ein schlechter Test?

2. Die Lösung: Ein neuer, sauberer Katalog (ReGT)

3. Die neuen Test-Methoden (CW+)

4. Der Bibliothekar als Assistent für Menschen

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik

A. Neue Ground Truth (ReGT)

B. Verbesserte Evaluierungsprotokolle

C. Analyse von Design-Entscheidungen

D. Fallstudie zur Annotation

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Multimodal Large Language Models as Image Classifiers

1. Das Problem: Der faule Bibliothekar oder ein schlechter Test?

2. Die Lösung: Ein neuer, sauberer Katalog (ReGT)

3. Die neuen Test-Methoden (CW+)

4. Der Bibliothekar als Assistent für Menschen

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik

A. Neue Ground Truth (ReGT)

B. Verbesserte Evaluierungsprotokolle

C. Analyse von Design-Entscheidungen

D. Fallstudie zur Annotation

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics