Large Multimodal Models as General In-Context Classifiers

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man große KI-Modelle zu super-Clownern macht – ohne sie neu zu erfinden

Stell dir vor, du hast zwei verschiedene Arten von Künstlern in deinem Atelier:

Der Spezialist (CLIP): Dieser Künstler ist extrem gut darin, Bilder zu vergleichen. Wenn du ihm ein Foto von einem Hund zeigst und fragst: „Ist das ein Hund, eine Katze oder ein Auto?", kann er das blitzschnell und fast immer richtig beantworten. Aber er ist stur: Er kennt nur die Begriffe, die du ihm vorher aufgelistet hast. Wenn du ihn fragst: „Was ist das für ein Tier?", antwortet er oft nur mit dem, was er gerade gelernt hat, oder er erfindet Dinge, die nicht passen.
Der Allrounder (LMM – Large Multimodal Model): Dieser Künstler ist ein Genie. Er kann Bilder beschreiben, Geschichten erzählen, Witze machen und komplexe Fragen beantworten. Aber wenn du ihn bittest, ein Bild nur in eine von drei Kategorien einzuordnen (z. B. „Hund, Katze, Auto"), macht er oft Fehler. Er ist zu kreativ und denkt zu viel nach, statt einfach nur zu klassifizieren.

Bisher dachten alle: „Für das einfache Einteilen von Bildern ist der Spezialist (CLIP) besser."

Die große Entdeckung dieses Papiers:
Die Forscher haben festgestellt, dass man dem Allrounder (LMM) einfach ein paar Beispiele geben muss, damit er plötzlich besser ist als der Spezialist.

Stell dir vor, du bringst dem Allrounder bei, wie man ein Bild klassifiziert, indem du ihm sagst:

„Schau mal, dieses Bild hier ist ein Hund."
„Und dieses hier ist eine Katze."
„Und dieses ist ein Auto."

Wenn du ihm dann ein neues Bild zeigst, schaut er auf diese Beispiele und sagt: „Aha! Das neue Bild sieht aus wie der Hund, also ist es ein Hund!"

Das nennt man „In-Context Learning" (Lernen im Kontext). Das Papier zeigt: Wenn man dem Allrounder ein paar Beispiele gibt, kann er den Spezialisten sogar schlagen!

Das Problem im „offenen Welt"-Szenario:
Jetzt wird es knifflig. Stell dir vor, du hast keine Liste mit Kategorien (keine Hunde, Katzen, Autos). Du hast nur einen Haufen Bilder und weißt nicht, was sie sind.

Wenn du dem Allrounder einfach nur zufällige Bilder zeigst, um ihm zu helfen, wird er verwirrt. Er beginnt zu halluzinieren und sagt Dinge wie: „Das ist ein Flugzeug, aber auch ein Hubschrauber und vielleicht ein Wetterballon." Das hilft nicht weiter.
Der Spezialist (CLIP) scheitert hier auch, weil er keine Liste von Kategorien hat, mit der er vergleichen kann.

Die Lösung: CIRCLE (Der selbstkorrigierende Kreis)
Hier kommt die geniale Idee des Papiers ins Spiel, genannt CIRCLE.

Stell dir vor, du hast eine Gruppe von Bildern, deren Inhalt du nicht kennst. Du willst sie sortieren.

Der erste Versuch: Du fragst den Allrounder: „Was ist auf diesem Bild?" Er antwortet: „Ich denke, das ist ein Hund."
Der Kreislauf: Jetzt nimmst du diese Antwort („Hund") und gibst sie dem Allrounder als Hinweis für die anderen Bilder.
- Du sagst: „Okay, wenn Bild A ein Hund ist, was ist dann Bild B? Ist es auch ein Hund oder vielleicht eine Katze?"
- Der Allrounder nutzt die Antwort für Bild A, um Bild B besser zu verstehen.
- Dann nutzt er die Antwort für Bild B, um Bild A nochmal zu überprüfen.

Das machen sie immer und immer wieder (wie ein Kreislauf). Durch dieses ständige „Nachdenken" und gegenseitige Abgleichen werden die Antworten immer genauer. Der Allrounder korrigiert sich selbst, bis er eine klare, konsistente Antwort findet.

Warum ist das toll?

Kein Training nötig: Man muss den KI-Modell nicht neu trainieren (was teuer und langsam ist). Man nutzt nur die Intelligenz, die schon da ist.
Besser als die Spezialisten: Mit dieser Methode (CIRCLE) sind die kreativen Allrounder-Modelle plötzlich besser darin, Bilder zu erkennen als die starren Spezialisten, besonders wenn es um schwierige, offene Fragen geht.
Flexibilität: Es funktioniert, egal ob du 4 Bilder oder 16 Bilder als Beispiele hast.

Zusammenfassung in einem Satz:
Das Papier zeigt, dass große KI-Modelle (LMMs) nicht schlechter im Klassifizieren sind als die alten Spezialisten – sie brauchen nur ein paar Beispiele und eine Methode, die sie dazu bringt, sich selbst zu korrigieren (CIRCLE), um ihr volles Potenzial zu entfalten.

Large Multimodal Models as General In-Context Classifiers

1. Problemstellung

2. Methodik

A. Closed-World-Analyse (Vordefinierte Klassen)

B. Open-World-Analyse (Keine vordefinierten Klassen)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Large Multimodal Models as General In-Context Classifiers

1. Problemstellung

2. Methodik

A. Closed-World-Analyse (Vordefinierte Klassen)

B. Open-World-Analyse (Keine vordefinierten Klassen)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation