CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Zwilling", der nicht kann, was der andere kann

Stell dir vor, du hast zwei sehr intelligente Assistenten:

Der "Sucher" (Embedding-Modell): Dieser Assistent ist ein Meister darin, Bilder und Texte zu verstehen und in eine Art Zusammenfassung (einen digitalen Fingerabdruck) zu verwandeln. Wenn du nach "einem Hund, der im Schnee spielt" suchst, findet er sofort das passende Foto. Aber er ist ein schlechter Erzähler. Wenn du ihn bittest, eine Geschichte über den Hund zu schreiben, stottert er.
Der "Erzähler" (Generatives Modell): Dieser Assistent ist ein genialer Schriftsteller. Er kann Bilder beschreiben, Witze machen und komplexe Fragen beantworten. Aber wenn du ihn bittest, ein Bild in einen kleinen, effizienten Code zu verwandeln, um es schnell zu speichern oder zu suchen, scheitert er. Er redet zu viel, ist zu detailliert und ineffizient.

Bisher mussten wir uns entscheiden: Entweder wir nutzen den Sucher (gut für Datenbanken, schlecht für Gespräche) oder den Erzähler (gut für Gespräche, schlecht für Datenbanken). Die Forscher sagen: "Warum nicht beides in einer Person?"

Die Lösung: CREM – Der "Kompressor" mit einem genialen Trick

Die Forscher von Tsinghua University und Kuaishou haben CREM entwickelt. Das Ziel war es, einen einzigen Assistenten zu bauen, der beides kann: super schnell suchen und super gut erzählen, ohne dass er dabei seine Fähigkeiten verliert.

Hier ist, wie sie das gemacht haben, mit ein paar Analogien:

1. Der "Chorus" (Der Chor) – Die magischen Token

Normalerweise sieht ein KI-Modell ein Bild wie einen riesigen Haufen von tausenden kleinen Puzzleteilen (Tokens). Das ist viel zu viel Information, um sie effizient zu speichern oder zu vergleichen.

CREM führt etwas Neues ein: Lernbare "Chorus-Token".

Die Analogie: Stell dir vor, du hast einen riesigen Chor mit 1000 Sängern (die Bild-Puzzleteile). Anstatt alle 1000 Stimmen aufzuzeichnen, um den Song zu verstehen, lassen die Forscher nur 16 spezielle Dirigenten (die Chorus-Token) zurück.
Diese 16 Dirigenten hören sich alle 1000 Sänger an und fassen die gesamte Essenz des Songs in wenigen, kraftvollen Noten zusammen.
Diese "Noten" sind jetzt die perfekte Zusammenfassung für die Suche (der Sucher ist glücklich) UND sie enthalten genug Information, um den Song später wieder zu erzählen (der Erzähler ist auch glücklich).

2. Der "Kompressions-Trick" beim Training

Wie lernt der Assistent, diese 16 Dirigenten zu benutzen?

Der alte Weg: Man trainierte den Sucher und den Erzähler getrennt. Das war wie zwei verschiedene Sportarten zu lernen, ohne dass sich die Muskeln gegenseitig helfen.
Der CREM-Weg: Sie nutzen einen Kompressions-Ansatz.
- Der Assistent wird gezwungen, das Bild erst in diese 16 "Chorus-Token" zu komprimieren.
- Dann wird er gefragt: "Kannst du basierend nur auf diesen 16 Token eine Antwort geben?"
- Gleichzeitig wird er geprüft: "Ist diese Zusammenfassung (die 16 Token) gut genug, um das Bild wiederzufinden?"
Das Ergebnis: Der Assistent lernt, dass die "Zusammenfassung" (für die Suche) und die "Erzählung" (für das Gespräch) eigentlich auf demselben Wissen basieren. Er wird effizienter, weil er lernt, das Wesentliche herauszufiltern.

3. Der "Schalter" beim Sprechen

Das Tolle an CREM ist, dass es zwei Modi hat:

Der "Voll-Modus" (Natürlich): Wenn du eine komplexe Frage stellst, nutzt das Modell alle Details des Bildes, um eine perfekte Antwort zu geben.
Der "Komprimierte Modus" (Effizient): Wenn du nur eine schnelle Suche brauchst oder wenig Speicherplatz hast, nutzt das Modell nur die 16 "Chorus-Token". Es ist wie ein Kurznachrichten-Format: extrem schnell, klein, aber immer noch verständlich.

Warum ist das so wichtig?

Kein Kompromiss mehr: Früher musste man sich zwischen "gut suchen" und "gut reden" entscheiden. CREM zeigt, dass man beides haben kann. Wenn man dem Modell beibringt, gute Zusammenfassungen zu machen (für die Suche), wird es sogar noch besser im Reden!
Platzsparend: Da das Modell die riesigen Bild-Daten in nur 16 "Token" zusammenfassen kann, braucht es viel weniger Speicherplatz im Arbeitsspeicher (RAM). Das ist wie der Unterschied zwischen einem riesigen DVD-Koffer und einem kleinen USB-Stick, der trotzdem den ganzen Film enthält.
Bessere Ergebnisse: In Tests hat CREM bei der Suche nach Bildern (MMEB-Benchmark) besser abgeschnitten als alle bisherigen Spezialisten, ohne dabei seine Fähigkeit zu verlieren, Bilder zu beschreiben.

Zusammenfassung in einem Satz

CREM ist wie ein genialer Bibliothekar, der gelernt hat, jeden dicken Roman auf eine einzige, perfekte Karteikarte zu komprimieren, um ihn schnell zu finden, aber der diese Karteikarte auch nutzen kann, um dir die ganze Geschichte lebendig zu erzählen – und das alles in einem einzigen Gehirn.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben in Aufgaben wie visueller Beschreibung und Bild-Frage-Antwort (VQA) beeindruckende Fortschritte gemacht. Ihre direkte Anwendung auf embedding-basierte Aufgaben (z. B. multimodale Suche und Empfehlungssysteme) ist jedoch problematisch:

Diskrepanz der Ziele: Generative Aufgaben (Next-Token-Vorhersage) und Embedding-Aufgaben (Ähnlichkeitssuche) haben unterschiedliche Optimierungsziele und Ausgabeformate.
Der Trade-off: Bisherige Ansätze nutzen oft kontrastives Fine-Tuning, um MLLMs für die Suche anzupassen. Dies führt jedoch häufig zum Verlust der generativen Fähigkeiten (das Modell kann keine Fragen mehr beantworten).
Unzureichende Vereinheitlichung: Existierende Versuche, beide Aufgaben zu vereinen (z. B. CAFe), behandeln Generierung und Embedding oft als separate Aufgaben mit einfacher Verlustaddition, was zu suboptimalen Ergebnissen führt, da die inhärente Verbindung zwischen den Aufgaben ignoriert wird.

Die zentrale Forschungsfrage lautet: Können MLLMs ihre Repräsentationsfähigkeit für die Suche verbessern, ohne dabei ihre generativen Fähigkeiten zu beeinträchtigen?

2. Methodik: CREM

Das vorgeschlagene Framework CREM (Compression-driven Representation Enhanced Model) löst dieses Problem durch einen einheitlichen Ansatz, der auf komprimierten Repräsentationen basiert.

A. Prompt-Design mit „Chorus Tokens"

Anstatt den End-of-Sequence (EOS)-Token oder alle visuellen Tokens für die Suche zu nutzen, führt CREM eine neue Art von Tokens ein:

Lernbare Chorus-Tokens ( $U$ ): Dies sind spezielle, lernbare Tokens, die als Brücke zwischen Embedding und Generierung dienen.
Semantische Kompression: Die Chorus-Tokens fassen die visuellen ( $V$ ) und textuellen ( $T$ ) Informationen in einen kompakten Satz von Tokens zusammen. Sie fungieren als universelle Repräsentation für downstream-Aufgaben.
Prompt-Struktur: Der Prompt wird so gestaltet, dass die Chorus-Tokens zwischen der Embedding-Anweisung und der Generierungsanweisung platziert werden.

B. Compression-Aware Attention (Aufmerksamkeits-Maskierung)

Ein Kernstück des Frameworks ist eine asymmetrische Aufmerksamkeitsmaske:

Die Chorus-Tokens dürfen auf alle visuellen und textuellen Eingaben zugreifen, um die Informationen zu komprimieren.
Die Generierungs-Tokens (Fragen und Antworten) dürfen nur auf die komprimierten Chorus-Tokens zugreifen, nicht auf die ursprünglichen visuellen Tokens.
Dies erzwingt, dass die gesamte semantische Information für die Generierung in den Chorus-Tokens enthalten sein muss, was die Repräsentationsqualität für die Suche erhöht.

C. Compression-Driven Training Strategy

Das Training optimiert zwei Ziele gleichzeitig in einem gemeinsamen Raum:

Kontrastives Lernen (Retrieval): Die Chorus-Tokens werden gepoolt (durchschnittlich), um ein Embedding zu erzeugen, das mit einem InfoNCE-Verlust für die Suche optimiert wird.
Generatives Lernen (Comprehension): Das Modell wird trainiert, Antworten zu generieren, die ausschließlich auf den komprimierten Chorus-Tokens basieren.
Stochastische Kompression: Während des Trainings wird mit einer Wahrscheinlichkeit $p$ (z. B. 0,5) entschieden, ob das Modell auf den vollen Kontext oder nur auf die komprimierten Tokens zurückgreifen soll. Dies fördert Robustheit und Fluency.
Daten-Mixing: Es werden zwei Datenquellen genutzt:
- Homogene Daten: Retrieval-Paare, die durch ein MLLM mit generativen QA-Daten angereichert wurden.
- Heterogene Daten: Verschiedene Open-Source-QA-Daten.
  Dies sorgt für Konsistenz und Generalisierung.

3. Schlüsselergebnisse

Die Autoren evaluieren CREM auf dem MMEB-Benchmark (Multimodal Embedding Benchmark) und verschiedenen Verständnis-Benchmarks (MMB, MMMU, etc.).

State-of-the-Art Retrieval: CREM erreicht auf MMEB die besten Ergebnisse, selbst im Vergleich zu Modellen, die ausschließlich auf Retrieval-Daten trainiert wurden (z. B. VLM2Vec, UniME).
- Beispiel (7B-Modell): CREM erreicht einen Durchschnittsscore von 72,1 auf MMEB, während der vorherige State-of-the-Art (UniME) bei 70,7 liegt.
Erhalt der Generierungsfähigkeit: Im Gegensatz zu reinen Embedding-Modellen behält CREM seine Fähigkeit zur Bildbeschreibung und Beantwortung komplexer Fragen nahezu vollständig bei.
- Modelle, die nur auf Retrieval trainiert wurden (CREMR), zeigen massive Einbußen bei generativen Aufgaben (z. B. Abfall auf 43,4 im MMB-Score).
- CREM bleibt bei 53,1 (2B) bzw. 63,2 (7B) im Durchschnitt, was dem Originalmodell (Qwen2-VL) entspricht.
Effizienz: Die komprimierten Chorus-Tokens können als KV-Cache für die Inferenz dienen. Das Modell reduziert die Anzahl der visuellen Tokens um das 80-fache, behält aber 83 % der Antwortqualität bei. Dies ermöglicht effizientere Inferenz mit geringerem Speicherbedarf.

4. Hauptbeiträge

Compression-Based Prompt Design: Einführung von lernbaren Chorus-Tokens als universelle Schnittstelle, die semantische Information für sowohl Retrieval als auch Generierung komprimiert.
Unified Training Framework: Entwicklung einer Trainingsstrategie, die kontrastives Lernen und Sprachmodellierung durch eine „compression-aware" Aufmerksamkeitsmaske und stochastische Kompression nahtlos vereint.
Nachweis der Synergie: Die Arbeit zeigt empirisch, dass generative Supervision die Repräsentationsqualität für Retrieval verbessert, wenn sie unter dem richtigen komprimierenden Paradigma trainiert wird.

5. Bedeutung und Fazit

CREM adressiert das fundamentale Problem des Trade-offs zwischen generativen und diskriminativen Fähigkeiten in multimodalen Modellen.

Paradigmenwechsel: Es widerlegt die Annahme, dass man sich zwischen einem guten Suchmodell und einem guten Chatbot entscheiden muss. Stattdessen zeigt es, dass beide Fähigkeiten auf gemeinsamen kognitiven Mechanismen (Cross-Modal-Alignment) basieren.
Praktische Relevanz: Durch die Kompression der visuellen Tokens in wenige Chorus-Tokens bietet CREM nicht nur bessere Embeddings, sondern auch eine effiziente Methode zur Reduzierung des Rechenaufwands (KV-Cache) in langen Kontexten.
Zukunft: Die Arbeit legt den Grundstein für skalierbare, einheitliche Repräsentationsmodelle, die sowohl für Suchmaschinen als auch für interaktive KI-Assistenten geeignet sind.

Zusammenfassend demonstriert CREM, dass eine kompressionsgetriebene Optimierung der Schlüssel ist, um die Lücke zwischen multimodaler Suche und multimodalem Verständnis zu schließen.