Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Die Arbeit stellt CoMa vor, einen effizienten Vortrainingsansatz, der durch eine komprimierte Phase das semantische Verständnis von Multimodal Large Language Models verbessert und sie so mit wenig Daten zu wettbewerbsfähigen Embedding-Modellen für Downstream-Aufgaben macht.

Da Li, Yuxiao Luo, Keping Bi, Jiafeng Guo, Wei Yuan, Biao Yang, Yan Wang, Fan Yang, Tingting Gao, Guorui Zhou

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der überfüllte Koffer

Stell dir vor, du hast einen riesigen, multimodalen KI-Modell (ein „Multimodales Large Language Model" oder MLLM). Dieses Modell ist wie ein Super-Intelligenz-Bibliothekar, der Millionen von Büchern (Texten) und Bildern kennt. Er kann alles verstehen und beschreiben.

Aber jetzt willst du ihn nicht mehr als Bibliothekar nutzen, der lange Geschichten schreibt. Du willst ihn als schnellen Suchmaschinen-Scanner einsetzen. Wenn jemand ein Bild hochlädt, soll er sofort sagen: „Ah, das ist ein gelber Hamster!" und alle anderen Bilder von gelben Hamstern finden.

Das Problem ist: Der Bibliothekar ist darauf trainiert, alles zu erzählen. Wenn er ein Bild sieht, denkt er: „Ich muss jede einzelne Haarsträhne, jeden Schatten und den Hintergrund beschreiben." Das ist wie ein Koffer, der mit unnötigem Zeug überquillt. Wenn du versuchst, diesen riesigen, unordentlichen Koffer in eine kleine Schublade (einen „Embedding" oder eine Zusammenfassung) zu stecken, um ihn schnell zu vergleichen, passiert das nicht gut. Die wichtigen Details gehen im Chaos unter.

Bisherige Methoden versuchten, den Bibliothekar durch massives „Vergleichs-Training" (Contrastive Learning) zu zwingen, einfach nur das Wichtige zu merken. Das funktioniert, braucht aber riesige Mengen an Daten und ist sehr teuer und langsam.

Die Lösung: CoMa (Komprimieren, dann Vergleichen)

Die Autoren von CoMa haben eine geniale Idee: Warum versuchen wir nicht, dem Bibliothekar erst beizubringen, wie man einen Koffer effizient packt, bevor wir ihn zum Suchen schicken?

Sie teilen den Prozess in zwei einfache Schritte auf:

Schritt 1: Das „Komprimieren" (Der Pack-Experte)

Stell dir vor, du hast ein Bild von einem Hamster.

  • Der alte Weg: Der Bibliothekar schreibt eine 10-seitige Beschreibung.
  • Der CoMa-Weg: Der Bibliothekar muss das Bild in 32 kleine, magische Zettel (die „Compression Tokens") packen.

Hier kommt der Trick: Der Bibliothekar bekommt eine Aufgabe. Er sieht das Bild und muss sich vorstellen, dass jemand ihm danach viele verschiedene Fragen stellt:

  • „Was ist das?"
  • „Welche Farbe hat es?"
  • „Was macht es gerade?"
  • „Wie sieht der Hintergrund aus?"

Um auf alle diese Fragen antworten zu können, muss er das Bild in den 32 Zetteln so perfekt zusammenfassen, dass keine wichtige Information verloren geht. Er lernt also, das Wesentliche zu extrahieren und den „Müll" (überflüssige Details) wegzulassen.

Der Clou: Sie haben eine Maschine gebaut, die automatisch diese Fragen für jedes Bild generiert. Sie brauchen also keine teuren menschlichen Trainer, die Fragen stellen. Die KI erfindet ihre eigenen Übungen.

Schritt 2: Das „Vergleichen" (Der Such-Experte)

Sobald der Bibliothekar gelernt hat, Bilder in diese perfekten 32 Zettel zu packen, kommt der zweite Schritt.
Jetzt wird er geübt, diese Zettel mit anderen Zetteln zu vergleichen.

  • Bild A (Hamster) hat Zettel-Set A.
  • Bild B (Hamster) hat Zettel-Set B.
  • Bild C (Katze) hat Zettel-Set C.

Der Bibliothekar lernt nun nur noch: „Wenn Zettel-Set A und Zettel-Set B ähnlich aussehen, dann gehören die Bilder zusammen." Da er im ersten Schritt schon gelernt hat, das Bild gut zusammenzufassen, fällt ihm dieser zweite Schritt sehr leicht.

Warum ist das so toll? (Die Analogie)

Stell dir vor, du willst zwei Bibliotheken vergleichen.

  • Methode A (Alt): Du musst jede einzelne Seite jedes Buches in beiden Bibliotheken lesen und vergleichen. Das dauert ewig und du brauchst Tausende von Bibliothekaren.
  • Methode B (CoMa): Du lässt zuerst einen Experten die Bücher in kurze, prägnante Zusammenfassungen (die 32 Zettel) umwandeln. Dann vergleichst du nur noch diese kurzen Zusammenfassungen.
    • Es geht viel schneller.
    • Du brauchst viel weniger Personal (Daten).
    • Das Ergebnis ist oft sogar besser, weil die Zusammenfassungen die wichtigsten Punkte treffen.

Das Ergebnis

Die Forscher haben gezeigt, dass CoMa mit nur 10 % der Daten auskommt, die andere Methoden benötigen. Es ist wie ein Sportler, der mit weniger Training bessere Ergebnisse erzielt, weil er die Technik (das Packen der Zettel) perfektioniert hat, bevor er den Wettkampf (das Suchen) beginnt.

Zusammengefasst:
CoMa ist wie ein Trainingslager für eine KI. Zuerst lernt sie, wie man ein komplexes Bild in eine kurze, aber vollständige Zusammenfassung verwandelt (Komprimierung), indem sie sich selbst Fragen dazu stellt. Danach lernt sie, diese Zusammenfassungen schnell miteinander zu vergleichen (Matching). Das macht die KI schneller, effizienter und braucht weniger Daten, um super gut zu werden.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →