MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Die Arbeit stellt MM-TS vor, eine Methode für das kontrastive Lernen mit langschwanzigen Daten, die durch dynamische Temperatur- und Margin-Schedules in multimodalen Settings die Leistung verbessert und den InfoNCE-Loss mit dem Max-Margin-Ansatz vereint.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Lehrer in einer riesigen, chaotischen Klasse, die aus zwei Gruppen besteht: Bildern (Fotos und Videos) und Texten (Beschreibungen). Deine Aufgabe ist es, diese beiden Gruppen so zu verbinden, dass sie perfekt zusammenpassen – wie ein Schlüssel und ein Schloss. Das nennt man im Computer-Welt „multimodales Lernen".

Das Problem ist jedoch: In dieser Klasse gibt es eine riesige Ungleichheit.

  • Die „Populären": Es gibt Tausende von Bildern und Texten über alltägliche Dinge wie „Hunde", „Autos" oder „Kochen mit Eiern". Diese Themen tauchen ständig auf.
  • Die „Einsamen": Es gibt nur sehr wenige Beispiele für seltene Dinge, wie „einen speziellen alten Werkzeugkasten" oder „ein sehr spezifisches Tanzmanöver".

Wenn du den normalen Unterricht (den Standard-Algorithmus) machst, lernt der Computer nur die „Populären" gut. Die „Einsamen" werden ignoriert oder falsch verstanden, weil sie im Vergleich zu den Massen untergehen.

Hier kommt die neue Methode MM-TS ins Spiel. Sie ist wie ein genialer, dynamischer Unterrichtsplanner, der zwei Tricks anwendet, um jedem Schüler gerecht zu werden:

1. Der „Temperatur-Regler" (Der Thermostat)

Stell dir vor, der Computer nutzt einen unsichtbaren Thermostat, um zu entscheiden, wie streng er die Schüler behandelt.

  • Kaltes Wetter (Niedrige Temperatur): Wenn es kalt ist, werden die Schüler sehr empfindlich. Der Lehrer achtet auf jede kleinste Nuance. Das ist gut für die „Einsamen". Wenn es nur ein einziges Bild von einem seltenen Werkzeug gibt, muss der Computer genau hinsehen und es von allem anderen unterscheiden. Er lernt: „Achtung, das ist dieses spezielle Werkzeug, nicht irgendein anderes!"
  • Warmes Wetter (Hohe Temperatur): Wenn es warm ist, sind die Schüler entspannter. Der Lehrer achtet weniger auf Kleinigkeiten und mehr auf die große Gruppe. Das ist gut für die „Populären". Wenn es 10.000 Bilder von „Hunden" gibt, muss der Computer nicht jedes einzelne Hundebild als völlig einzigartig behandeln. Stattdessen lernt er: „Ah, das ist alles eine große Gruppe von Hunden." Er bildet also Gruppen (Cluster).

Der Trick von MM-TS: Anstatt den Thermostat den ganzen Tag auf einer Temperatur zu lassen, ändert der Lehrer ihn ständig. Mal ist es kalt (für die seltenen Dinge), mal warm (für die häufigen Dinge). So lernt der Computer beides perfekt.

2. Der „Gruppen-Zuteiler" (Die Verteilungs-Karte)

Jetzt kommt der zweite Teil, der das Besondere macht. Wie weiß der Lehrer, wann er kalt und wann er warm machen muss?

In normalen Klassen (nur Bilder) ist es schwer zu wissen, welche Themen selten sind. Aber in dieser speziellen Klasse haben wir Texte (Beschreibungen) zu jedem Bild.

  • Die Idee: Der Lehrer liest die Texte. Wenn er merkt, dass ein Wort wie „Hummus" in tausenden Texten vorkommt, weiß er: „Aha, das ist ein beliebtes Thema!"
  • Die Aktion: Für diese beliebten Themen schaltet er den Thermostat auf Warm. Die Bilder von Hummus dürfen sich in einer großen, gemütlichen Gruppe sammeln.
  • Die Seltenen: Wenn er merkt, dass ein Wort wie „Lever" (Leber) nur in wenigen Texten vorkommt, schaltet er den Thermostat auf Kalt. Das einzelne Bild der Leber wird isoliert und besonders sorgfältig behandelt, damit es nicht mit anderen Dingen verwechselt wird.

Warum ist das so toll?

Stell dir vor, du würdest versuchen, eine Bibliothek zu organisieren.

  • Ohne MM-TS: Du würdest alle Bücher in einen großen Haufen werfen. Die 10.000 Romane über Detektive würden den Raum füllen, und das einzige Buch über „Wie man einen alten Ofen repariert" würde unter den Detektivromanen verschwinden und nie gefunden werden.
  • Mit MM-TS: Du hast einen intelligenten Bibliothekar. Er weiß: „Detektivromane sind so häufig, dass wir sie in einen großen, warmen Raum stellen können, wo sie sich alle wohlfühlen." Aber für das „Ofen-Reparatur-Buch" sagt er: „Das ist einzigartig! Wir stellen es in einen kleinen, kühlen Raum, wo es genau hingehört und niemand es verwechselt."

Das Ergebnis

Durch diesen cleveren Wechsel zwischen „Warm" (Gruppenbildung für häufige Dinge) und „Kalt" (genaue Unterscheidung für seltene Dinge) versteht der Computer die Welt viel besser. Er wird nicht nur gut darin, alltägliche Dinge zu erkennen, sondern beherrscht plötzlich auch die seltenen und speziellen Fälle.

Das Papier zeigt, dass diese Methode auf verschiedenen Daten (Bilder, Videos, Texte) funktioniert und neue Rekorde in der KI-Forschung aufstellt. Es ist im Grunde wie ein maßgeschneiderter Lehrplan für eine KI, der sicherstellt, dass niemand zurückgelassen wird – egal wie selten sein Thema ist.