TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed ist ein universelles multimodales Embedding-Framework, das durch die Kombination von Mixture-of-Experts und Low-Rank Adaptation sowie eine neue Expert-Aware Negative Sampling-Strategie Aufgabenkonflikte auflöst und damit den Skalierungseffekt für universelle multimodale Einbettungen ermöglicht.

Yebo Wu, Feng Liu, Ziwei Xie, Zhiyuan Liu, Changwang Zhang, Jun Wang, Li Li

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen Super-Assistenten, der alles über die Welt weiß: Bilder, Texte, Videos, Wissenschaft und Kunst. Das ist ein modernes „Multimodales Großes Sprachmodell" (MLLM). Es ist wie ein Genie, das alles kann.

Das Problem ist: Wenn Sie dieses Genie bitten, eine einzige Aufgabe zu erledigen (z. B. nur Bilder zu beschreiben), ist es brillant. Aber wenn Sie es bitten, alles gleichzeitig zu tun (Bilder beschreiben, Fragen beantworten, Objekte finden, Texte suchen), wird es verwirrt. Es versucht, alle Aufgaben mit demselben „Gehirn" zu lösen, und die verschiedenen Anforderungen prallen aufeinander wie Autos in einem Stau. Das nennt man im Papier „Task Conflict" (Aufgabenkonflikt).

Die Forscher von TSEmbed haben eine clevere Lösung dafür gefunden. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der überlastete Ein-Mann-Shop

Stellen Sie sich einen einzigen, riesigen Büroangestellten vor, der gleichzeitig:

  • Ein Bild malen soll,
  • Einen Kochrezept schreiben soll,
  • Einen Detektiv spielen soll, um Fehler in einem Text zu finden,
  • Und gleichzeitig eine Bibliothek sortieren soll.

Wenn er versucht, all das gleichzeitig zu tun, wird er chaotisch. Die Gedanken für das Kochen stören das Detektivspiel. Das Ergebnis ist, dass er bei jeder einzelnen Aufgabe schlechter wird als ein Spezialist, der sich nur auf eine Sache konzentriert. Bisherige KI-Modelle waren genau so: Ein einziger „Kopf" für alle Aufgaben, was zu schlechten Ergebnissen führte.

2. Die Lösung: TSEmbed – Das Team aus Spezialisten

TSEmbed löst dieses Problem, indem es den „Ein-Mann-Shop" in ein Team von Spezialisten verwandelt.

  • MoE (Mixture of Experts) = Das Expertenteam:
    Statt dass das Modell alles selbst macht, hat es jetzt ein Team von vier (oder mehr) kleinen Experten im Hintergrund.

    • Wenn Sie eine Frage zu einem Bild stellen, schaltet das System automatisch den „Bild-Experten" ein.
    • Wenn Sie nach einem Text suchen, schaltet es den „Such-Experten" ein.
    • Wenn Sie ein Objekt im Bild lokalisieren wollen, kommt der „Detektiv-Experte" zum Zug.
      Jeder Experte hat sein eigenes kleines Notizbuch (LoRA), in das er nur seine spezielle Aufgabe schreibt. Sie stören sich nicht gegenseitig. Das ist wie ein Orchester, bei dem jeder Musiker nur sein Instrument spielt, anstatt alle gleichzeitig zu trommeln.
  • LoRA (Low-Rank Adaptation) = Die leichten Notizbücher:
    Um das Team nicht zu schwer zu machen, schreiben die Experten nicht das ganze Buch neu. Sie nutzen kleine, leichte Notizbücher (LoRA), die nur die neuen Informationen enthalten. Das macht das System schnell und effizient, ohne den riesigen Computer zu überlasten.

3. Der Trick: „Schwierige" Gegner finden (EANS)

Ein KI-Modell lernt am besten, wenn es schwierige Fälle sieht.

  • Beispiel: Wenn das Modell lernen soll, einen Hund von einer Katze zu unterscheiden, ist es leicht, einen Hund von einem Auto zu unterscheiden (das ist ein „einfacher Gegner"). Aber ein Hund und eine Katze zu unterscheiden, ist schwer (ein „schwieriger Gegner").

Früher mussten die Computer erst mühsam alle Bilder durchsuchen, um diese schwierigen Paare zu finden. TSEmbed macht es schlauer:

  • EANS (Expert-Aware Negative Sampling): Das System schaut sich an, welcher Experte gerade aktiviert wurde.
  • Wenn zwei Bilder den gleichen Experten aktivieren (z. B. beide aktivieren den „Hund-Experten"), aber das eine Bild eigentlich eine Katze ist, dann weiß das System: „Aha! Das ist ein schwieriger Fall! Das hier ist ein sehr ähnlicher Gegner!"
  • Das System lernt dann besonders hart an diesen Fällen, um die Grenzen zwischen den Aufgaben scharf zu ziehen. Es ist, als würde ein Trainer einem Sportler sagen: „Vergiss die leichten Gegner, wir üben nur gegen die, die fast so gut sind wie du!"

4. Der Trainingsplan: Erst lernen, dann perfektionieren

Damit das System nicht verrückt wird, bevor es lernt, wer welcher Experte ist, gibt es einen zweistufigen Plan:

  1. Phase 1 (Warm-up): Zuerst trainiert das System ganz normal, damit die Experten herausfinden können: „Okay, ich bin für Bilder zuständig, du für Texte." Sie lernen ihre Rollen.
  2. Phase 2 (Verfeinerung): Erst wenn die Experten ihre Rollen sicher kennen, schaltet das System den „Schwierige-Gegner-Trainer" (EANS) ein, um die Feinheiten zu perfektionieren.

Das Ergebnis

Durch diese Methode schafft es TSEmbed, ein universelles Modell zu bauen, das bei allen Aufgaben (Suche, Fragen, Bilder, Texte) fast so gut ist wie spezialisierte Modelle, die nur für eine Sache gemacht wurden.

  • In der Praxis: Das Modell ist nicht nur schneller, sondern auch genauer. In echten Tests (z. B. bei Werbung oder in Apps) konnte es die Treffergenauigkeit drastisch verbessern (teilweise um über 20 %!).
  • Die Moral der Geschichte: Man muss nicht alles mit einem einzigen riesigen Gehirn lösen. Wenn man das Problem in kleine, spezialisierte Teams aufteilt und ihnen hilft, die schwierigsten Fälle zu erkennen, wird das Ergebnis viel besser.

Zusammenfassend: TSEmbed ist wie ein gut organisiertes Unternehmen, das statt eines überarbeiteten Chefs ein Team von Spezialisten hat, die sich gegenseitig nicht stören und besonders hart an den kniffligsten Fällen arbeiten.