LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

Die Arbeit stellt LLM-EMF vor, ein neuartiges Modell für die cross-domain sequenzielle Empfehlung, das durch die Fusion von visuellen und textuellen Daten mittels eines eingefrorenen CLIP-Modells sowie die Integration von Large-Language-Model-Kenntnissen und einem Multi-Attention-Mechanismus die Vorhersagegenauigkeit von Benutzerpräferenzen über verschiedene Domänen hinweg signifikant verbessert.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang, Xianglin Qiu, Siqi Song, Xiaowei Huang, Fei Ma, Jimin Xiao

Veröffentlicht 2026-03-02
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein sehr erfahrener Buchhändler, der auch noch ein riesiges Kino betreibt. Deine Aufgabe ist es, deinen Kunden genau das richtige Buch oder den perfekten Film für heute Abend vorzuschlagen.

Das Problem ist: Die Kunden kaufen nicht nur Bücher, sondern auch Filme. Und oft verrät das, was sie gestern im Kino gesehen haben, etwas darüber, welches Buch sie heute lesen wollen. Aber die Daten sind oft lückenhaft, und manchmal dominieren die Filme so sehr, dass die Buchempfehlungen untergehen.

Hier kommt die Idee dieses Papers ins Spiel: LLM-EMF. Das klingt kompliziert, ist aber im Grunde wie ein Super-Assistent, der drei besondere Fähigkeiten hat, um deine Empfehlungen zu verbessern.

Hier ist die Erklärung in einfachen Worten:

1. Der "Klugschreiber" (Die LLM-Erweiterung)

Stell dir vor, ein Kunde kauft ein Buch über "Weltraum". Ein normaler Computer sieht nur den Titel "Weltraum".
Unser neuer Assistent nutzt jedoch eine KI-Sprachmaschine (LLM), die wie ein sehr gebildeter Bibliothekar ist. Er nimmt den Titel und denkt sich extra Infos aus: "Ah, Weltraum! Das erinnert an Abenteuer, Science-Fiction, vielleicht mag der Kunde auch Dokumentationen über Astronomen."

Er schreibt diese neuen, reichen Informationen direkt auf das Buchetikett. So versteht das System nicht nur das Wort, sondern auch die Stimmung und die Zusammenhänge. Das hilft, Verbindungen zwischen völlig verschiedenen Bereichen (z. B. zwischen einem Weltraum-Buch und einem Sci-Fi-Film) herzustellen.

2. Der "Augen- und Text-Scanner" (Multimodale Fusion)

Früher haben Empfehlungssysteme oft nur auf die Nummer des Artikels (den Barcode) geschaut. Das ist wie jemand, der nur auf den Strichcode eines Apfels schaut, aber nicht sieht, ob er rot oder grün ist, oder ob er süß schmeckt.

Unser System schaut sich alles an:

  • Das Bild: Es nutzt einen speziellen Scanner (CLIP), der das Cover des Buches oder das Filmplakat betrachtet.
  • Den Text: Es liest die Beschreibung.
  • Die ID: Es kennt die Nummer.

Stell dir vor, du möchtest ein Geschenk kaufen. Du schaust dir das Foto an (sieht es toll aus?), liest die Beschreibung (ist es nützlich?) und kennst den Namen. Unser System kombiniert all diese Sinne, um ein viel besseres Bild vom Kunden zu bekommen als nur die reine Nummer.

3. Der "Faire Moderator" (Die hierarchische Aufmerksamkeit)

Das ist der wichtigste Trick gegen das Ungleichgewicht.
Stell dir vor, ein Kunde hat 100 Filme gesehen, aber nur 2 Bücher gelesen. Ein normaler Computer würde denken: "Der mag nur Filme!" und ignoriert die 2 Bücher komplett. Das ist unfair und führt zu schlechten Buchempfehlungen.

Unser System hat einen fairen Moderator eingebaut. Dieser Moderator sagt: "Moment mal! Auch wenn die Filme häufiger sind, die 2 Bücher sind genauso wichtig für das Gesamtbild. Wir müssen beide Seiten gleichwertig betrachten."

Er sorgt dafür, dass die seltenen Interessen (z. B. Bücher) nicht von den häufigen (Filme) erdrückt werden. Er balanciert die Waage, damit der Kunde auch dort gute Vorschläge bekommt, wo er weniger aktiv ist.

Das Ergebnis

Wenn du all diese drei Teile zusammenfügst – den klugen Text-Assistenten, den Alles-sehenden Scanner und den fairen Moderator – erhältst du ein System, das besser versteht, was der Nutzer wirklich will, auch wenn er zwischen verschiedenen Welten (Domains) hin- und herwechselt.

In Tests hat dieses System gezeigt, dass es deutlich besser ist als alle bisherigen Methoden, genau wie ein erfahrener Verkäufer, der nicht nur auf den Kassenbon schaut, sondern den Kunden wirklich kennt.

Kurz gesagt: Das Papier beschreibt einen neuen, schlauen Algorithmus, der Sprache, Bilder und faire Mathematik kombiniert, um dir genau das zu empfehlen, was du liebst – egal ob es ein Buch, ein Film oder etwas ganz anderes ist.