LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein sehr erfahrener Buchhändler, der auch noch ein riesiges Kino betreibt. Deine Aufgabe ist es, deinen Kunden genau das richtige Buch oder den perfekten Film für heute Abend vorzuschlagen.

Das Problem ist: Die Kunden kaufen nicht nur Bücher, sondern auch Filme. Und oft verrät das, was sie gestern im Kino gesehen haben, etwas darüber, welches Buch sie heute lesen wollen. Aber die Daten sind oft lückenhaft, und manchmal dominieren die Filme so sehr, dass die Buchempfehlungen untergehen.

Hier kommt die Idee dieses Papers ins Spiel: LLM-EMF. Das klingt kompliziert, ist aber im Grunde wie ein Super-Assistent, der drei besondere Fähigkeiten hat, um deine Empfehlungen zu verbessern.

Hier ist die Erklärung in einfachen Worten:

1. Der "Klugschreiber" (Die LLM-Erweiterung)

Stell dir vor, ein Kunde kauft ein Buch über "Weltraum". Ein normaler Computer sieht nur den Titel "Weltraum".
Unser neuer Assistent nutzt jedoch eine KI-Sprachmaschine (LLM), die wie ein sehr gebildeter Bibliothekar ist. Er nimmt den Titel und denkt sich extra Infos aus: "Ah, Weltraum! Das erinnert an Abenteuer, Science-Fiction, vielleicht mag der Kunde auch Dokumentationen über Astronomen."

Er schreibt diese neuen, reichen Informationen direkt auf das Buchetikett. So versteht das System nicht nur das Wort, sondern auch die Stimmung und die Zusammenhänge. Das hilft, Verbindungen zwischen völlig verschiedenen Bereichen (z. B. zwischen einem Weltraum-Buch und einem Sci-Fi-Film) herzustellen.

2. Der "Augen- und Text-Scanner" (Multimodale Fusion)

Früher haben Empfehlungssysteme oft nur auf die Nummer des Artikels (den Barcode) geschaut. Das ist wie jemand, der nur auf den Strichcode eines Apfels schaut, aber nicht sieht, ob er rot oder grün ist, oder ob er süß schmeckt.

Unser System schaut sich alles an:

Das Bild: Es nutzt einen speziellen Scanner (CLIP), der das Cover des Buches oder das Filmplakat betrachtet.
Den Text: Es liest die Beschreibung.
Die ID: Es kennt die Nummer.

Stell dir vor, du möchtest ein Geschenk kaufen. Du schaust dir das Foto an (sieht es toll aus?), liest die Beschreibung (ist es nützlich?) und kennst den Namen. Unser System kombiniert all diese Sinne, um ein viel besseres Bild vom Kunden zu bekommen als nur die reine Nummer.

3. Der "Faire Moderator" (Die hierarchische Aufmerksamkeit)

Das ist der wichtigste Trick gegen das Ungleichgewicht.
Stell dir vor, ein Kunde hat 100 Filme gesehen, aber nur 2 Bücher gelesen. Ein normaler Computer würde denken: "Der mag nur Filme!" und ignoriert die 2 Bücher komplett. Das ist unfair und führt zu schlechten Buchempfehlungen.

Unser System hat einen fairen Moderator eingebaut. Dieser Moderator sagt: "Moment mal! Auch wenn die Filme häufiger sind, die 2 Bücher sind genauso wichtig für das Gesamtbild. Wir müssen beide Seiten gleichwertig betrachten."

Er sorgt dafür, dass die seltenen Interessen (z. B. Bücher) nicht von den häufigen (Filme) erdrückt werden. Er balanciert die Waage, damit der Kunde auch dort gute Vorschläge bekommt, wo er weniger aktiv ist.

Das Ergebnis

Wenn du all diese drei Teile zusammenfügst – den klugen Text-Assistenten, den Alles-sehenden Scanner und den fairen Moderator – erhältst du ein System, das besser versteht, was der Nutzer wirklich will, auch wenn er zwischen verschiedenen Welten (Domains) hin- und herwechselt.

In Tests hat dieses System gezeigt, dass es deutlich besser ist als alle bisherigen Methoden, genau wie ein erfahrener Verkäufer, der nicht nur auf den Kassenbon schaut, sondern den Kunden wirklich kennt.

Kurz gesagt: Das Papier beschreibt einen neuen, schlauen Algorithmus, der Sprache, Bilder und faire Mathematik kombiniert, um dir genau das zu empfehlen, was du liebst – egal ob es ein Buch, ein Film oder etwas ganz anderes ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die sequenzielle Empfehlung (Sequential Recommendation, SR) zielt darauf ab, das nächste Item basierend auf der Historie der Benutzerinteraktionen vorherzusagen. Herkömmliche SR-Modelle arbeiten jedoch oft innerhalb einer einzigen Domäne und leiden unter Datenknappheit und Domänen-Bias, was die Generalisierungsfähigkeit einschränkt.

Die Cross-Domain Sequential Recommendation (CDSR) versucht, dieses Problem zu lösen, indem sie Interaktionen aus mehreren Domänen nutzt, um Wissen zu transferieren. Dennoch weisen bestehende CDSR-Ansätze drei wesentliche Mängel auf:

Sie konzentrieren sich primär auf Abhängigkeiten innerhalb einer Domäne und vernachlässigen komplexe Beziehungen zwischen den Domänen.
Sie nutzen multimodale Informationen (Bilder, Text) oft unzureichend.
Selbst LLM-basierte Ansätze berücksichtigen selten das Ungleichgewicht der Domänen (Domain Imbalance), was dazu führt, dass Domänen mit häufigeren Interaktionen die Empfehlungen dominieren und seltenere Domänen unterrepräsentiert werden.

2. Methodik: Das LLM-EMF Framework

Das vorgeschlagene LLM-EMF-Framework integriert Prompt-Engineering mit Large Language Models (LLMs), multimodale Fusion und eine hierarchische Aufmerksamkeitsmechanik, um diese Lücken zu schließen. Der Aufbau gliedert sich in folgende Komponenten:

A. Prompt-basierte LLM-Verstärkung (Textual Enrichment)

Um die semantische Ausrichtung zwischen verschiedenen Domänen zu verbessern, wird ein LLM (Deepseek-r1) eingesetzt, um domänenagnostische textuelle Attribute zu generieren.

Prozess: Für jedes Item wird ein vordefinierter Prompt verwendet, der Titel und Domäneninformationen enthält. Das LLM generiert daraufhin zusätzlichen Kontext, Schlüsselwörter und potenzielle Benutzerinteressen.
Ziel: Diese generierten Texte erweitern die Item-Repräsentation über die bloßen Metadaten hinaus und schaffen eine gemeinsame semantische Basis für verschiedene Domänen.

B. Multimodale Feature-Integration

Das Framework vereinheitlicht drei Arten von Embeddings:

ID-Embeddings: Lernbare Vektoren für Item-IDs ( $E_{id}$ ).
Visuelle Embeddings: Generiert durch einen eingefrorenen CLIP-Image-Encoder ( $E_{img}$ ).
Textuelle Embeddings: Generiert durch den CLIP-Text-Encoder, der sowohl die Original-Titel als auch die durch das LLM angereicherten Texte verarbeitet ( $E_{tex}$ ).

C. Hierarchischer Aufmerksamkeitsmechanismus (Hierarchical Attention)

Ein zentrales Element ist die Behandlung von Sequenzen aus drei Perspektiven:

$S_X$ : Interaktionen nur in Domäne X.
$S_Y$ : Interaktionen nur in Domäne Y.
$S_{X+Y}$ : Die verschmolzene Sequenz beider Domänen.

Um das Problem des Domänen-Ungleichgewichts zu lösen, wird ein hierarchischer Aufmerksamkeitsmechanismus verwendet. Dieser verarbeitet die drei Subsequenzen getrennt, bevor sie fusioniert werden. Dies verhindert, dass eine Domäne mit vielen Interaktionen die Vorhersage dominiert.

Innerhalb jeder Sequenz wird ein Self-Attention-Mechanismus (Query, Key, Value) angewendet, um sowohl intra- als auch inter-sequentielle Abhängigkeiten zu erfassen.
Die finalen Repräsentationen ( $h_{id}, h_{img}, h_{tex}$ ) werden gewichtet kombiniert, wobei Gewichtungsfaktoren ( $\alpha, \beta$ ) und Domänen-Parameter ( $\lambda_1, \lambda_2$ ) die Beiträge von ID, Bild, Text und den verschiedenen Domänen steuern.

D. Vorhersage und Verlustfunktion

Die Vorhersage erfolgt durch den Vergleich der aggregierten Sequenzrepräsentation mit den Item-Embeddings mittels Kosinus-Ähnlichkeit. Der Gesamtverlust ist eine gewichtete Summe der Verluste für die einzelnen Domänen und die kombinierte Domäne, um eine ausgewogene Optimierung sicherzustellen.

3. Hauptbeiträge

Prompt-Strategie: Entwicklung einer Prompt-basierten LLM-Verstärkung, die domänenagnostische textuelle Attribute erzeugt und so die semantische Ausrichtung zwischen Domänen verbessert.
Einheitliches Multimodales Framework: Ein neuartiger Ansatz, der visuelle, textuelle (angereichert durch LLM) und ID-basierte Embeddings in einem einzigen Framework fusioniert.
Domänen-balancierte Hierarchie: Ein hierarchischer Aufmerksamkeitsmechanismus, der explizit den Einfluss jeder Domäne reguliert und verhindert, dass häufige Domänen seltene Domänen in den Empfehlungen verdrängen.
State-of-the-Art Performance: Das Framework ist laut den Autoren das erste CDSR-System, das LLM-generiertes Wissen systematisch mit multimodaler Fusion und Domänen-Balance integriert.

4. Ergebnisse

Die Evaluation wurde auf zwei CDSR-Szenarien basierend auf dem Amazon-Datensatz durchgeführt:

Food-Kitchen (Lebensmittel & Küche)
Movie-Book (Filme & Bücher)

Ergebnisse:

LLM-EMF übertraf konsistent alle bestehenden State-of-the-Art-Methoden (inkl. LLMRec, IFCDSR, MAN, SASRec) in allen Metriken.
Food-Kitchen Szenario: Erzielte einen MRR von 9,24 % (Food) und 5,13 % (Kitchen), was signifikant höher ist als der zweitbeste Ansatz (MIFN: 8,55 % / 4,09 %).
Movie-Book Szenario: Erzielte einen MRR von 6,32 % (Movie) und 2,86 % (Book), wiederum deutlich besser als die Konkurrenz.
Ablationsstudie: Zeigte, dass jeder einzelne Baustein (Text-Fusion, LLM-Verstärkung, Visuelle Fusion) einen messbaren positiven Beitrag leistet. Die Kombination aller Komponenten führte zu den besten Ergebnissen.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die Integration von Large Language Models zur semantischen Anreicherung von Item-Beschreibungen in Kombination mit multimodalen Daten (Bilder) und einem ausgewogenen Aufmerksamkeitsmechanismus die Leistung von Cross-Domain-Empfehlungssystemen erheblich steigern kann.

Der Kernvorteil liegt darin, dass LLM-EMF nicht nur die Datenmenge durch Transferlernen nutzt, sondern auch die Qualität der Repräsentation durch tiefere semantische und visuelle Einblicke verbessert. Dies ist besonders relevant für reale E-Commerce-Szenarien, wo Benutzer oft in verschiedenen Kategorien (z. B. Elektronik und Kleidung) aktiv sind und wo Daten in manchen Domänen spärlich vorhanden sind. Das Framework bietet einen robusten Weg, um diese Sparsity-Probleme zu überwinden und personalisierte, kontextbewusste Empfehlungen über Domänengrenzen hinweg zu liefern.