Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier, als würde man es einem Freund beim Kaffee erzählen, mit ein paar kreativen Vergleichen.

Das Problem: Der "Blinde Fleck" im Empfehlungssystem

Stell dir vor, du bist ein Buchhändler, der einem Kunden Bücher empfiehlt. Aber du hast ein riesiges Problem: Du hast keine Ahnung, welche Bücher du dem Kunden nicht gezeigt hast.

In der digitalen Welt passiert genau das bei "Sequenziellen Empfehlungssystemen" (das sind Algorithmen, die dir sagen: "Da du gestern diesen Film gesehen hast, wirst du heute diesen lieben").

Diese Systeme schauen sich nur an, worauf du geklickt hast (deine "Interaktionen"). Aber sie ignorieren, was sie dir angezeigt haben, aber worauf du nicht geklickt hast.

Das führt zu zwei großen Verzerrungen (Bias):

Der "Unsichtbarkeits-Effekt" (Exposure Bias): Wenn ein Buch im Regal steht, aber du es nie siehst, denkt der Algorithmus: "Der Kunde mag dieses Buch gar nicht." Dabei hat er es einfach nur nie gesehen.
Der "Auswahl-Effekt" (Selection Bias): Wenn du ein Buch siehst, aber nicht kaufst, denkt der Algorithmus: "Der Kunde mag es nicht." Vielleicht war das Buch aber nur schlecht platziert oder der Preis zu hoch.

Der Vergleich: Stell dir vor, du bist ein Koch, der nur die Gerichte probiert, die die Gäste bestellt haben. Wenn ein Gast nichts bestellt, denkst du: "Er mag dieses Gericht nicht." Aber vielleicht hat er es gar nicht auf der Speisekarte gesehen!

Die alte Lösung: Der statische "Gerechtigkeits-Rechner"

Früher haben Forscher versucht, dieses Problem mit einer Methode namens IPS (Inverse Propensity Scoring) zu lösen.
Stell dir IPS wie einen statischen Gewichtsrechner vor. Er sagt: "Wenn ein Buch selten gezeigt wird, geben wir ihm beim Lernen einen höheren Punktwert, damit es nicht ignoriert wird."

Das Problem dabei: Dieser Rechner ist starr. Er vergisst die Zeit.

Er weiß nicht, dass du vor einem Jahr vielleicht Action-Filme mochtest, heute aber Romantik.
Er weiß nicht, dass ein neues iPhone gerade so populär ist, dass es immer angezeigt wird, während ein altes Modell selten zu sehen ist.
Er behandelt jede Interaktion isoliert, ohne zu verstehen, dass deine Vorlieben sich wie ein Fluss entwickeln, nicht wie einzelne Steine.

Die neue Lösung: HyperG (TIPS) – Der "Zeitbewusste Detektiv"

Die Autoren dieses Papers (Sirui Huang und sein Team) haben eine neue Methode namens HyperG (bzw. TIPS) entwickelt. Sie nennen es "Zeitbewusstes Inverse Propensity Scoring".

Stell dir HyperG nicht als statischen Rechner vor, sondern als einen Detektiv, der Zeitreisen macht.

Wie funktioniert der Detektiv?

Da der Algorithmus keine Daten darüber hat, was nicht angezeigt wurde, muss er sich das selbst ausdenken. Er nutzt eine Methode namens Gegenfaktisches Denken (Counterfactual Reasoning). Das klingt kompliziert, ist aber einfach: Er stellt sich Fragen wie: "Was wäre, wenn...?"

Der Detektiv erfindet drei Szenarien für jedes Buch, das du tatsächlich gekauft hast:

"Was wäre, wenn ich dir ein ähnliches Buch gezeigt hätte?"
- Analogie: Du hast "Harry Potter" gekauft. Der Detektiv fragt: "Was wäre, wenn ich dir stattdessen 'Der Herr der Ringe' gezeigt hätte? Hättest du das auch gekauft?" Wenn ja, war "Harry Potter" vielleicht nur zufällig da.
"Was wäre, wenn ich dir ein super-populäres Buch gezeigt hätte?"
- Analogie: "Was wäre, wenn ich dir den Bestseller des Monats gezeigt hätte? Hättest du ihn gekauft?" Das hilft dem System zu verstehen, ob du wirklich den spezifischen Inhalt mochtest oder nur dem Trend gefolgt bist.
"Was wäre, wenn ich dir das gleiche Buch zu einer anderen Zeit gezeigt hätte?"
- Analogie: "Was wäre, wenn ich dir 'Harry Potter' gestern statt heute gezeigt hätte?" Das hilft dem System zu verstehen, wie sich deine Stimmung im Laufe der Zeit ändert.

Die Magie der Zeit

Das Besondere an HyperG ist, dass es Zeit in diese Fragen einbaut.

Es weiß, dass deine Vorlieben sich ändern (wie ein Fluss).
Es berechnet für jedes Buch und jeden Zeitpunkt eine "Wahrscheinlichkeit, gesehen worden zu sein".
Wenn ein Buch selten gesehen wurde, aber du es trotzdem gekauft hast, sagt HyperG: "Wow! Das muss ein sehr starker Geschmack sein!" und gewichtet es höher.
Wenn ein Buch oft gesehen wurde, aber du es ignoriert hast, sagt es: "Okay, das mag der Kunde wirklich nicht."

Das Ergebnis: Ein fairerer und klügerer Assistent

Durch diese Methode lernt das Empfehlungssystem viel genauer, was du wirklich magst, und nicht nur, was du zufällig gesehen hast.

In der Praxis: Die Autoren haben ihren Algorithmus wie ein "Plug-in" (ein Zusatzmodul) in verschiedene bestehende Empfehlungssysteme eingebaut.
Das Ergebnis: Ob es sich um einfache Listen oder komplexe KI-Modelle handelt – überall, wo HyperG eingesetzt wurde, wurden die Empfehlungen besser. Besonders bei großen Datenmengen (wie bei Musik oder Filmen) war der Unterschied riesig.

Zusammenfassung in einem Satz

Statt blind darauf zu vertrauen, was du angeklickt hast, baut HyperG eine Zeitmaschine, die sich ausdenkt, was du getan hättest, wenn du andere Dinge gesehen hättest – und nutzt diese Gedankenexperimente, um dir genau das zu empfehlen, was du wirklich willst, nicht nur das, was der Algorithmus zufällig vor dir hingelegt hat.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring" auf Deutsch:

1. Problemstellung

Sequential Recommendation (SR) zielt darauf ab, die nächsten Interaktionen eines Nutzers basierend auf der zeitlichen Abfolge seines historischen Verhaltens vorherzusagen. Bestehende Ansätze, sowohl traditionelle sequenzielle Modelle (z. B. RNNs, Transformer) als auch generative Modelle (z. B. Diffusion-Modelle), leiden jedoch unter zwei wesentlichen Verzerrungen (Biases), da sie fast ausschließlich auf expliziten Interaktionen (Klicks, Käufe) basieren und Item-Expositionen (welche Items dem Nutzer angezeigt wurden) ignorieren:

Exposure Bias (Expositionsverzerrung): Items, die dem Nutzer nie angezeigt wurden, werden implizit als „nicht interessant" behandelt, obwohl der Nutzer sie möglicherweise gar nicht gesehen hat.
Selection Bias (Selektionsverzerrung): Items, die angezeigt, aber nicht angeklickt wurden, werden fälschlicherweise als „nicht interessant" interpretiert, obwohl die fehlende Interaktion auf die Display-Strategie oder den Kontext zurückzuführen sein könnte.

Herkömmliche Methoden zur Korrektur dieser Verzerrungen nutzen oft Inverse Propensity Scoring (IPS). IPS gewichtet beobachtete Interaktionen invers zu ihrer Expositionswahrscheinlichkeit. Der entscheidende Nachteil bestehender IPS-Methoden ist jedoch ihre Statischkeit: Sie behandeln Interaktionen unabhängig voneinander und ignorieren die sequenziellen Abhängigkeiten sowie die zeitliche Dynamik des Nutzerverhaltens. Da sich Nutzerpräferenzen und Expositionswahrscheinlichkeiten (z. B. durch neue Releases oder Trends) über die Zeit ändern, versagen statische IPS-Ansätze darin, diese dynamischen Kausalzusammenhänge korrekt zu modellieren.

2. Methodik: Time-aware Inverse Propensity Scoring (TIPS / HyperG)

Die Autoren schlagen HyperG (Time-aware Inverse Propensity Scoring, TIPS) vor, ein plug-in-fähiges Framework, das zeitliche Informationen in die IPS-Schätzung integriert, um die Expositionswahrscheinlichkeiten dynamisch und sequenziell zu schätzen.

A. Strukturelles Kausales Modell (SCM)

Das Paper definiert ein SCM, das die kausalen Beziehungen zwischen Nutzerpräferenzen ( $U$ ), Item-Exposition ( $E$ ) und Interaktion ( $C$ ) abbildet. Es wird gezeigt, dass $E$ eine Voraussetzung für $C$ ist ( $E \to C$ ) und dass Exposition auch die wahrgenommene Präferenz beeinflusst ( $E \to U$ ). Ohne Exposition-Logs muss das System diese Zusammenhänge durch kontrafaktisches Reasoning rekonstruieren.

B. Dual-Encoding-Strategie

Um Interaktionsdaten von Expositionsdaten zu trennen, verwendet HyperG zwei separate Embedding-Tabellen für jedes Item:

Interaktions-Embedding ( $H(C)$ ): Erfasst die Präferenzen des Nutzers basierend auf Klicks/Käufen.
Expositions-Embedding ( $H(E)$ ): Erfasst Faktoren, die beeinflussen, ob ein Item angezeigt wird (z. B. Popularität, Promotionen).
Zusätzlich werden Zeit-Embeddings berechnet, die den zeitlichen Abstand zwischen Interaktionen normalisieren und in den Embedding-Raum abbilden, um zeitliche Dynamiken zu erfassen.

C. Konstruktion kontrafaktischer Stichproben

Da keine echten Exposition-Logs vorliegen, generiert HyperG für jede beobachtete Interaktion $(u, v, t)$ drei Arten von kontrafaktischen Item-Zeit-Paaren, um die Expositionswahrscheinlichkeit zu schätzen:

Ähnliche Items: Was wäre, wenn ein ähnliches Item (basierend auf $H(E)$ ) zur gleichen Zeit angezeigt worden wäre?
Populäre Items: Was wäre, wenn ein sehr populäres Item zur gleichen Zeit angezeigt worden wäre?
Gleiches Item, anderer Zeitpunkt: Was wäre, wenn dasselbe Item zu einem leicht verschobenen Zeitpunkt angezeigt worden wäre?

Diese kontrafaktischen Paare dienen als positive Beispiele für die Schätzung der Expositionswahrscheinlichkeit (da sie als „exponiert" angenommen werden) und als negative Beispiele für die Präferenzschätzung.

D. Exposure Influence Interaction & User Preference

Ein Plug-in-Modell ( $f_\phi$ ) schätzt die zeitabhängige Expositionswahrscheinlichkeit $\pi_t$ . Dies geschieht durch einen Cross-Attention-Mechanismus, der die kontrafaktischen Item-Zeit-Embeddings mit der Sequenz der historischen Interaktionen des Nutzers vergleicht. Das Ergebnis ist eine dynamische, zeitbewusste Propensity-Score-Schätzung.

E. Trainingsziel (Time-aware IPS)

Das finale Trainingsziel kombiniert die Standard-Recommender-Loss-Funktion mit einer gewichteten IPS-Korrektur:

Die Gewichtung berücksichtigt sowohl den inversen Propensity Score (für Exposure Bias) als auch einen zeitlichen Decay-Faktor.
Formel: $w_{v,t} = \frac{\exp(-\mu(t_i - t_{i-1}))}{\max(s_{v,t}, \epsilon)}$ .
Dies stellt sicher, dass neuere Interaktionen stärker gewichtet werden und Items mit geringer Expositionswahrscheinlichkeit angemessen korrigiert werden.

3. Wichtige Beiträge

Zeitbewusste IPS (TIPS): Entwicklung eines Frameworks, das die statische Natur traditioneller IPS überwindet, indem es sequenzielle Abhängigkeiten und zeitliche Dynamiken explizit modelliert.
Kontrafaktisches Schätzen ohne Logs: Eine innovative Methode zur Schätzung von Item-Expositionen durch die Generierung von kontrafaktischen Item-Zeit-Paaren (ähnliche Items, populäre Items, Zeitverschiebung), was die Notwendigkeit von fehlenden Exposition-Logs umgeht.
Plug-in-Architektur: HyperG ist als modulares Modul konzipiert, das nahtlos in verschiedene Backbones (traditionelle Attention-Modelle, RNNs und generative Diffusionsmodelle) integriert werden kann.
Umfassende Evaluation: Validierung auf vier großen Datensätzen (MovieLens, Music4All, GoodReads) mit verschiedenen State-of-the-Art-Modellen.

4. Ergebnisse

Die Experimente zeigen konsistente Verbesserungen gegenüber dem State-of-the-Art:

Leistungssteigerung: HyperG verbessert die Metriken HR@K und NDCG@K signifikant. Auf dem Music4All-Datensatz wurden Verbesserungen von bis zu 8,87% (HR@10) und 8,72% (NDCG@10) erzielt.
Skalierbarkeit: Die Verbesserungen sind auf großen Datensätzen (z. B. ML-10M) stärker ausgeprägt als auf kleinen, da hier die zeitliche Dynamik und die Vielfalt der Interaktionen eine größere Rolle spielen.
Vergleich mit Baselines: HyperG übertrifft sowohl traditionelle sequenzielle Modelle (wie SASRec, TiSASRec) als auch generative Modelle (wie DiffuRec, CVAE), wenn diese mit HyperG kombiniert werden.
Ablationsstudien: Das Entfernen der zeitlichen Informationen oder der Expositionsschätzung führt zu deutlichen Leistungseinbußen, was die Notwendigkeit beider Komponenten unterstreicht. Generative Modelle zeigten sich etwas robuster gegenüber dem Entfernen der Zeitinformationen als traditionelle Modelle.

5. Bedeutung und Fazit

Das Paper adressiert ein fundamentales Problem in der Empfehlungssystemforschung: die Verzerrung durch fehlende Exposition-Logs. Die Bedeutung von HyperG liegt darin, dass es kausale Inferenz (Counterfactual Reasoning) mit zeitlicher Dynamik verbindet.

Praktische Relevanz: Da Exposition-Logs in der Praxis oft nicht verfügbar oder unvollständig sind, bietet HyperG eine robuste Lösung, um bestehende Empfehlungssysteme ohne zusätzliche Datenerfassung zu entzerren.
Theoretischer Fortschritt: Es zeigt, dass statische IPS-Ansätze für sequenzielle Aufgaben unzureichend sind und dass die Modellierung der zeitlichen Entwicklung von Expositionswahrscheinlichkeiten entscheidend für die Genauigkeit ist.
Flexibilität: Als universelles Plug-in kann HyperG in zukünftige Architekturen integriert werden, um die Fairness und Genauigkeit von Empfehlungen in dynamischen Umgebungen zu erhöhen.

Zusammenfassend stellt HyperG einen wichtigen Schritt dar, um Sequential Recommendation von rein korrelationsbasierten Modellen hin zu kausal robusten und zeitlich adaptiven Systemen zu führen.