Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

🎬 De Filmtheater-Verwachting: Waarom je soms de verkeerde films krijgt

Stel je voor dat je naar een groot filmtheater gaat. De verkoper (het recommender-systeem) kijkt naar wat je in het verleden hebt gekocht of bekeken om je de volgende film te adviseren.

Het probleem is echter dat de verkoper niet ziet wat je niet hebt gezien.

Als je een film koopt, denkt de verkoper: "Ah, deze persoon houdt van deze film!"
Maar als de verkoper een film aanbiedt en jij hem niet koopt, denkt de verkoper: "Deze persoon houdt niet van deze film."
Het ergste is: als de verkoper een film nooit aan je aanbiedt (bijvoorbeeld omdat hij in de schappen ligt), denkt de verkoper: "Deze persoon heeft er geen interesse in."

Dit is wat de auteurs selectiebias en exposure bias noemen. Het systeem leert alleen van wat er gebeurt, niet van wat er had kunnen gebeuren.

⏳ Het Probleem met de "Statische" Oplossing

Vroeger probeerden onderzoekers dit op te lossen met een techniek genaamd IPS (Inverse Propensity Scoring).

De analogie: Stel je voor dat je een weegschaal gebruikt. Als een film zelden wordt aangeboden, geef je die film een zwaar gewicht op de schaal, zodat hij telt als "belangrijk".
Het nadeel: Deze oude weegschaal is statisch. Hij kijkt niet naar de tijd. Hij ziet niet dat je gisteren van actiefilms hield, maar vandaag van romantische komedies. Hij ziet ook niet dat een film gisteren populair was, maar vandaag vergeten is. Het is alsof je probeert de smaak van een mens te voorspellen met een foto van 10 jaar geleden.

🚀 De Nieuwe Oplossing: HyperG (TIPS)

De auteurs van dit paper hebben een slimme nieuwe methode bedacht, genaamd HyperG (of TIPS: Time-aware Inverse Propensity Scoring). Ze vergelijken dit met het hebben van een tijdmachine en een dromenwereld.

Hier is hoe het werkt, stap voor stap:

1. De Dromenwereld (Counterfactual Reasoning)

Omdat we niet weten welke films er niet werden aangeboden, moeten we het uitvinden.

De analogie: De computer stelt zich vragen als: "Wat als ik deze persoon een heel populaire film had laten zien, maar hij had hem niet gekocht?" of "Wat als ik deze persoon een film had laten zien die lijkt op wat hij eerder kocht?"
Door deze "wat-als" scenario's te simuleren, kan het systeem leren wat je echt leuk vindt, zelfs als je die specifieke film nooit hebt gezien. Het vult de gaten in je geschiedenis op.

2. De Tijdmachine (Time-awareness)

De oude methode keek alleen naar wat je deed. HyperG kijkt ook naar wanneer je het deed.

De analogie: Stel je voor dat je gisteren een pizza at. Vandaag heb je misschien zin in sushi. Als je systeem niet naar de tijd kijkt, blijft het je pizza aanraden.
HyperG weet dat je interesses veranderen. Een item dat gisteren populair was, is vandaag misschien saai. De methode past de "weegschaal" (de propensiteit) dynamisch aan, afhankelijk van hoe recent je interactie was.

3. Twee verschillende geheugens (Dual Encoding)

Het systeem heeft twee soorten geheugen nodig:

Wat je kocht: (Interactie)
Wat je zag: (Exposure)

De analogie: Stel je voor dat je een lijst maakt van "Films die ik heb gezien" en een lijst van "Films die ik heb gekocht". Als je alleen naar de "gekochte" lijst kijkt, mis je de films die je zag maar niet kocht. HyperG houdt beide lijsten gescheiden, zodat het systeem niet verward raakt en precies weet wat er aan de hand is.

🏆 Wat levert dit op?

De auteurs hebben hun nieuwe methode getest op enorme databases met film- en muziekdata (zoals MovieLens en Music4All).

Het resultaat: Door de "tijdmachine" en de "dromenwereld" te gebruiken, krijgen gebruikers veel betere suggesties.
Vergelijking: Het is alsof je een oude, stijve robot vervangt door een slimme assistent die onthoudt: "Ah, de heer Jansen kocht gisteren een horrorfilm, maar hij is vandaag moe, dus ik raad hem een komedie aan, en ik geef die komedie extra punten omdat hij die film vaak ziet, maar nog nooit heeft gekocht."

Samenvattend in één zin:

Dit paper introduceert een slimme manier om aan te raden wat je wilt, door niet alleen te kijken naar wat je hebt geklikt, maar ook door te simuleren wat je had geklikt als je meer keuzes had gehad, en daarbij rekening te houden met het feit dat je smaak verandert naarmate de tijd verstrijkt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring" in het Nederlands.

Titel: Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring (TIPS)

Auteurs: Sirui Huang, Jing Long, Qian Li, Guandong Xu, Qing Li.
Institutionen: Hong Kong Polytechnic University, University of Technology Sydney, Curtin University, Education University of Hong Kong.

1. Het Probleem: Selectie- en Blootstellingsbias in Sequentiële Aanbeveling

Sequentiële Aanbeveling (Sequential Recommendation - SR) voorspelt de volgende interactie van een gebruiker door de temporale volgorde van historisch gedrag te modelleren. Bestaande methoden, zowel traditionele modellen (zoals RNNs en Transformers) als generatieve modellen, presteren goed maar lijden onder twee fundamentele bias-problemen door het ontbreken van data over item-blootstelling (exposure logs):

Selectiebias (Selection Bias): Items die zijn blootgesteld maar niet zijn aangeklikt (of gekocht), worden vaak ten onrechte behandeld als items waar de gebruiker geen interesse in heeft. In werkelijkheid kan het gebrek aan interactie komen door de presentatiestrategie of context, niet door gebrek aan interesse.
Blootstellingsbias (Exposure Bias): Items die nooit zijn blootgesteld aan de gebruiker, worden impliciet behandeld alsof de gebruiker er geen interesse in heeft. Het model kan niet leren wat de gebruiker zou hebben gedaan als het item wel was getoond.

De kernuitdaging: Traditionele methoden voor Inverse Propensity Scoring (IPS) proberen deze bias te corrigeren door interacties te herwegen op basis van de kans dat een item werd blootgesteld (propensiteit). Echter, bestaande IPS-methoden zijn statisch:

Ze negeren de sequentiële afhankelijkheden (de volgorde van interacties beïnvloedt toekomstige keuzes).
Ze negeren temporale dynamiek (de interesse van gebruikers en de blootstellingskans veranderen door de tijd, bijv. door nieuwe releases of trends).
Ze kunnen de causale keten in gebruikersgedrag verstoren door statische gewichten toe te passen.

2. Methodologie: Time-aware Inverse Propensity Scoring (TIPS)

De auteurs stellen HyperG voor, een plug-in framework dat Time-aware Inverse Propensity Scoring (TIPS) implementeert. Het doel is om de blootstellingsverdeling te schatten zonder blootstellingslogs, door gebruik te maken van contrafactueel redeneren (counterfactual reasoning) en temporale informatie.

A. Structureel Causaal Model (SCM)

Het paper definieert een SCM met drie variabelen:

$U$ : Gebruikersvoorkeur.
$E$ : Blootstelling van een item (is het getoond?).
$C$ : Interactie (is er op geklikt?).
De bias ontstaat omdat we alleen $C$ zien wanneer $E=1$ . Om de ware voorkeur te leren, moet het model de paden $E \to C$ (blootstellingsbias) en $E \to U$ (selectiebias) corrigeren.

B. Dual Encoding Strategie

Om statische item-semantiek te scheiden van dynamische voorkeuren, worden twee aparte embedding-tabellen gehandhaafd:

Interactie-embeddings ( $H(C)$ ): Leren van expliciete feedback (klikken) om gebruikersvoorkeuren te modelleren.
Blootstellings-embeddings ( $H(E)$ ): Modelleren van de kans dat een item wordt getoond (gebaseerd op populariteit, promoties, etc.).
Dit voorkomt dat de schatting van de propensiteit (noemer) afhankelijk wordt van de aanbevelingsvoorspelling (teller), wat de bias zou vergroten.

C. Constructie van Contrafactuele Steekproeven

Omdat er geen blootstellingslogs zijn, construeren de auteurs drie soorten contrafactuele "positieve blootstelling" steekproeven voor elke waargenomen interactie $(u, v, t)$ :

Vergelijkbare Items: Wat als de gebruiker een soortgelijk item had gezien? (Gebruikt $H(E)$ om vergelijkbare items te vinden).
Populaire Items: Wat als de gebruiker een zeer populair item had gezien? (Berekent populariteit over een tijdsvenster).
Zelfde Item, Andere Tijd: Wat als hetzelfde item op een iets ander tijdstip was getoond? (Perturbatie van de tijds-embedding).

Deze contrafactuele paren worden gebruikt als positieve steekproeven voor het schatten van de blootstellingsverdeling, maar als negatieve steekproeven voor het verbeteren van de gebruikersvoorkeursmodelling.

D. Exposure Influence Interaction (E → C) & Propensiteitsschatting

Een plug-in model ( $f_\varphi$ ) schat de tijd-gevoelige propensiteit ( $\pi_t$ ):

Het combineert de interactie-reeks van de gebruiker met de blootstellings-embeddings van de items.
Een Cross-Attention mechanisme wordt gebruikt om de blootstellingskansen te berekenen op basis van de historische volgorde.
Dit resulteert in een tijd-gevoelige propensiteitsscore ( $s_{v,t}$ ) die aangeeft hoe waarschijnlijk het was dat een item op dat specifieke moment werd getoond.

E. Loss Functies en Optimalisatie

Het totale trainingsdoel bestaat uit twee delen:

Exposure Learning Loss ( $L_{EP}$ ): Een Binary Cross-Entropy loss om het model te leren de blootstellingsverdeling te onderscheiden tussen waargenomen en contrafactuele steekproeven.
Recommendation Loss ( $L_{BPR-TIPS}$ ): Een Bayesian Personalized Ranking loss waarbij de interacties worden herweged met de inverse van de tijd-gevoelige propensiteit ($1/s_{v,t}$).
- De gewichtsfunctie $w_{v,t}$ bevat ook een tijdsverval (time-decay) om recente interacties sterker te laten wegen, maar corrigeert tegelijkertijd voor items die zelden werden blootgesteld.

3. Belangrijkste Bijdragen

TIPS Framework: Introductie van een nieuw framework dat IPS integreert met temporale dynamiek en sequentiële afhankelijkheden, in plaats van statische gewichten te gebruiken.
Contrafactuele Schatting zonder Logs: Een innovatieve methode om item-blootstellingsverdelingen te schatten door contrafactuele item-tijd paren te genereren (gebaseerd op similariteit, populariteit en tijdsvariatie), zelfs zonder toegang tot blootstellingslogs.
Dual Encoding: Een architectonische keuze om interactie- en blootstellings-embeddings te scheiden om bias in de propensiteitsschatting te minimaliseren.
Plug-in Flexibiliteit: Het framework werkt als een plug-in voor zowel traditionele sequentiële modellen (zoals Attention/Transformers) als generatieve modellen (zoals Diffusion en CVAE).

4. Resultaten

De auteurs hebben HyperG getest op vier datasets (ML-1M, ML-10M, Music4All, GoodReads) en vergeleken met state-of-the-art baselines (SASRec, TiSASRec, GRU, DiffuRec, CVAE, etc.).

Prestatieverbetering: HyperG leverde consistente verbeteringen op alle backbones.
- Voor traditionele modellen (Attention) was de gemiddelde verbetering ongeveer 6% in HR@10 en 5% in NDCG@10.
- Voor generatieve modellen (DiffuRec, CVAE) werden vergelijkbare winsten geboekt.
Schalbaarheid: De verbeteringen waren groter op grote datasets (zoals Music4All en ML-10M), wat suggereert dat TIPS effectiever is bij het corrigeren van bias in complexe, data-rijke scenario's.
Ablatie Studies:
- Het verwijderen van de tijdsinformatie ( $\text{HyperG}_{\neg time}$ ) leidde tot een prestatiedaling, wat aantoont dat temporale dynamiek essentieel is.
- Het verwijderen van de IPS-aanpassing ( $\text{HyperG}_{\neg IPS}$ ) resulteerde in een grotere daling, wat de noodzaak van bias-correctie bevestigt.
- Het verwijderen van zowel blootstellingsmodelling als tijd ( $\text{HyperG}_{\neg EP\&time}$ ) veroorzaakte de grootste daling, wat bewijst dat beide componenten cruciaal zijn.
Vergelijking met Traditionele IPS: HyperG produceerde meer discriminerende propensiteitsscores tussen positieve en negatieve items dan traditionele statische IPS-methoden, wat leidt tot een betere correctie van de blootstellingsbias.

5. Betekenis en Conclusie

Dit paper biedt een significante doorbraak in het veld van eerlijke (debiased) aanbevelingssystemen. De belangrijkste implicaties zijn:

Oplossing voor een data-probleem: Het biedt een praktische oplossing voor het ontbreken van blootstellingslogs, een veelvoorkomend probleem in de industrie, door slimme contrafactuele augmentatie.
Temporale Realisme: Het erkent dat gebruikersvoorkeuren en blootstellingskansen dynamisch zijn. Statische IPS-methoden zijn onvoldoende voor sequentiële taken; tijd-gevoeligheid is noodzakelijk.
Universele Toepasbaarheid: Omdat het als een plug-in werkt, kunnen bestaande aanbevelingsmodellen (zowel klassiek als modern generatief) worden verbeterd zonder de basisarchitectuur volledig te herschrijven.

Kortom, HyperG met TIPS stelt systemen in staat om onderscheid te maken tussen "niet blootgesteld" en "niet geïnteresseerd", wat leidt tot nauwkeurigere, eerlijkere en robuustere aanbevelingen in dynamische omgevingen.