Pre-trained LLMs Meet Sequential Recommenders: Efficient… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer ervaren, maar soms wat saaie boekhandelsmedewerker hebt. Deze medewerker (het traditionele aanbevelingssysteem) kent je geschiedenis heel goed: "Je kocht vorige week een roman over detectiveverhalen, dus ik raad je nu weer een detective aan." Hij is snel, maar hij begrijpt niet waarom je die boeken leuk vindt. Misschien houd je van de spanning, of juist van de humor? Hij ziet alleen de feiten, niet de gevoelens.

Nu komt er een superintelligente, maar erg traag werkende professor (een Grote Taalmodel of LLM) langs. Deze professor kan lezen wat je koopt en zeggen: "Ah, deze klant houdt van grappige detectives met een sterke vrouwelijke hoofdpersoon, en ze waardeert boeken met een onverwacht einde." De professor heeft een veel dieper inzicht in de menselijke ziel.

Het probleem:
Als je elke keer dat een klant iets wil kopen, de professor moet raadplegen, duurt het te lang. De klant staat al te wachten, en de professor is te traag om direct te antwoorden. Je kunt de professor ook niet zomaar in de winkel zetten; hij is te duur en te groot.

De oplossing uit dit papier:
De onderzoekers hebben een slimme truc bedacht, een soort "kennis-overdracht" of "leren van een meester".

Hier is hoe het werkt, stap voor stap, met een analogie:

1. De Profiel-schets maken (De Professor werkt)

Eerst laten ze de professor (de LLM) in alle rust werken. De professor leest de hele geschiedenis van de klant en schrijft een uitgebreid, persoonlijk profiel op.

Voorbeeld: "Deze klant is een fijnproever die houdt van natuurlijke ingrediënten en innovatieve nagellak."
Dit profiel is als een gedetailleerde schets van de klant. Dit gebeurt alleen een keer, niet elke keer dat er een aankoop wordt gedaan.

2. De Leerling leren (De Distillatie)

Nu nemen ze de snelle boekhandelsmedewerker (het traditionele systeem) en laten ze hem studeren.

Ze laten de medewerker de klantgeschiedenis zien.
Tegelijkertijd laten ze de medewerker kijken naar het profiel dat de professor heeft geschreven.
De medewerker moet proberen om in zijn eigen hoofd (zijn interne geheugen) een beeld te vormen dat precies overeenkomt met dat van de professor.

Het is alsof je een beginnende kok (de medewerker) laat koken terwijl je hem laat proeven van het gerecht van de sterrenchef (de professor). De kok probeert de smaak en het gevoel van het gerecht na te bootsen, zonder dat de chef erbij hoeft te staan.

3. De Oefening (Twee fasen)

Fase 1 (Leren): De medewerker oefent. Hij moet twee dingen doen: goed aanbevelingen doen én proberen zijn eigen "gevoel" voor de klant te laten lijken op dat van de professor. Als hij het goed doet, krijgt hij een beloning.
Fase 2 (Oefenen): Zodra de medewerker het goed heeft begrepen, halen ze de professor weg. De medewerker gaat alleen nog maar aanbevelingen doen, maar hij heeft nu het "inzicht" van de professor in zijn eigen hoofd bewaard.

Waarom is dit geweldig?

Snelheid: Omdat de professor (de LLM) niet meer hoeft te werken op het moment dat je iets koopt, is het systeem supersnel. Het is net zo snel als de oude, saaie medewerker.
Kwaliteit: De medewerker is nu veel slimmer. Hij begrijpt nu niet alleen wat je kocht, maar ook wie je bent en waarom. Hij kan veel betere suggesties doen.
Geen grote kosten: Je hoeft geen dure, enorme computer te kopen om de professor in de winkel te zetten. Je hebt alleen de slimme medewerker nodig die het inzicht heeft opgeslagen.

Kortom:
De onderzoekers hebben een manier gevonden om de wijsheid van een super-slimme, maar trage AI (de professor) over te dragen naar een snelle, efficiënte AI (de medewerker). Zo krijg je het beste van twee werelden: de diepe kennis van een taalmodel, maar met de snelheid van een gewoon aanbevelingssysteem. Je kunt nu sneller en slimmer winkelen, alsof je een persoonlijke stylist hebt die je kent, zonder dat het systeem langzaam wordt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande sequentiële aanbevelingssystemen (Sequential Recommender Systems - SRS), zoals SASRec en BERT4Rec, zijn succesvol in het modelleren van tijdsafhankelijk gebruikersgedrag op basis van interactiepatronen. Ze kampen echter met fundamentele beperkingen:

Beperkte semantiek: Ze hebben moeite om rijke gebruikerssemantiek te vangen die verder gaat dan de blootgestelde interactiegeschiedenis (bijv. subtiele voorkeuren, redenering over producten).
Data-schaarste: Dit leidt vaak tot slechte generalisatie.
LLM-integratieproblemen: Hoewel Large Language Models (LLMs) uitstekende semantische redeneervermogen hebben, zijn directe integraties (zoals zero-shot prompting of full fine-tuning) onpraktisch voor real-time toepassing vanwege de hoge inferentiekosten en latentie. Bestaande kennisdistillatiemethoden zijn vaak itemgericht of vereisen dure LLM-finetuning, waardoor ze de specifieke gebruikerssemantiek niet efficiënt benutten.

Methodologie

De auteurs stellen een nieuwe kennisdistillatiemethode voor die gebruikersgerichte kennis van een voorgeprogrammeerde LLM overdraagt naar een traditioneel sequentieel aanbevelingsmodel, zonder de architectuur van het model te wijzigen en zonder LLM-inferentie tijdens de dienstverlening (serving time).

Het proces verloopt in drie hoofdfasen:

Generatie van LLM-gebaseerde gebruikersprofielen (Offline):
- Voor elke gebruiker wordt de interactiegeschiedenis geaggregeerd met tekstuele metadata (bijv. titels, beschrijvingen).
- Een voorgeprogrammeerde LLM (Gemma-2-9b) analyseert deze tekst via een zorgvuldig ontworpen prompt om een uitgebreid tekstueel gebruikersprofiel te genereren. Dit profiel vat voorkeuren, patronen en verschillen tussen goed en slecht beoordeelde items samen.
- Dit tekstprofiel wordt omgezet in een vectorrepresentatie met behulp van een tekstencoder (E5-large) en vervolgens geprojecteerd naar de ruimte van het aanbevelingsmodel via dimensiereductie (UMAP). Deze vectoren worden vooraf berekend en bevroren en dienen als vaste doelen voor distillatie.
Twee-fasen trainingsstrategie:
- Fase 1: Distillatie: Het sequentiële model (bijv. SASRec of BERT4Rec) wordt getraind met een gecombineerde loss-functie:
  - Model Loss: De standaard taak voor het voorspellen van het volgende item.
  - Distillatie Loss: Een hulptaak die de interne representaties van het model (geaggregeerde hidden states van de transformer) afstemt op de LLM-gegenereerde gebruikersprofielvectoren.
  - Er wordt gebruikgemaakt van een dynamische schalingsfactor ( $\beta$ ) om de distillatie-loss (die vaak kleiner is) te balanceren met de model-loss, zodat de distillatie niet numeriek wordt gedomineerd.
- Fase 2: Finetuning: De hulptaak wordt verwijderd en het model wordt uitsluitend gefinetuned op de aanbevelingstaak (next-item prediction).
Inferentie: Tijdens het daadwerkelijke gebruik (serving) werkt het systeem als een standaard sequentieel model. De LLM wordt niet meer geraadpleegd, wat zorgt voor lage latentie.

Belangrijkste Bijdragen

Gebruikersgerichte Distillatie: Dit is naar verluidt het eerste werk dat kennis van een pre-trained LLM distilleert naar sequentiële aanbevelingsmodellen zonder domeinspecifieke finetuning van de LLM zelf. De focus ligt op het vangen van gebruikerssemantiek in plaats van alleen item-features.
Efficiëntie zonder Architectuurwijziging: De methode vereist geen wijzigingen in de modelarchitectuur en behoudt de inferentie-efficiëntie van traditionele modellen.
Dynamische Loss-balancering: De introductie van de dynamische schalingsfactor $\beta$ lost het probleem op van het balanceren van verschillende loss-schalen tijdens de training.
Open Source: De code en experimenten zijn publiek beschikbaar gesteld.

Resultaten

De methode is geëvalueerd op vier datasets (Beauty, ML-20M, Kion, Amazon M2) en vergeleken met sterke baselines (SASRec, BERT4Rec) en een LLM-basismethode (IDGenRec).

Kwaliteit van Aanbevelingen:
- De distillatie leidt tot consistente verbeteringen in zowel NDCG@10 als Recall@10.
- De verbeteringen zijn het grootst bij modellen die oorspronkelijk zwak presteerden (bijv. +23,53% Recall@10 voor BERT4Rec op de Beauty-dataset).
- Zelfs sterke baselines (SASRec) tonen verbeteringen (tot +5,62% NDCG@10).
Vergelijking met IDGenRec:
- De voorgestelde methode presteert vergelijkbaar of beter dan IDGenRec (een methode die de LLM tijdens inferentie gebruikt) op de meeste datasets, behalve op de Beauty-dataset waar IDGenRec licht voorsprong heeft.
- De methode is robuuster bij datasets met schaarse of ruisachtige metadata.
Efficiëntie:
- Training: De trainingskosten stijgen slechts met 5-25% ten opzichte van SASRec, terwijl IDGenRec 1,5 tot 2,3 keer langer duurt.
- Inferentie: De inferentielatentie is identiek aan die van SASRec. IDGenRec is daarentegen 50 tot 180 keer trager vanwege tekstgeneratie.
- De methode combineert dus de semantische rijkdom van LLM's met de snelheid van traditionele modellen.

Betekenis en Conclusie

Dit werk toont een praktische weg aan om de semantische kracht van Large Language Models te integreren in schaalbare, real-time aanbevelingssystemen. Door kennis te distilleren in plaats van de LLM direct te gebruiken tijdens de inferentie, overwinnen de auteurs het compromis tussen kwaliteit (semantisch begrip) en efficiëntie (snelheid/kosten). Dit maakt het mogelijk om rijke gebruikersprofielen te benutten zonder de infrastructuurkosten van LLM-inferentie, wat een belangrijke stap is voor de volgende generatie aanbevelingssystemen.

Pre-trained LLMs Meet Sequential Recommenders: Efficient User-Centric Knowledge Distillation