Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme persoonlijke assistent hebt die je favoriete muziek, films en boeken voor je kiest. Deze assistent is een enorme kunstmatige intelligentie (een "Large Language Model" of LLM) die is getraind op miljoenen gegevens.

Maar hier is het probleem: mensen veranderen.
Vandaag luister je misschien naar zware metal, maar volgende maand ben je dol op rustige jazz. Of je kijkt nu alleen naar romantische komedies, maar over een jaar wil je juist spannende thrillers.

Als je je assistent niet bijwerkt, blijft hij vastzitten in het verleden en raadt hij verkeerde dingen. Als je hem echter helemaal opnieuw traint met de nieuwe data, vergeet hij alles wat hij eerder wist (zoals je liefde voor jazz uit het verleden). Dit is het dilemma van "Continual Learning" (voortdurend leren).

De auteurs van dit paper hebben een nieuwe oplossing bedacht, genaamd PESO. Laten we uitleggen hoe dit werkt met een paar simpele analogieën.

1. Het oude probleem: De "Tijdmachine" vs. De "Vergetelheid"

In de wereld van AI-problemen zijn er twee manieren om een assistent bij te werken:

Manier A (De Vergetelheid): Je neemt je assistent en traint hem opnieuw met alleen de nieuwe muziek.
- Gevolg: Hij raadt nu perfect de nieuwe jazz, maar hij is je oude metal-liefde volledig vergeten. Hij is te plastisch (te flexibel).
Manier B (De Tijdmachine / Cumulative LoRA): Je probeert alle oude versies van de assistent te bewaren en ze allemaal tegelijk te gebruiken.
- Gevolg: Hij weet nog alles over metal, maar hij raakt in de war. Hij probeert je oude voorkeuren en je nieuwe voorkeuren door elkaar te halen, wat resulteert in raadselachtige suggesties (bijvoorbeeld: "Wilt u een metal-symfonie?"). Hij is te stijf.

2. De oplossing: PESO (De Slimme Gids)

PESO is een slimme manier om de assistent bij te werken zonder dat hij vergeten raakt of in de war raakt. De naam staat voor Proximally rEgularized Single evolving lOra.

Laten we het zo zien:

Stel je voor dat je assistent een kaart heeft van je interesses.

De oude kaart toont waar je eerder was (je oude voorkeuren).
De nieuwe data is een nieuwe route die je vandaag hebt gelopen.

Bij PESO doen we het volgende:
We houden één kaart bij (we maken geen nieuwe kaarten voor elke dag). Maar we voegen een onzichtbare elastiek toe.

Het Elastiek (De Proximale Regularisator): Dit elastiek trekt de kaart zachtjes terug naar de plek waar hij gisteren was.
De Nieuwe Route (De Data): Als je vandaag duidelijk een nieuwe route loopt (bijvoorbeeld: "Ik luister nu 10 uur per dag naar jazz"), is die nieuwe route zo sterk dat hij het elastiek uitrekt. De kaart verplaatst zich naar de nieuwe plek.
De Balans: Als je vandaag alleen maar een klein beetje wandelt (een klein verandering), trekt het elastiek de kaart weer terug naar de oude, betrouwbare plek. Je verandert niet te snel voor iets kleins.

Waarom is dit slim?

Het zorgt dat de assistent niet vergeten wat je langdurig leuk vindt (stabiliteit).
Het zorgt dat de assistent wel snel aanpast als je echt van richting verandert (plasticiteit).
Het doet dit zonder dat de assistent "dubbel" wordt of te veel geheugen nodig heeft.

3. De "LoRA" techniek (De Lichte Pakketjes)

De paper gebruikt een techniek genaamd LoRA. In plaats van de hele enorme assistent (die gigantisch is) opnieuw te bouwen, plakken we er kleine, lichte pakketjes op.

Stel je voor dat je assistent een zware trui is. In plaats van een nieuwe trui te haken, plakken we een klein, aanpasbaar embleem erop.
PESO zorgt ervoor dat dit embleem zachtjes wordt aangepast. Het kijkt naar de oude positie van het embleem en zorgt dat het niet te hard wordt weggetrokken, tenzij de nieuwe data het echt nodig heeft.

4. Wat zeggen de resultaten?

De auteurs hebben PESO getest op echte data van Amazon (muziek, films, boeken).

Resultaat: PESO werkt beter dan de oude methoden.
Vergelijking: Het is alsof PESO een assistent is die precies weet wanneer hij moet luisteren naar je nieuwe wensen en wanneer hij moet zeggen: "Hé, ik weet nog dat je vorig jaar dol was op die serie, laten we dat niet vergeten."

Samenvatting in één zin:

PESO is een slimme manier om een AI-assistent bij te werken die zorgt dat hij zijn geheugen behoudt, maar toch flexibel genoeg is om mee te gaan met je veranderende smaak, zonder dat hij in de war raakt of te veel ruimte inneemt.

Het is de perfecte balans tussen "vasthouden aan het verleden" en "omarmen van de toekomst".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Continual Low-Rank Adapters for LLM-Based Generative Recommender Systems" (PESO), geschreven in het Nederlands.

Titel: Continual Low-Rank Adapters voor LLM-gebaseerde Generatieve Recommender Systemen (PESO)

Publicatie: ICLR 2026
Auteurs: Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong.

1. Probleemstelling

Grote Taalmodellen (LLM's) presteren sterk in aanbevelingssystemen door het probleem te formuleren als sequentiegenereatie (voorspellen van het volgende item-token op basis van interactiegeschiedenis). Echter, in de praktijk evolueren gebruikersvoorkeuren, items en interacties continu in de tijd. Dit vereist continual learning (doorlopend leren).

De kernuitdaging ligt in het vinden van de juiste balans tussen:

Stabiliteit: Behoud van langdurige, persistente gebruikersvoorkeuren (bijv. een blijvende liefde voor een bepaald genre).
Plasticiteit: Aanpassing aan nieuwe, veranderende voorkeuren en opkomende trends.

Bestaande methoden voor continual learning in andere domeinen (zoals computervisie) focussen vaak op het behoud van prestaties op vorige taken. In aanbevelingssystemen is dit echter contraproductief: het doel is niet om verouderde voorkeuren te voorspellen, maar om de huidige en toekomstige voorkeuren te vangen. Verouderde voorkeuren kunnen zelfs de prestaties schaden als de interesses van de gebruiker sterk verschuiven.

Daarnaast zijn bestaande LoRA-baselines (Low-Rank Adaptation) voor continual learning suboptimaal:

Enkele Evoluerende LoRA: Een enkele adapter die continu wordt bijgewerkt. Dit biedt goede plasticiteit maar leidt tot catastrofale vergeet (forgetting) van nuttige, langdurige voorkeuren.
Cumulatieve LoRA: Het optellen van meerdere frozen adapters uit het verleden. Dit verbetert stabiliteit maar werkt slecht bij aanbevelingen omdat het verouderde en relevante voorkeuren "verstrikt" (entangles). Het maakt het moeilijk om onderscheid te maken tussen wat nog relevant is en wat verouderd is, en leidt tot toenemende opslagkosten.

2. Methodologie: PESO

De auteurs stellen PESO (Proximally rEgularized Single evolving lOra) voor. Dit is een methode die een enkele evoluerende LoRA-adapter onderhoudt, maar deze regulariseert ten opzichte van zijn vorige staat.

Kernprincipes

Enkele Adapter: In plaats van meerdere adapters (zoals bij cumulatieve LoRA), wordt één adapter bijgehouden die zich evolueert. Dit voorkomt de aanname van taak-onafhankelijkheid die niet geldt bij evoluerende gebruikersvoorkeuren.
Proximale Regularisatie: Bij elke update wordt de huidige adapter ( $v_t$ $v_{t}$ ) dicht bij de vorige staat ( $v_{t-1}$ $v_{t - 1}$ ) gehouden via een regularisatieterm. Dit creëert een natuurlijke competitie tussen:
- De data-fitting loss (cross-entropy): Drijft de adapter naar de optimale staat voor de nieuwe data (plasticiteit).
- De proximale term: Drijft de adapter terug naar de vorige staat (stabiliteit).

Theoretische Basis

De auteurs tonen theoretisch aan dat dit ontwerp data-bewuste, richtingsgewijze begeleiding biedt in de LoRA-deelruimte:

De update langs een specifieke richting $q_k$ is een gewogen gemiddelde van de nieuwe optimum en de vorige adapter.
De weging hangt af van de eigenwaarde ( $\sigma^2_k$ $σ_{k}^{2}$ ) van de data in die richting.
- Als de data sterke ondersteuning biedt in een richting (grote $\sigma^2_k$ ), mag de adapter sterk veranderen (plasticiteit).
- Als de data zwakke ondersteuning biedt (kleine $\sigma^2_k$ ), blijft de adapter dicht bij de vorige staat (stabiliteit).

Implementatie: Softmax-KL Proximal

In plaats van een simpele L2-afstand (die alle parameters gelijk behandelt), implementeren de auteurs een per-module Softmax-Kullback-Leibler (KL) regularisatie.

Dit behandelt de parameters binnen een module (bijv. een attention-head) als een kansverdeling.
Het straft veranderingen in de relatieve verdeling van parameters binnen een module af, maar niet noodzakelijk de absolute waarden.
Dit behoudt de interne structuur van de module en biedt een meer verfijnde stabiliteitsmechanisme dan uniforme L2-straffen.

3. Belangrijkste Bijdragen

Analyse: De auteurs identificeren dat de "stabiliteit-plasticiteit" uitdaging in continual aanbeveling fundamenteel anders is dan in computervisie. Ze tonen empirisch aan dat cumulatieve LoRA-methoden (die goed werken bij disjoint taken) falen bij natuurlijke, chronologische splitsen waar gebruikersvoorkeuren evolueren.
Methode & Theorie: Introductie van PESO met een theoretisch onderbouwd proximaal framework dat data-bewuste aanpassing mogelijk maakt. De methode gebruikt een per-module Softmax-KL regularisatie om de interne structuur te behouden.
Experimenten: Uitgebreide experimenten op real-world datasets (Amazon Musical Instruments, Movies & TV, Books) tonen aan dat PESO consistent beter presteert dan zowel enkele evoluerende LoRA als cumulatieve LoRA-varianten.

4. Resultaten

De experimenten zijn uitgevoerd op drie Amazon Review-datasets met een chronologische splitsing (pre-training op D1, incrementele updates op D2-D5).

Prestatie: PESO behaalde de beste resultaten op alle metrieken (Hit@5/10, NDCG@5/10) over alle datasets.
- Gemiddelde winst ten opzichte van de beste concurrenten (Single Evolving LoRA, SumLoRA, SD-LoRA) varieerde van 3,7% tot 6,3%.
Stabiliteit vs. Plasticiteit:
- Dormant Users (Stabiliteitstest): PESO behield beter de voorkeuren van gebruikers die langere tijd afwezig waren en terugkeerden, in tegenstelling tot Single Evolving LoRA (die deze vergeten).
- New Users (Plasticiteitstest): PESO paste zich effectief aan aan nieuwe gebruikers en trends, beter dan Cumulative LoRA (die te star was).
Vergelijking met Traditionele Methoden: Hoewel LLM-methoden over het algemeen beter presteren dan traditionele twee-tower modellen, toonde PESO aan dat continual learning essentieel is voor LLM's om drift in voorkeuren te vangen.
Efficiëntie: PESO heeft een opslagcomplexiteit van $O(1)$ (slechts één vorige adapter nodig), in tegenstelling tot $O(T)$ bij cumulatieve methoden. Er is geen meetbare vertraging in trainingstijd.

5. Significantie en Conclusie

Dit paper biedt een cruciale bijdrage aan het veld van generatieve aanbevelingssystemen en continual learning.

Paradigmaverschuiving: Het paper weerlegt de intuïtie dat het behouden van alle vorige adapters (cumulatieve LoRA) altijd beter is voor stabiliteit. In het dynamische landschap van aanbevelingen is het juist schadelijk om verouderde voorkeuren vast te houden.
Praktische Toepasbaarheid: PESO biedt een efficiënte, schaalbare oplossing die geen extra opslag vereist en naadloos integreert met bestaande LoRA-workflows voor LLM's.
Toekomstige Richting: De methode opent de deur voor drift-bewuste regularisatie en persoonlijkere aanpassingen in grote foundation modellen, zonder de kosten van volledige hertraining.

Kortom, PESO lost het dilemma op tussen het vergeten van oude kennis en het vastlopen in verouderde patronen, door een slimme, data-gedreven balans te vinden binnen een enkele evoluerende adapter.