When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Deze paper introduceert de Co-Evolutionary Alignment (CoEA)-methode, die een Dual-Stable Interest Exploration-module en een Periodic Collaborative Optimization-mechanisme combineert om aanbevelingssystemen te verbeteren door zowel lange-termijngroepsidentiteit als korte-termijnpersoonlijke interesses te modelleren en via een dynamische gesloten lus serendipiteit te bevorderen.

Hongxiang Lin, Hao Guo, Zeshun Li, Erpeng Xue, Yongqian He, Zhaoyu Hu, Lei Wang, Sheng Chen, Long Zeng

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een enorm, eindeloos supermarktlokaal loopt: de aanbevelingsmachine.

Normaal gesproken doet deze machine precies wat jij wilt: als je gisteren koekjes hebt gekocht, krijg je vandaag weer koekjes. En morgen weer. En overmorgen. Het is veilig, maar na verloop van tijd wordt het saai. Je raakt uitgekeken op dezelfde producten en mist misschien die prachtige, nieuwe smaak die je juist wel zou willen proberen. Dit noemen onderzoekers de "echo-kamer": je hoort alleen je eigen gedachten terug.

De auteurs van dit paper, een team van Meituan (een grote Chinese app) en de Universiteit Tsinghua, hebben een slimme oplossing bedacht om dit probleem op te lossen. Ze noemen hun methode CoEA. Laten we het uitleggen alsof het een supermarkt met twee speciale managers is.

Het Probleem: De Twee Managers die niet samenwerken

In de huidige systemen zijn er vaak twee soorten "managers" die proberen je te helpen:

  1. De "Relevantie-manager": Deze kijkt naar wat je nu doet. "Ah, je kijkt naar brood, hier is nog meer brood." Hij is goed, maar saai.
  2. De "Nieuwheid-manager": Deze probeert je verrassen. "Probeer eens dat exotische fruit!" Maar vaak raakt hij de plank mis. Hij denkt dat jij, omdat je van pizza houdt, ook van sushi houdt, terwijl jij misschien juist van pasta houdt. Hij kijkt niet naar wie je echt bent op de lange termijn.

De oude systemen lieten deze managers maar één keer met elkaar praten en daarna stopten ze. Het resultaat? Een statische lijst met suggesties die nooit echt leerde van je nieuwe gedrag.

De Oplossing: CoEA (De Samenwerkende Managers)

De auteurs hebben een nieuw systeem bedacht met twee hoofdstukken, alsof het een dans is tussen twee partners.

1. De "Twee-Stabiele" Ontdekkingsreis (DSIE)

Stel je voor dat je niet alleen kijkt naar wat je vandaag hebt gekocht (je korte termijn), maar ook naar wie je bent als persoon (je lange termijn).

  • Korte termijn: Wat heb je de afgelopen week geklikt? Misschien was je ziek en kocht je alleen soep.
  • Lange termijn: Wie ben je echt? Ben je een "tech-liefhebber", een "kookfan" of een "reisliefhebber"?

Het systeem gebruikt een slimme techniek (die we DSIE noemen) om deze twee te combineren. Het kijkt naar je lange geschiedenis om te zien tot welke "stam" of "groep" je behoort (bijvoorbeeld: "De Gezonde Eetclub"). Vervolgens kijkt het naar je recente acties om te zien wat je nu nodig hebt.

De metafoor: Stel je voor dat je een oude vriend bent. Als je vriend zegt: "Ik heb vandaag een nieuwe auto gekocht" (korte termijn), weet je dat hij misschien even geld heeft. Maar als je weet dat hij al 10 jaar "de auto-nerd" is (lange termijn), weet je dat hij waarschijnlijk ook geïnteresseerd is in nieuwe banden of een GPS-systeem, zelfs als hij die vandaag nog niet heeft gezocht. Het systeem combineert deze twee inzichten om je iets te geven dat nieuw is, maar wel bij jou past.

2. De "Periodieke Samenwerking" (PCO)

Dit is het meest innovatieve deel. In oude systemen praten de managers maar één keer en dan is het klaar. In het nieuwe systeem (CoEA) praten ze elke dag met elkaar in een eindeloze cyclus.

Het proces ziet er zo uit:

  1. De Nieuwheid-manager bedenkt een lijst met spannende, nieuwe producten (bijvoorbeeld: "Probeer eens dat nieuwe kruidenmengsel!").
  2. De Relevantie-manager kijkt hier kritisch naar. "Wacht even, deze gebruiker is een vegetariër, dit kruidenmengsel bevat vlees. Dat past niet." Hij zegt: "Nee, dit is niet goed."
  3. De Lering: De Nieuwheid-manager luistert naar de feedback, past zijn ideeën aan en probeert het opnieuw.
  4. De Terugkoppeling: De Nieuwheid-manager leert van deze fouten en wordt slimmer. Hij onthoudt niet alleen wat hij deed, maar ook waarom het goed of slecht was.

De metafoor: Stel je voor dat je een chef-kok bent die nieuwe recepten bedenkt (Nieuwheid-manager). Je proeft je eigen gerechten, maar je bent niet objectief. Je hebt een kritische smaakmeester (Relevantie-manager) nodig.

  • In oude systemen: Je proeft één keer, de smaakmeester zegt "Nee", en je stopt met koken.
  • In dit nieuwe systeem: Je kookt, de smaakmeester zegt "Te zout!", jij past het recept aan, kookt het opnieuw, en de smaakmeester zegt "Mooi!". Dit proces herhaalt zich elke dag. Zo wordt je chef-kok steeds beter in het vinden van nieuwe, maar toch smakelijke gerechten.

Waarom is dit belangrijk?

Dit systeem lost het grootste probleem van aanbevelingen op: de balans tussen veilig en verrassend.

  • Veilig: Je krijgt nog steeds dingen die je leuk vindt (want de lange-termijn "stam" wordt bewaakt).
  • Verrassend: Je krijgt ook dingen die je nog nooit hebt gezien, maar die je waarschijnlijk wel zult waarderen (want de korte-termijn acties worden gebruikt om te experimenteren).

Het Resultaat in de Wereld

De auteurs hebben dit getest in de echte wereld bij Meituan (een gigantische app voor eten bestellen en winkelen).

  • Offline (in de test): Het systeem vond veel meer nieuwe, interessante categorieën voor gebruikers, zonder dat de kwaliteit van de aanbevelingen daalde.
  • Online (in de app): Toen ze het echt gebruikten, zagen ze dat mensen meer bestelden (meer omzet) én vaker nieuwe producten probeerden.

Kort samengevat:
Dit paper introduceert een slimme manier om een robot te leren dat "nieuw" niet betekent "raar". Door te kijken naar wie je bent (je lange termijn identiteit) én wat je nu doet, en door twee AI-managers te laten samenwerken in een eindeloze leercyclus, kunnen we je verrassen met dingen die je echt leuk zult vinden, in plaats van je vast te houden aan hetzelfde oude spul. Het is alsof je een persoonlijke gids krijgt die je niet alleen naar bekende plekken leidt, maar je ook de perfecte, verborgen juweeltjes laat ontdekken.