DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

Het artikel introduceert DeepInterestGR, een generatief aanbevelingsframework dat gebruikmaakt van multi-modale LLMs en versterkte leerling om diepe, semantisch rijke gebruikersinteresses te ontginnen en zo de beperkingen van bestaande methoden die zich beperken tot oppervlakkige teksteigenschappen, te overwinnen.

Yangchen Zeng

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een reislustige vriend hebt die altijd de perfecte reisinstructies voor je moet bedenken.

In de oude manier van werken (de "oude school" aanbevelingsystemen), was deze vriend een beetje oppervlakkig. Als je vroeg: "Wat moet ik kopen?", keek hij alleen naar de etiket op de doos.

  • "Oh, je kocht een koptelefoon? Dan moet je ook een koptelefoon kopen."
  • "Je kocht een hardloopshirt? Dan nog een hardloopshirt."

Hij zag alleen wat er op de verpakking stond (de titel en beschrijving), maar hij begreep niet waarom je het kocht. Misschien kocht je die koptelefoon niet omdat je van muziek houdt, maar omdat je een focustrijd hebt en in een drukke trein wilt werken. Of misschien kocht je het hardloopshirt omdat je een gezonde levensstijl nastreeft, niet omdat je van hardlopen houdt.

Deze oppervlakkige vriend noemen de auteurs van dit paper het "Oppervlakkig Interesse"-probleem. Hij raakt de diepere drijfveren van mensen nooit.

De Nieuwe Oplossing: DeepInterestGR

De auteurs hebben een nieuwe, super-slimme vriend bedacht: DeepInterestGR. Deze vriend is niet alleen slim, hij heeft ook een superkracht: hij kan denken als een mens en begrijpt de wereld.

Hoe werkt dit? Het is alsof je drie nieuwe trucs hebt toegevoegd aan je vriend:

1. De "Gedachtenlezer" (Multi-LLM Interest Mining)

In plaats van alleen naar het etiket te kijken, vraagt deze nieuwe vriend aan vier verschillende super-slimme AI-experts (zoals GPT, Gemini, Kimi en Grok) om samen te denken.

  • Ze kijken naar de foto's, de tekst en de context.
  • Ze gebruiken een trucje genaamd "Chain-of-Thought" (een keten van gedachten). Ze vragen zichzelf: "Waarom zou iemand dit kopen? Wat zegt dit over hun levensstijl?"
  • Voorbeeld: In plaats van "koptelefoon", denken ze: "Ah, deze persoon is een 'focustrijdende reiziger' die waarde hecht aan geluidskwaliteit."
  • Omdat ze met vier experts praten, krijgen ze een completer en dieper beeld dan één expert alleen.

2. De "Kwaliteitscontroleur" (Reward-Labeled Deep Interest)

Niet alle gedachten van de experts zijn even goed. Soms zeggen ze iets vaags als "leuk product".

  • Daarom hebben ze een kleine, snelle controleur (een classifier) ingeschakeld.
  • Deze controleur kijkt naar de gedachten van de experts en zegt: "Ja, dit is een echt, bruikbaar inzicht!" (Positief) of "Nee, dit is te vaag, weggooien." (Negatief).
  • Alleen de beste, scherpste inzichten krijgen een sterrenstempel.

3. De "Vertaler" (Interest-Enhanced Item Discretization)

Nu hebben we diep inzicht, maar de computer moet dit kunnen gebruiken.

  • De nieuwe vriend vertaalt deze complexe menselijke inzichten (zoals "focustrijdende reiziger") naar een speciale code (een soort geheime taal van nummers en symbolen).
  • Hierdoor worden producten die op diepe interesses lijken, ook dicht bij elkaar in de geheime taal gezet. Een "focustrijdende reiziger" met een koptelefoon en een "focustrijdende reiziger" met een laptopzakje komen nu dicht bij elkaar te staan, ook al lijken de producten zelf totaal verschillend.

Het Opleidingsproces: Twee Stappen

Om deze vriend echt goed te maken, trainen ze hem in twee fases:

  1. De Schoolfase (Supervised Fine-Tuning): Hier leert de vriend eerst de basis. Hij kijkt naar wat mensen hebben gekocht en leert de verbanden tussen de producten en de diepe inzichten. Hij leert de "taal" van de geheime codes.
  2. De Coachfase (Reinforcement Learning): Nu komt de echte magie. De coach (het systeem) zegt: "Goed zo! Je hebt een product aanbevolen dat past bij de 'focustrijdende reiziger'. Dat is een goed advies!" of "Nee, dat past niet bij zijn interesses."
    • De coach geeft beloningen (rewards) op basis van de diepe inzichten, niet alleen op basis van of het product wel of niet gekocht is. Hierdoor leert de vriend echt begrijpen wat mensen willen, in plaats van alleen maar te raden.

Waarom is dit zo geweldig?

De auteurs hebben dit getest op echte data (zoals Amazon-producten voor beauty, sport en muziekinstrumenten). Het resultaat?

  • Beter advies: De nieuwe vriend raadt veel vaker het juiste product raak dan de oude systemen.
  • Beter begrip: Hij begrijpt dat mensen die "sportkleding" kopen, misschien ook "gezonde snacks" willen, omdat ze een gezonde levensstijl nastreven, niet omdat ze van sportkleding houden.
  • Overal bruikbaar: Omdat hij de diepe interesses begrijpt (bijv. "ik wil er chique uitzien"), werkt hij ook goed in een heel andere wereld. Als hij iemand heeft geholpen met make-up (Beauty), kan hij diezelfde "chic-zoekende" instelling gebruiken om goede schoenen (Sports) of een gitaar (Instruments) aan te raden.

Kortom:
Deze paper zegt: "Stop met alleen naar de verpakking te kijken. Gebruik slimme AI's om te begrijpen wie de mens is en waarom hij koopt. Als je dat doet, wordt de aanbeveling niet alleen beter, maar voelt het ook alsof je een echte vriend hebt die je kent."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →