MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation

Deze paper introduceert MMQ, een tweestapsframework dat een multimodale tokenizer gebruikt om semantische item-ID's te genereren die zowel modale specifieke nuances als gebruikersgedrag effectief integreren, waardoor de schaalbaarheid en generalisatie van aanbevelingssystemen voor grote en dynamische collecties worden verbeterd.

Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, Jing Zhang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, levendige bibliotheek hebt met miljarden boeken. In een traditionele aanpak zou elke boek een uniek, onbegrijpelijk nummer krijgen (bijv. "Boek #849201"). Als je een nieuw boek toevoegt, moet je eerst een nieuw nummer bedenken en het systeem leren wat dat nummer betekent. Als een boek heel zeldzaam is (een "lange staart"-boek), krijgt het misschien nooit genoeg aandacht en blijft het onbekend.

De auteurs van dit paper, MMQ, zeggen: "Waarom geven we boeken niet een betekenisvol label?" In plaats van een nummer, geven we een boek labels als "Avontuur", "Zomer", "Strand" en "Korte mouw". Zo kunnen we nieuwe boeken direct vergelijken met oude, zelfs als ze nog nooit zijn gelezen.

Maar hier komt het lastige deel: een boek heeft een tekst (de beschrijving) en een afbeelding (de cover). Soms vertellen tekst en afbeelding hetzelfde verhaal (synergie), maar soms vertellen ze iets heel anders (uniekheid). De ene cover ziet eruit als een modieus feestje, terwijl de tekst zegt dat het een comfortabel pyjama is.

Het probleem met bestaande systemen is dat ze vaak proberen tekst en beeld in één grote soep te mengen (waardoor details verloren gaan) of ze ze volledig apart houden (waardoor ze de verbinding missen).

De Oplossing: MMQ (De Slimme Vertaler)

De auteurs hebben een nieuw systeem bedacht, MMQ, dat werkt als een slimme vertaler met twee fases. Je kunt het zien als een team van specialisten in een keuken.

Fase 1: De "Meester-koks" (Shared-Specific Tokenizer)

Stel je een keuken voor met twee soorten koks:

  1. De Speciale Koks (Modality-Specific): Deze koks kijken alleen naar één ding. De ene kijkt alleen naar de tekst, de andere alleen naar de foto. Ze zorgen ervoor dat de unieke details (zoals "dit is een pyjama" of "dit is een zonnige foto") niet verloren gaan.
  2. De Gemeenschappelijke Koks (Modality-Shared): Deze koks kijken naar zowel tekst als foto tegelijk. Ze zoeken naar de overeenkomsten, zoals "dit is een zomeroutfit".

Het geheim: De auteurs zorgen ervoor dat deze koks niet gaan "klooien" met elkaars werk. Ze gebruiken een regel (orthogonale regularisatie) die zegt: "Jij doet tekst, jij doet foto, en jullie doen samen de zomer-sfeer. Raak elkaars werk niet aan!" Zo krijgen ze een perfecte mix van unieke details en gedeelde thema's.

Fase 2: De "Klant-adviseur" (Behavior-Aware Fine-tuning)

Nu hebben we prachtige labels, maar wat betekent dat voor de klant? Soms vinden mensen iets "mooi" (semantisch), maar kopen ze het niet (gedrag).
Stel je voor dat een klant vaak "strand" koopt. Het systeem moet zijn labels aanpassen zodat "strand" en "zonnebril" dichter bij elkaar komen in het geheugen, zelfs als de tekst er anders uitziet.

In de tweede fase laat het systeem de labels "lezen" van de echte klantgedragingen. Het is alsof de chef-kok (het systeem) de menukaart aanpast op basis van wat de gasten écht bestellen, zonder de kwaliteit van de ingrediënten (de originele informatie) te vergeten. Ze gebruiken een slimme techniek om de labels zachtjes te verschuiven zodat ze beter matchen met wat mensen kopen.

Waarom is dit geweldig?

  1. Het werkt voor nieuwe dingen: Als er een nieuw product op de markt komt (bijv. een nieuwe strandtas), hoeft het systeem niet te wachten tot mensen het kopen. Omdat het label "strand" en "tas" al bestaat, weet het systeem direct dat dit product bij mensen past die van strand houden.
  2. Het is efficiënt: In plaats van miljarden unieke nummers te onthouden, onthoudt het systeem een paar duizend betekenisvolle labels. Dit maakt het systeem sneller en slimmer.
  3. Het werkt in de praktijk: De auteurs hebben dit getest in een echte e-commerce winkel (een grote Aziatische webshop). Het resultaat? Meer verkopen, meer klikken en meer omzet. Mensen vonden precies wat ze zochten, zelfs als ze het nog niet kenden.

Samenvatting in één zin

MMQ is als een super-slimme bibliothecaris die niet alleen naar de titel van een boek kijkt, maar ook naar de cover, en die bovendien weet welke boeken jij echt leuk vindt, zodat hij je altijd de perfecte aanbeveling geeft, zelfs voor boeken die nog niemand heeft gelezen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →