MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, levendige bibliotheek hebt met miljarden boeken. In een traditionele aanpak zou elke boek een uniek, onbegrijpelijk nummer krijgen (bijv. "Boek #849201"). Als je een nieuw boek toevoegt, moet je eerst een nieuw nummer bedenken en het systeem leren wat dat nummer betekent. Als een boek heel zeldzaam is (een "lange staart"-boek), krijgt het misschien nooit genoeg aandacht en blijft het onbekend.

De auteurs van dit paper, MMQ, zeggen: "Waarom geven we boeken niet een betekenisvol label?" In plaats van een nummer, geven we een boek labels als "Avontuur", "Zomer", "Strand" en "Korte mouw". Zo kunnen we nieuwe boeken direct vergelijken met oude, zelfs als ze nog nooit zijn gelezen.

Maar hier komt het lastige deel: een boek heeft een tekst (de beschrijving) en een afbeelding (de cover). Soms vertellen tekst en afbeelding hetzelfde verhaal (synergie), maar soms vertellen ze iets heel anders (uniekheid). De ene cover ziet eruit als een modieus feestje, terwijl de tekst zegt dat het een comfortabel pyjama is.

Het probleem met bestaande systemen is dat ze vaak proberen tekst en beeld in één grote soep te mengen (waardoor details verloren gaan) of ze ze volledig apart houden (waardoor ze de verbinding missen).

De Oplossing: MMQ (De Slimme Vertaler)

De auteurs hebben een nieuw systeem bedacht, MMQ, dat werkt als een slimme vertaler met twee fases. Je kunt het zien als een team van specialisten in een keuken.

Fase 1: De "Meester-koks" (Shared-Specific Tokenizer)

Stel je een keuken voor met twee soorten koks:

De Speciale Koks (Modality-Specific): Deze koks kijken alleen naar één ding. De ene kijkt alleen naar de tekst, de andere alleen naar de foto. Ze zorgen ervoor dat de unieke details (zoals "dit is een pyjama" of "dit is een zonnige foto") niet verloren gaan.
De Gemeenschappelijke Koks (Modality-Shared): Deze koks kijken naar zowel tekst als foto tegelijk. Ze zoeken naar de overeenkomsten, zoals "dit is een zomeroutfit".

Het geheim: De auteurs zorgen ervoor dat deze koks niet gaan "klooien" met elkaars werk. Ze gebruiken een regel (orthogonale regularisatie) die zegt: "Jij doet tekst, jij doet foto, en jullie doen samen de zomer-sfeer. Raak elkaars werk niet aan!" Zo krijgen ze een perfecte mix van unieke details en gedeelde thema's.

Fase 2: De "Klant-adviseur" (Behavior-Aware Fine-tuning)

Nu hebben we prachtige labels, maar wat betekent dat voor de klant? Soms vinden mensen iets "mooi" (semantisch), maar kopen ze het niet (gedrag).
Stel je voor dat een klant vaak "strand" koopt. Het systeem moet zijn labels aanpassen zodat "strand" en "zonnebril" dichter bij elkaar komen in het geheugen, zelfs als de tekst er anders uitziet.

In de tweede fase laat het systeem de labels "lezen" van de echte klantgedragingen. Het is alsof de chef-kok (het systeem) de menukaart aanpast op basis van wat de gasten écht bestellen, zonder de kwaliteit van de ingrediënten (de originele informatie) te vergeten. Ze gebruiken een slimme techniek om de labels zachtjes te verschuiven zodat ze beter matchen met wat mensen kopen.

Waarom is dit geweldig?

Het werkt voor nieuwe dingen: Als er een nieuw product op de markt komt (bijv. een nieuwe strandtas), hoeft het systeem niet te wachten tot mensen het kopen. Omdat het label "strand" en "tas" al bestaat, weet het systeem direct dat dit product bij mensen past die van strand houden.
Het is efficiënt: In plaats van miljarden unieke nummers te onthouden, onthoudt het systeem een paar duizend betekenisvolle labels. Dit maakt het systeem sneller en slimmer.
Het werkt in de praktijk: De auteurs hebben dit getest in een echte e-commerce winkel (een grote Aziatische webshop). Het resultaat? Meer verkopen, meer klikken en meer omzet. Mensen vonden precies wat ze zochten, zelfs als ze het nog niet kenden.

Samenvatting in één zin

MMQ is als een super-slimme bibliothecaris die niet alleen naar de titel van een boek kijkt, maar ook naar de cover, en die bovendien weet welke boeken jij echt leuk vindt, zodat hij je altijd de perfecte aanbeveling geeft, zelfs voor boeken die nog niemand heeft gelezen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditionele aanbevelingssystemen gebruiken unieke item-ID's (ItemIDs) om items te representeren. Deze aanpak heeft echter ernstige beperkingen in real-world scenario's met grote, dynamische item-corpora:

Schaalbaarheid en Stabiliteit: Hoge item-omslag en verschuivende populariteitstrends maken statische ID-embeddings instabiel en moeilijk te schalen.
Data-Sparsity: Voor items in de "long-tail" (zeldzame items) is er te weinig interactiedata, wat leidt tot slecht gegeneraliseerde representaties.
Semantisch-Gedragskloof: Bestaande methoden voor semantische ID's (afgeleid van tekst en afbeeldingen) worstelen met twee uitdagingen:
- Het vinden van een balans tussen synergie (kruismodale interactie) en uniekheid (modale specifieke details). Bestaande methoden kiezen vaak voor ofwel volledige alignering (wat unieke details verbergt) of volledige scheiding (wat synergie mist).
- Het overbruggen van de kloof tussen de semantische ruimte (waar ID's worden getraind) en de gedragsruimte (waar aanbevelingen op gebaseerd zijn). Pure semantische representaties komen vaak niet overeen met daadwerkelijke gebruikersvoorkeuren.

Methodologie: MMQ Framework

De auteurs stellen MMQ (Multimodal Mixture-of-Quantization) voor, een tweefasenframework dat een nieuwe multimodale tokenizer ontwikkelt.

1. Fase 1: Training van de Multimodale Shared-Specific Tokenizer

In deze fase wordt een tokenizer getraind om items om te zetten in discrete semantische ID's.

Multi-Expert Architectuur: Het model maakt gebruik van twee soorten experts:
- Modality-Shared Experts: Deze nemen zowel tekst- als visuele invoer om synergetische informatie (gemeenschappelijke kenmerken) te vangen.
- Modality-Specific Experts: Deze werken op unimodale invoer (alleen tekst of alleen visueel) om unieke, modale specifieke signalen te behouden.
Gating Mechanisme: Een gating-netwerk weegt dynamisch de bijdrage van de specifieke experts, terwijl de gedeelde experts deterministisch worden toegewezen.
Cosine Quantizer: In plaats van de standaard $L_2$ -afstand, wordt cosine-afstand gebruikt voor de lookup in de codebook. Dit maakt de toewijzing afhankelijk van de hoek (richting) in plaats van de grootte, wat beter aansluit bij de semantische geometrie van multimodale embeddings.
Orthogonale Regularisatie: Om te voorkomen dat experts redundante informatie leren (expert collapse), wordt een orthogonale regularisatie-loss toegevoegd. Dit dwingt de projecties van de experts om in verschillende richtingen in de latente ruimte te liggen, wat zorgt voor een gedifferentieerde en complete representatie.
Verliesfuncties: Het totale verlies bestaat uit reconstructieverlies (voor hoge fideliteit), hulpverlies voor specifieke modaliteiten en de orthogonale regularisatie.

2. Fase 2: Gedragsbewuste Fijnafstelling (Behavior-Aware Fine-Tuning)

Traditionele methoden bevriezen de tokenizer na training, wat leidt tot een onderbreking van de gradiëntstroom en een misalignement met de downstream-taak. MMQ lost dit op met:

Zachte Indexering (Soft Indexing): In plaats van een harde, niet-differentieerbare lookup, wordt een "soft" mechanisme gebruikt (geïnspireerd door IBQ). De semantische ID wordt berekend als een gewogen som van codebook-vectoren op basis van cosine-similariteit.
Joint Optimization: Hierdoor kunnen gradiënten terugvloeien naar de tokenizer tijdens het trainen van de downstream-aanbevelingstaken (zoals generatieve retrievel of discriminatieve ranking).
Behoud van Semantiek: Een reconstructieverlies wordt behouden tijdens de fijnafstelling om te voorkomen dat de rijke, voorgetrainde semantische kennis verloren gaat terwijl het model zich aanpast aan gebruikersgedrag.

Belangrijkste Bijdragen

Eerste Unified Framework: MMQ is het eerste framework dat tegelijkertijd multimodale synergie en uniekheid vastlegt en dynamisch aanpast aan gebruikersgedrag.
Multi-Expert Architectuur met Orthogonaliteit: Een innovatieve ontwerp dat modale gedeelde en specifieke informatie ontrafelt, waardoor redundantie wordt verminderd en de parameter-efficiëntie wordt verhoogd.
Gedragsbewuste Fijnafstelling: Een nieuw mechanisme dat de kloof tussen semantische representaties en aanbevelingsdoelen overbrugt door gradiënten door de tokenizer te laten vloeien, zonder de semantische structuur te vernietigen.
Uitgebreide Validatie: Succesvolle toepassing en evaluatie in zowel generatieve retrievel als discriminatieve ranking taken, met zowel offline experimenten als online A/B-tests.

Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op industriële datasets (e-commerce, 30 miljoen gebruikers) en publieke datasets (Amazon Beauty).

Prestatieverbetering: MMQ presteert consistent beter dan state-of-the-art baselines (zoals RQ-VAE, RQ-Kmeans, OPQ) in zowel Modality-Aligned als Modality-Separated paradigmata.
- Generatieve Retrievel: Significant verbetering in Recall@N en NDCG@N (bijv. +32,73% verbetering in Recall@5 op industriële data).
- Discriminatieve Ranking: Verbetering in AUC en GAUC.
Long-tail Items: MMQ toont de grootste winst voor items met weinig interactiedata (long-tail), wat aantoont dat semantische ID's effectief kennisoverdracht mogelijk maken.
Ablatie Studies:
- Het verwijderen van de orthogonale regularisatie leidt tot expert-collapse en slechtere prestaties.
- Het verwijderen van de gedragsbewuste fijnafstelling resulteert in een significante daling van de aanbevelingskwaliteit, wat de noodzaak van het overbruggen van de semantisch-gedragskloof bevestigt.
Online A/B Test: In een live omgeving op een groot e-commerceplatform (30 dagen) leverde MMQ significante zakelijke verbeteringen op:
- +0,90% in advertentie-omzet.
- +4,33% in conversieratio (CVR).
- +3,52% in bestellingen.

Betekenis en Impact

MMQ biedt een schaalbare en veelzijdige oplossing voor het genereren van semantische ID's. Het lost fundamentele problemen op in bestaande systemen door:

Efficiëntie: Het creëren van compacte, semantisch rijke ID's die beter schalen dan traditionele one-to-one ID-mappings.
Generalisatie: Het verbeteren van aanbevelingen voor nieuwe en zeldzame items door gebruik te maken van multimodale inhoud.
Praktische Toepasbaarheid: De succesvolle online implementatie bewijst dat dit academische concept direct waardevol is voor productieve aanbevelingssystemen.

Het werk markeert een belangrijke stap in het overbruggen van de kloof tussen semantisch representatieleren en gebruikersgedragsmodellering, met potentieel voor toepassing in zoekopdrachten, advertenties en cross-domein contentbegrip.

MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation

De Oplossing: MMQ (De Slimme Vertaler)

Fase 1: De "Meester-koks" (Shared-Specific Tokenizer)

Fase 2: De "Klant-adviseur" (Behavior-Aware Fine-tuning)

Waarom is dit geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: MMQ Framework

1. Fase 1: Training van de Multimodale Shared-Specific Tokenizer

2. Fase 2: Gedragsbewuste Fijnafstelling (Behavior-Aware Fine-Tuning)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks