Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek beheert met miljarden boeken (de kandidaten) en je moet voor elke bezoeker (de gebruiker) de perfecte 10 boeken kiezen. Je hebt echter maar een paar seconden om dit te doen.

In de wereld van aanbevelingssystemen (zoals bij TikTok, YouTube of in dit geval, het Chinese nieuwsplatform Toutiao) gebeurt dit in verschillende rondes:

Zoeken: Je pakt eerst een grote emmer vol boeken uit de kast.
Voorselectie (Pre-ranking): Je moet die emmer snel leegmaken tot een klein bakje met de beste 100 boeken.
Ranking: Je kijkt heel nauwkeurig naar die 100 boeken om de top 10 te kiezen.

Het probleem waar dit papier over gaat, zit in de voorselectie.

Het Probleem: Een rommelige klas

Stel je voor dat je een leraar bent die een klas moet voorbereiden voor een examen. In deze klas zitten twee soorten leerlingen:

De "makkelijke" leerlingen: Zij weten het antwoord al en zijn heel duidelijk. Ze zijn makkelijk te herkennen als "niet interessant" voor de gebruiker.
De "moeilijke" leerlingen: Zij lijken precies op de goede antwoorden, maar zijn net een beetje verkeerd. Ze zijn lastig te onderscheiden.

De oude manier van werken was: Meng alles door elkaar. Je gaf één grote les aan de hele klas.

Het nadeel: De "moeilijke" leerlingen schreeuwden het hardst (ze gaven de sterkste signalen). De leraar (het computermodel) luisterde alleen naar die schreeuwers en negeerde de rustige, makkelijke leerlingen. Hierdoor leerde de leraar niet goed hoe hij de makkelijke gevallen moest filteren, en hij raakte in de war door de harde gevallen.
Het andere nadeel: De leraar gebruikte voor iedereen even zware boeken. Voor de makkelijke leerlingen was dat zonde van de tijd en energie; voor de moeilijke leerlingen was het soms net niet genoeg.

De Oplossing: HAP (De Slimme Leraar)

De auteurs van dit papier, van ByteDance, hebben een nieuwe methode bedacht genaamd HAP (Heterogeneity-Aware Adaptive Pre-ranking). Ze noemen het "Heterogeneity-Aware", wat simpelweg betekent: "Ze weten dat niet iedereen hetzelfde is."

Hun oplossing bestaat uit twee slimme trucjes:

1. De Geluidsregelaar (Gradient Harmonization)

In plaats van iedereen tegelijk te laten schreeuwen, maakt HAP twee aparte groepen:

De Makkelijke Groep: Hier worden rustige, duidelijke signalen gebruikt.
De Moeilijke Groep: Hier worden de schreeuwers aangepakt.

HAP gebruikt een speciale "geluidsregelaar" (een wiskundige techniek genaamd Gradient-Harmonized Contrastive Learning). Deze regelaar zorgt ervoor dat de schreeuwers (de moeilijke gevallen) niet de hele klas overstemmen. Hierdoor kan de leraar ook goed luisteren naar de rustige leerlingen. Het resultaat is een veel stabielere en slimmere leraar die alles begrijpt, niet alleen de harde gevallen.

2. De Twee-Stage Checkpoint (Difficulty-Aware Model Routing)

Stel je voor dat je een beveiligingscontrole hebt op een vliegveld.

Stap 1 (De Lichte Controle): Een snelle, simpele scanner kijkt naar iedereen. Voor 90% van de reizigers (de makkelijke gevallen) is dit genoeg. Ze gaan direct door. Dit kost weinig tijd en energie.
Stap 2 (De Zware Controle): Alleen de reizigers die de eerste scanner "verdacht" vindt (de moeilijke gevallen), worden naar een diepere, complexere scanner gestuurd. Deze scanner is duurder en langzamer, maar hij is er speciaal voor om die lastige gevallen goed te beoordelen.

Vroeger gebruikte men één super-dure scanner voor iedereen. Dat was veel te duur en traag. HAP gebruikt de dure scanner alleen waar hij echt nodig is.

Wat leverde dit op?

Toen ze dit systeem in het echte leven (bij Toutiao) hebben geprobeerd, gebeurde er iets moois:

Betere resultaten: Mensen bleven langer in de app hangen en keken meer naar de content die ze kregen.
Minder kosten: Omdat ze de dure scanner niet voor iedereen hoefden te gebruiken, was het systeem zelfs sneller en goedkoper in gebruik dan de oude systemen.

Samenvattend in één zin

HAP is als een slimme manager die weet dat niet alle taken hetzelfde zijn: hij laat een snelle assistent de simpele klusjes doen en houdt de dure expert alleen voor de moeilijke problemen, terwijl hij ervoor zorgt dat de expert niet door de simpele taken wordt afgeleid.

Dit maakt het hele systeem slimmer, sneller en goedkoper. En als klap op de vuurpijl hebben ze hun dataset (de "lesboeken" die ze gebruikten) openbaar gemaakt, zodat andere onderzoekers ook kunnen leren van hun ervaring.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems" in het Nederlands.

Probleemstelling

In grote schaal aanbevelingssystemen (zoals die van ByteDance/Toutiao) wordt een meertraps-cascade gebruikt: retrieval, pre-ranking, ranking en re-ranking. De pre-ranking-fase is kritiek omdat deze duizenden items moet filteren naar enkele honderden binnen milliseconden.

Het paper identificeert twee fundamentele uitdagingen in deze fase die door bestaande methoden worden genegeerd:

Heterogeniteit van trainingselementen: De trainingssamples komen uit verschillende bronnen (blootgestelde items, ranking-negatieven, pre-ranking-negatieven, willekeurige negatieven). Deze variëren enorm in "moeilijkheidsgraad".
- Moeilijke negatieven (bijv. items die net niet zijn geklikt of laag gerankt) lijken sterk op positieve voorbeelden.
- Gemakkelijke negatieven (bijv. willekeurig geselecteerde items) zijn triviaal te onderscheiden.
Gradientconflicten en inefficiëntie:
- Gradienten-dominantie: Bestaande methoden mengen deze heterogene samples ononderscheiden. Analyse toont aan dat moeilijke negatieven disproportioneel grote gradienten genereren (onder BCE en InfoNCE loss). Dit leidt tot een "gradient conflict" waarbij de modeltraining wordt gedomineerd door de moeilijke samples, terwijl gemakkelijke samples onderbenut blijven. Dit resulteert in instabiele convergentie en suboptimale lokale minima.
- Blinde schaalvergroting: De industriële praktijk is vaak om het modelcomplexiteit uniform te verhogen voor alle samples. Dit is inefficiënt omdat het rekenkracht verspillen aan gemakkelijke gevallen die een licht model al goed kunnen oplossen, terwijl het de training vertraagt zonder evenredige winst.

Methodologie: HAP (Heterogeneity-Aware Adaptive Pre-ranking)

Het paper stelt HAP voor, een unificerend framework dat de heterogeniteit van kandidaten expliciet adresseert via twee kerncomponenten:

1. Gradient-Harmonized Contrastive Learning (GHCL)

Om het gradientconflict op te lossen, introduceert HAP een aangepaste verliesfunctie.

Concept: In plaats van alle negatieve samples in één grote batch te mengen, worden ze gesplitst in twee groepen op basis van moeilijkheid:
- Hard negatieven: Blootgestelde negatieven (EN) en Ranking negatieven (RN).
- Gemakkelijke negatieven: Pre-ranking negatieven (PRN) en Global Random negatieven (GN).
Implementatie: GHCL berekent de InfoNCE-loss (contrastive loss) onafhankelijk voor deze twee groepen.
- $L_{hard} = -\log \frac{e^{s_p}}{e^{s_p} + \sum_{j \in N_{hard}} e^{s^-_j}}$
- $L_{easy} = -\log \frac{e^{s_p}}{e^{s_p} + \sum_{j \in N_{easy}} e^{s^-_j}}$
Effect: Door de gradienten binnen elke groep te isoleren, wordt de exponentiële dominantie van de moeilijkste samples over de gemakkelijke onderdrukt. Dit harmoniseert de bijdrage van beide groepen, stabiliseert de training en verbetert de generalisatie.

2. Difficulty-Aware Model Routing (DAMR)

Om de rekeninefficiëntie op te lossen, implementeert HAP een tweestaps-architectuur die rekenkracht dynamisch toewijst.

Fase 1 (Lightweight Model): Een klein, snel model verwerkt alle kandidaten. Dit model is getraind met GHCL op een mix van alle negatieven en filtert de "gemakkelijke" negatieven eruit.
Fase 2 (Expressive Model): Alleen de "harde" kandidaten (die het lightweight model niet zeker kan filteren) worden doorgestuurd naar een zwaarder, expressiever model (met attention-mechanismen). Dit model wordt uitsluitend getraind op de moeilijkste negatieven (EN en RN) om de fijnste onderscheidingen te maken.
Voordeel: Dit zorgt voor een optimale balans tussen nauwkeurigheid en kosten. De dure rekenkracht wordt alleen ingezet waar het nodig is.

Belangrijkste Bijdragen

Theoretisch Framework: Een grondige analyse van gradientconflicten in pre-ranking en de introductie van GHCL om deze te harmoniseren.
DAMR Architectuur: Een nieuwe aanpak voor resource-allocation waarbij modelcomplexiteit adaptief wordt gekoppeld aan de moeilijkheidsgraad van de sample.
ToutiaoRec Dataset: De publicatie van een groot, industrieel dataset (313 miljoen requests) met volledige multi-stage dekking (retrieval tot re-ranking) en gedetailleerde ranking-informatie, wat zeldzaam is in open-source.
Praktische Implementatie: Een volledig werkend systeem dat is gedeployed in de productieomgeving van Toutiao.

Resultaten

Offline Performance

HAP presteert consistent beter dan state-of-the-art (SOTA) modellen (zoals DSSM, COLD, COPR) op verschillende testsets.
De prestatiesverbetering is het grootst op de harde negatieven (THard-set), wat aantoont dat het model beter leert om moeilijke onderscheidingen te maken zonder de gemakkelijke gevallen te verwaarlozen.
De AUC (Area Under Curve) verbetering is significant, zelfs wanneer de totale parametercount van HAP (twee modellen) vergelijkbaar is met single-stage baselines.

Online A/B-tests (Toutiao Productie)

Het framework is 9 maanden lang gedeployed in het Toutiao-systeem. De resultaten zijn opmerkelijk gezien de schaal (honderden miljoenen gebruikers):

Gebruikersduur (App Usage Duration): +0,4% stijging.
Actieve Dagen (Active Days): +0,05% stijging.
Click-Through Rate (CTR): +3,0% stijging.
Kosten & Latentie: Ondanks de toevoeging van een tweede modelstap, bleef de latency vergelijkbaar met de vorige SOTA, terwijl de CPU-gebruikskosten met 6% daalden. Dit komt doordat het zware model slechts op een fractie van de kandidaten wordt uitgevoerd.

Significantie

Dit paper biedt een paradigmaverschuiving in hoe industriële aanbevelingssystemen omgaan met heterogene data.

Van "One-Size-Fits-All" naar "Adaptive": Het toont aan dat het uniform schalen van modellen inefficiënt is. Het is beter om modellen te specialiseren op basis van sample-moeilijkheid.
Gradient Management: Het benadrukt dat het beheersen van gradientconflicten (via GHCL) net zo belangrijk is als het vergroten van modelcapaciteit.
Industriële Impact: De resultaten bewijzen dat het mogelijk is om zowel de kwaliteit van aanbevelingen te verhogen als de operationele kosten te verlagen door slimme architecturale keuzes, in plaats van alleen te vertrouwen op grotere datasets of zwaardere hardware.

Samenvattend biedt HAP een robuust, schaalbaar en kostenefficiënt kader voor de pre-ranking-fase, dat de kloof tussen theoretische optimalisatie en industriële toepasbaarheid overbrugt.