Aligning Large Language Models with Searcher Preferences

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zoekmachine gebruikt, zoals Google of Bing. Vroeger gaf je een vraag in en kreeg je een lijst met links terug. Het was alsof je een bibliotheekbode kreeg die je een stapel boeken gaf en zei: "Hier, zoek het zelf maar uit." Je moest die boeken openen, lezen en zelf de antwoorden samenvoegen.

Nu, met de opkomst van slimme AI (zoals ChatGPT), willen we dat de zoekmachine het boek voor ons opent en ons het antwoord geeft. Maar hier zit een addertje onder het gras: als die AI te slim is, kan ze ook te domme dingen verzinnen, onzin verkopen of zelfs gevaarlijk advies geven.

Dit paper beschrijft hoe de makers van RedNote (een enorm populair Chinees platform, vergelijkbaar met een mix van Instagram en TikTok) een nieuwe, super-slimme zoekmachine hebben gebouwd die dit probleem oplost. Ze noemen hun model SearchLLM.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Onbetrouwbare Genie"

Stel je voor dat je een genie hebt dat alles weet, maar dat genie is ook een beetje chaotisch.

Soms verzonnen ze feiten (hallucinaties).
Soms geven ze oude informatie (alsof ze zeggen dat de Olympische Spelen van 2020 nog gaan beginnen, terwijl ze al voorbij zijn).
Soms zijn ze onveilig (geven ze gevaarlijk medisch advies).
Soms zijn ze te langdradig en vertellen ze een verhaal dat niemand wil lezen.

De uitdaging was: hoe maak je dit genie betrouwbaar, veilig en nuttig voor de gebruiker?

2. De Oplossing: De Twee-Lagen Keuken

De auteurs hebben een slim systeem bedacht om dit genie te trainen. Ze noemen het een hiërarchisch beloningssysteem.

Stel je voor dat je een nieuwe kok (de AI) in dienst neemt in een restaurant. Je hebt twee soorten regels voor deze kok:

Laag 1: De "Niet-onderhandelbare" Veiligheidsregels (De Bodemlijn)
Dit zijn de harde regels. Als de kok deze overtreedt, wordt het eten niet geserveerd, hoe lekker het er ook uitziet.

Voorbeeld: Geen vergiftigd voedsel (veiligheid), geen valse ingrediënten (geen feitelijke fouten), en het eten moet op een bord liggen (goede opmaak).
In de paper noemen ze dit: Factual Grounding (gebaseerd op feiten), Safety (veiligheid) en Format (opmaak). Als de AI hier faalt, is het antwoord direct "ongeldig".

Laag 2: De "Kwaliteitsregels" (De Gedragsoptimalisatie)
Als de kok de veiligheidsregels volgt, dan proberen we het eten nog lekkerder te maken.

Voorbeeld: Is het eten vers? Is het niet te saai? Is het kort en krachtig? Is het antwoord precies wat de klant wilde?
In de paper: Robuustheid (werkt het ook als de informatie rommelig is?), Rijkdom (is het antwoord compleet?) en Gebruiksgemak (is het makkelijk te lezen?).

3. De Slimme Truc: De "Gated Aggregation" (De Poortwachter)

Dit is het meest creatieve deel van het paper. Normaal gesproken proberen AI-modellen alles tegelijk te optimaliseren. Soms betekent dat dat ze een veiligheidsregel negeren om maar een "lekkerder" antwoord te geven.

De auteurs hebben een Poortwachter (de Gated Aggregation Strategy) bedacht.

Hoe het werkt: Stel je voor dat de AI een score krijgt voor "Veiligheid" en een score voor "Lekkerheid".
De Poortwachter kijkt eerst naar de Veiligheidsscore.
- Als de veiligheidsscore laag is (bijvoorbeeld 0,5), dan wordt de totale beloning onmiddellijk naar beneden getrokken, ongeacht hoe lekker het antwoord is. Het is alsof de poortwachter zegt: "Je mag het restaurant niet verlaten als je vergiftigd voedsel serveert."
- Alleen als de veiligheidsscore hoog is (bijvoorbeeld 0,9 of 1,0), mag de "Lekkerheidsscore" de totale prestatie beïnvloeden.
Het resultaat: De AI leert dat ze eerst veilig moeten zijn, en daarna pas proberen om slim en leuk te zijn. Ze kunnen geen korten op de veiligheid om punten te scoren.

4. De Test: Van Theorie naar Praktijk

Deze nieuwe AI (SearchLLM) is getest in de echte wereld op het RedNote-platform.

De test: Ze lieten de nieuwe AI en de oude AI (de "baseline") met elkaar concurreren.
De resultaten:
- Mensen bleven langer lezen aan de antwoorden van de nieuwe AI (Valid Consumption Rate ging omhoog).
- Mensen hoefden minder vaak hun vraag opnieuw te stellen omdat het eerste antwoord goed was (Re-search Rate ging omlaag).
- Er waren veel minder gevaarlijke of onzin-antwoorden.

Samenvatting in één zin

De auteurs hebben een slimme AI voor zoekopdrachten gebouwd die eerst een strenge veiligheidscontrole doorloopt (geen leugens, geen gevaar) en pas daarna probeert om slim en behulpzaam te zijn, waardoor gebruikers sneller en veiliger hun antwoorden vinden.

Het is alsof je een chauffeur hebt die eerst garandeert dat de auto niet van de weg rijdt (veiligheid), en pas daarna probeert om de snelste route te vinden (efficiëntie).

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Aligning Large Language Models with Searcher Preferences" in het Nederlands.

Titel: Aligning Large Language Models with Searcher Preferences

Auteurs: Wei Wu, Peilun Zhou, Liyi Chen, et al. (USTC, Xiaohongshu, HKUST)
Context: KDD '26 (voorgesteld), RedNote (Xiaohongshu) implementatie.

1. Het Probleem

De zoekparadigma verschuift van "item-centric ranking" (een lijst met resultaten tonen) naar "answer-centric synthesis" (directe, samengevatte antwoorden genereren). Hoewel er vooruitgang is geboekt in gesloten sets (zoals e-commerce productranking), blijft de toepassing van open-ended generatieve zoekopdrachten op grote contentplatforms beperkt door drie kritieke uitdagingen:

Robuustheid tegen ruis: Zoeksystemen moeten omgaan met onduidelijke queries, verouderde informatie, redundante bronnen en tegenstrijdige bewijzen die uit de retrieval komen.
Ononderhandelbare veiligheid en betrouwbaarheid: Generatieve antwoorden moeten strikte grenzen hanteren wat betreft feitelijke grondslag (geen hallucinaties), veiligheidsrichtlijnen en logische consistentie.
Alignering met gebruikersbehoeften: Antwoorden moeten nuttig, beknopt en gestructureerd zijn, zonder de bovenstaande veiligheidsgaranties te ondermijnen.

Bestaande methoden (zoals RLHF met PPO of DPO) gebruiken vaak een enkelvoudige scalar-reward, wat leidt tot een "seesaw-effect": het model optimaliseert voor gemakkelijke metrics (zoals lengte) ten koste van strikte veiligheids- of feitelijke constraints.

2. Methodologie: SearchLLM

De auteurs introduceren SearchLLM, het eerste grote taalmodel (LLM) specifiek ontworpen voor open-ended generatieve zoekopdrachten. De kern van de oplossing ligt in een hiërarchisch, multidimensionaal beloningssysteem en een nieuwe trainingsstrategie.

A. Hiërarchisch Beloningssysteem (Multi-Dimensional Reward System)

In plaats van één score, wordt de output geëvalueerd via een tweelaags systeem dat "bottom-line" constraints scheidt van "behavioral" optimalisatie:

Laag I: Bottom-line Constraints (R2 - Betrouwbaarheid & Veiligheid)
- Dit zijn harde, binaire of bijna-binaire constraints. Als deze falen, is het antwoord onbruikbaar.
- Dimensies: Hallucinaties (feitelijke grondslag), basis antwoordkwaliteit (logica, leesbaarheid) en format-conformiteit.
- Implementatie: Gebruik van deterministische regels (regex, n-gram) en LLM-judges.
Laag II: Behaviorale Doelen (R1 & R3 - Robuustheid & Gebruikersnuttigheid)
- Optimalisatie binnen het veilige gebied.
- Dimensies: Robuustheid tegen ruis in queries/bewijs, rijkdom/diversiteit van informatie, en beknoptheid/gebruiksgemak (bijv. "answer-first" principe).
- Implementatie: Voornamelijk geavanceerde LLM-judges.

B. Hybride Evaluatie Stack & Menselijke Kalibratie

Om de LLM-judges nauwkeurig af te stemmen op menselijke experts, gebruiken de auteurs een Human-in-the-Loop proces:

Blind Group: Annotatoren scoren antwoorden zonder toegang tot de interne redenering van het model (om bias te voorkomen).
Assisted Group: Annotatoren bekijken de redenering en bronvermeldingen om subtielere hallucinaties te detecteren.
Discrepanties tussen deze groepen worden opgelost door senior experts, wat zorgt voor een stabiel en betrouwbaar evaluatiesysteem.

C. Gated Aggregation Strategy & GRPO

Om de complexe reward-signalen te combineren zonder het seesaw-effect, introduceren ze de Gated Aggregation Strategy:

De Bottom-line score ( $B_\delta$ ) wordt berekend als een geometrisch gemiddelde (een "soft-AND" poort). Als één kritieke constraint faalt (score ~0), wordt de totale beloning drastisch onderdrukt.
De Behaviorale score ( $U$ ) is een gewogen rekenkundig gemiddelde van de nuttigheidsdimensies.
Totale Reward: $R(x, y) = B_\delta(x, y) \times U(x, y)$ . Dit zorgt ervoor dat verbeteringen in gebruikersnuttigheid alleen worden beloond als de veiligheidsconstraints voldaan zijn.
Training: Het model wordt getraind met Group Relative Policy Optimization (GRPO). In plaats van een waarde-netwerk (zoals bij PPO), normaliseert GRPO de voordelen binnen een groep van gegenereerde antwoorden voor dezelfde query, wat efficiënter is voor schaalbare zoekopdrachten.

3. Belangrijkste Bijdragen

SearchLLM: Het eerste LLM dat specifiek is ontworpen en getraind voor open-ended generatieve zoekopdrachten op grote contentplatforms.
Tweelaags Beloningssysteem: Een innovatieve architectuur die strikte veiligheidsgaranties (Laag I) scheidt van gebruikersgerichte optimalisatie (Laag II), geïmplementeerd via een hybride stack van regels en ge-kalibreerde LLM-judges.
Gated Aggregation Strategy: Een methode om multidimensionale rewards te aggregeren die "reward hacking" voorkomt en zorgt voor stabiele training waarbij veiligheid prioriteit heeft boven nuttigheid.
Industriële Implementatie: Succesvolle deploy van SearchLLM in de AI-zoekfunctie van RedNote (Xiaohongshu), met bewezen resultaten in online A/B-tests.

4. Resultaten

Offline Evaluatie

Reward Alignering: Het voorgestelde beloningssysteem bereikte een AUC van 86,48% in het voorspellen van menselijke voorkeuren, significant beter dan state-of-the-art baselines zoals GenRM (70,90%) en Rubric-based methoden (72,13%).
Generatiekwaliteit: In vergelijking met SFT, DPO en andere GRPO-varianten (zoals GRPO-Linear), presteerde GRPO-Gated (de voorgestelde methode) het beste op alle dimensies, inclusief veiligheid (hallucinatiereductie) en nuttigheid. Het vermijdt het seesaw-effect waarbij veiligheid ten koste gaat van kwaliteit.

Online A/B-tests (RedNote)

De deploy in de live omgeving toonde significante verbeteringen in gebruikersbetrokkenheid ten opzichte van de product-baseline (SFT):

Valid Consumption Rate (VCR): +1,03% (meer gebruikers lezen het antwoord daadwerkelijk).
Re-search Rate (RR): -2,81% (minder gebruikers moeten hun zoekopdracht herhalen).
Skip Rate (SR): Significant verlaagd.
Bad Case Rate (BCR): Bleef op een minimaal niveau, wat aantoont dat strikte veiligheids- en betrouwbaarheidsstandaarden in stand werden gehouden.
De resultaten waren statistisch significant en toonden goede generalisatie naar ongeziene domeinen (zero-shot).

5. Betekenis en Impact

Dit paper biedt een schaalbare blauwdruk voor het aligneren van generatieve zoeksystemen met complexe, real-world beperkingen. De belangrijkste inzichten zijn:

Scheiding van zorgen: Het is cruciaal om veiligheid en feitelijke grondslag te behandelen als harde constraints (gate) in plaats van als een gewone component in een som van rewards.
Hybride evaluatie: De combinatie van deterministische regels en menselijk gekalibreerde LLM-judges is essentieel voor het creëren van betrouwbare trainingsignalen in open-ended contexten.
Industriële relevantie: De succesvolle implementatie bij een platform met honderden miljoenen gebruikers bewijst dat geavanceerde RL-methoden (GRPO met gated aggregation) effectief kunnen worden ingezet om de kwaliteit van AI-gestuurde zoekopdrachten te verbeteren zonder in te leveren op veiligheid.

Deze aanpak stelt zoekmachines in staat om te evolueren van simpele lijsten met links naar betrouwbare, samengevatte oplossingspartners voor complexe informatiebehoeften.