Aligning Large Language Models with Searcher Preferences

Deze paper introduceert SearchLLM, het eerste grote taalmodel voor open-ended generatieve zoekopdrachten dat wordt getraind met een hiërarchisch beloningssysteem en GRPO om robuuste, veilige en op gebruikersvoorkeuren afgestemde antwoorden te genereren, wat resulteerde in verbeterde kwaliteit en betrokkenheid in de AI-zoekfunctie van RedNote.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zoekmachine gebruikt, zoals Google of Bing. Vroeger gaf je een vraag in en kreeg je een lijst met links terug. Het was alsof je een bibliotheekbode kreeg die je een stapel boeken gaf en zei: "Hier, zoek het zelf maar uit." Je moest die boeken openen, lezen en zelf de antwoorden samenvoegen.

Nu, met de opkomst van slimme AI (zoals ChatGPT), willen we dat de zoekmachine het boek voor ons opent en ons het antwoord geeft. Maar hier zit een addertje onder het gras: als die AI te slim is, kan ze ook te domme dingen verzinnen, onzin verkopen of zelfs gevaarlijk advies geven.

Dit paper beschrijft hoe de makers van RedNote (een enorm populair Chinees platform, vergelijkbaar met een mix van Instagram en TikTok) een nieuwe, super-slimme zoekmachine hebben gebouwd die dit probleem oplost. Ze noemen hun model SearchLLM.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Onbetrouwbare Genie"

Stel je voor dat je een genie hebt dat alles weet, maar dat genie is ook een beetje chaotisch.

  • Soms verzonnen ze feiten (hallucinaties).
  • Soms geven ze oude informatie (alsof ze zeggen dat de Olympische Spelen van 2020 nog gaan beginnen, terwijl ze al voorbij zijn).
  • Soms zijn ze onveilig (geven ze gevaarlijk medisch advies).
  • Soms zijn ze te langdradig en vertellen ze een verhaal dat niemand wil lezen.

De uitdaging was: hoe maak je dit genie betrouwbaar, veilig en nuttig voor de gebruiker?

2. De Oplossing: De Twee-Lagen Keuken

De auteurs hebben een slim systeem bedacht om dit genie te trainen. Ze noemen het een hiërarchisch beloningssysteem.

Stel je voor dat je een nieuwe kok (de AI) in dienst neemt in een restaurant. Je hebt twee soorten regels voor deze kok:

Laag 1: De "Niet-onderhandelbare" Veiligheidsregels (De Bodemlijn)
Dit zijn de harde regels. Als de kok deze overtreedt, wordt het eten niet geserveerd, hoe lekker het er ook uitziet.

  • Voorbeeld: Geen vergiftigd voedsel (veiligheid), geen valse ingrediënten (geen feitelijke fouten), en het eten moet op een bord liggen (goede opmaak).
  • In de paper noemen ze dit: Factual Grounding (gebaseerd op feiten), Safety (veiligheid) en Format (opmaak). Als de AI hier faalt, is het antwoord direct "ongeldig".

Laag 2: De "Kwaliteitsregels" (De Gedragsoptimalisatie)
Als de kok de veiligheidsregels volgt, dan proberen we het eten nog lekkerder te maken.

  • Voorbeeld: Is het eten vers? Is het niet te saai? Is het kort en krachtig? Is het antwoord precies wat de klant wilde?
  • In de paper: Robuustheid (werkt het ook als de informatie rommelig is?), Rijkdom (is het antwoord compleet?) en Gebruiksgemak (is het makkelijk te lezen?).

3. De Slimme Truc: De "Gated Aggregation" (De Poortwachter)

Dit is het meest creatieve deel van het paper. Normaal gesproken proberen AI-modellen alles tegelijk te optimaliseren. Soms betekent dat dat ze een veiligheidsregel negeren om maar een "lekkerder" antwoord te geven.

De auteurs hebben een Poortwachter (de Gated Aggregation Strategy) bedacht.

  • Hoe het werkt: Stel je voor dat de AI een score krijgt voor "Veiligheid" en een score voor "Lekkerheid".
  • De Poortwachter kijkt eerst naar de Veiligheidsscore.
    • Als de veiligheidsscore laag is (bijvoorbeeld 0,5), dan wordt de totale beloning onmiddellijk naar beneden getrokken, ongeacht hoe lekker het antwoord is. Het is alsof de poortwachter zegt: "Je mag het restaurant niet verlaten als je vergiftigd voedsel serveert."
    • Alleen als de veiligheidsscore hoog is (bijvoorbeeld 0,9 of 1,0), mag de "Lekkerheidsscore" de totale prestatie beïnvloeden.
  • Het resultaat: De AI leert dat ze eerst veilig moeten zijn, en daarna pas proberen om slim en leuk te zijn. Ze kunnen geen korten op de veiligheid om punten te scoren.

4. De Test: Van Theorie naar Praktijk

Deze nieuwe AI (SearchLLM) is getest in de echte wereld op het RedNote-platform.

  • De test: Ze lieten de nieuwe AI en de oude AI (de "baseline") met elkaar concurreren.
  • De resultaten:
    • Mensen bleven langer lezen aan de antwoorden van de nieuwe AI (Valid Consumption Rate ging omhoog).
    • Mensen hoefden minder vaak hun vraag opnieuw te stellen omdat het eerste antwoord goed was (Re-search Rate ging omlaag).
    • Er waren veel minder gevaarlijke of onzin-antwoorden.

Samenvatting in één zin

De auteurs hebben een slimme AI voor zoekopdrachten gebouwd die eerst een strenge veiligheidscontrole doorloopt (geen leugens, geen gevaar) en pas daarna probeert om slim en behulpzaam te zijn, waardoor gebruikers sneller en veiliger hun antwoorden vinden.

Het is alsof je een chauffeur hebt die eerst garandeert dat de auto niet van de weg rijdt (veiligheid), en pas daarna probeert om de snelste route te vinden (efficiëntie).