Each language version is independently generated for its own context, not a direct translation.
Titel: Waarom de "Jury" (Reward Model) al vooraf gekleurd is door de "Kandidaat" (Pretrained Model)
Stel je voor dat je een grote, slimme robot wilt bouwen die helpt bij het schrijven van brieven, het geven van advies of het beantwoorden van vragen. Je wilt dat deze robot zich gedraagt zoals een mens: vriendelijk, eerlijk en nuttig.
Om dit te bereiken, gebruiken ontwikkelaars een slimme truc. Ze bouwen eerst een enorme, slimme robot (de Pretrained LLM) die alles heeft gelezen wat er op internet staat. Deze robot is heel slim, maar hij weet nog niet precies wat mensen graag hebben.
Vervolgens bouwen ze een tweede robot, de Reward Model (RM). Denk aan deze tweede robot als een jurylid of een keurmeester. Zijn enige taak is om te kijken naar de antwoorden van de eerste robot en te zeggen: "Ja, dit is een goed antwoord!" of "Nee, dit is een slecht antwoord." De eerste robot leert dan van de feedback van deze jury om beter te worden.
Het grote probleem: De Jury heeft al een voorkeur
Dit nieuwe onderzoek van wetenschappers uit Oxford laat zien dat er een groot geheim zit in deze jury.
De jury (de Reward Model) wordt niet vanaf nul gebouwd. Hij wordt gemaakt door de eerste robot (de Pretrained LLM) te nemen en hem een beetje bij te stellen. Het probleem is: de jury erft de voorkeuren en de "karaktertrekken" van de robot waar hij van gemaakt is.
Het is alsof je een jurylid kiest uit een groep mensen die allemaal uit een heel specifiek dorp komen. Zelfs als je ze allemaal hetzelfde boek geeft om te lezen (dezelfde trainingsdata), blijven ze denken zoals mensen uit dat dorp. Ze hebben al een onzichtbare "bril" op die bepaalt hoe ze naar de wereld kijken.
De twee kampen: "Ik" vs. "Wij"
De onderzoekers hebben gekeken naar twee grote robot-families: Llama (van Meta) en Gemma (van Google). Ze ontdekten dat deze twee families heel verschillende "zielen" hebben, en dat deze zielen doorgeven worden aan hun jury's.
Ze gebruikten een creatieve methode om dit te meten, gebaseerd op psychologie. Ze stelden de jury's de vraag: "Wat is het allerbeste ding ter wereld?" en keken welke woorden de jury het hoogst beloonde.
- De Llama-jury koos vaak voor woorden als "Vrijheid", "Succes", "Kracht" en "Mogelijkheden".
- De analogie: Dit is de "Ik-geest". Het gaat om individuele prestaties, vrijheid en het bereiken van doelen. Het is alsof de jury zegt: "Jij bent de held van je eigen verhaal."
- De Gemma-jury koos vaak voor woorden als "Liefde", "Vriendschap", "Familie" en "Verbinding".
- De analogie: Dit is de "Wij-geest". Het gaat om samenleven, zorg en verbinding met anderen. Het is alsof de jury zegt: "Jij bent belangrijk omdat je deel uitmaakt van een groep."
Het verrassende nieuws: Het is moeilijk om dit te veranderen
Je zou denken: "Oké, als de jury een voorkeur heeft, kunnen we hem dan niet gewoon meer training geven met voorbeelden van het andere gedrag?"
De onderzoekers hebben dit uitgeprobeerd. Ze hebben de jury's getraind met enorme hoeveelheden data (duizenden voorbeelden van wat mensen leuk vinden).
- Resultaat: De voorkeur veranderde een beetje, maar verdwijnt niet.
- Zelfs na duizenden trainingen bleef de Llama-jury iets meer houden van "Vrijheid" en de Gemma-jury iets meer van "Liefde".
Het is alsof je iemand die van rockmuziek houdt probeert te overtuigen van klassieke muziek. Je kunt hem klassieke muziek laten horen, maar zijn oren zijn al ingesteld op de beat van de rock. De basis van de muziek (de pre-training) is te diep geworteld.
Wat betekent dit voor ons?
- De keuze van de basis is een morele keuze: Als je een AI ontwikkelt, is de keuze voor de "basisrobot" (Llama, Gemma, Qwen, etc.) niet alleen een technische keuze over snelheid of slimheid. Het is een keuze over waarden. Welke soort "moraal" wil je dat je AI heeft? Een die meer focust op individuele vrijheid of een die meer focust op gemeenschapszin?
- Veiligheid begint eerder: Veel mensen denken dat je AI veilig maakt door hem op het einde te trainen (de "jury" aan te passen). Dit onderzoek zegt: nee, je moet al beginnen bij de basis. Als de basisrobot al vooroordelen heeft, zijn die er waarschijnlijk voor altijd, tenzij je heel specifiek en grondig ingrijpt.
- Geen "blanco vel": Een AI is nooit een leeg vel papier. Hij draagt de "erfde" waarden van zijn maker en de data waarmee hij is opgeleid.
Conclusie in één zin:
Je kunt een AI niet volledig "opvoeden" tot een ander persoon als je hem bouwt op de "karaktertrekken" van een ander; de basis van de robot bepaalt al wie hij wordt, zelfs voordat hij zijn eerste woord zegt.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.