Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een zeer getalenteerde, maar nog onervaren kok (het taalmodel) wilt leren koken. Je wilt dat hij heerlijke en veilige maaltijden maakt, maar je kunt niet elke stap in detail uitleggen. In plaats daarvan heb je een smaakexpert (het beloningsmodel) nodig die elke maaltijd proeft en een cijfer geeft.
In de wereld van kunstmatige intelligentie noemen we dit proces RLHF (Reinforcement Learning from Human Feedback). De kok probeert dan steeds weer nieuwe recepten te maken om het hoogste cijfer van de smaakexpert te krijgen.
Tot nu toe dachten onderzoekers dat de beste smaakexpert degene was die de meeste cijfers goed gaf. Als de expert 99% van de tijd precies wist welk gerecht beter smaakte dan een ander, dan was hij perfect.
Maar deze paper van Princeton University zegt: "Wacht even, dat is niet het hele verhaal."
Hier is de kern van hun ontdekking, vertaald in alledaagse taal:
1. Het probleem met de "saai" expert
Stel je twee smaakexperts voor:
Expert A (De perfecte, maar saaie expert): Hij is 100% accuraat. Hij weet precies welk gerecht beter is. Maar hij is zo voorzichtig dat hij aan elk gerecht een cijfer geeft dat bijna hetzelfde is. Een perfecte maaltijd krijgt een 8.00, een goede maaltijd een 7.99, en een slechte maaltijd een 7.98.
- Het effect: De kok kijkt naar de cijfers en denkt: "Huh? Het verschil is zo klein dat ik niet weet wat ik moet veranderen." De kok blijft stilstaan. Hij leert niet snel, omdat de feedback te "vlak" is.
Expert B (De iets minder perfecte, maar duidelijke expert): Hij maakt soms fouten in de rangschikking (misschien 80% accuraat), maar hij geeft wel duidelijke signalen. Een perfecte maaltijd krijgt een 10, een slechte een 2.
- Het effect: De kok ziet het enorme verschil en weet direct: "Ah! Ik moet meer kruiden toevoegen!" Hij leert razendsnel.
De les: Een beloningsmodel dat te weinig variatie in zijn scores toont (een "vlak landschap"), maakt het voor de AI onmogelijk om te leren, zelfs als hij theoretisch perfect is. De AI heeft variatie nodig om te weten welke kant op te bewegen.
2. De "Maatwerk" les
De paper laat ook zien dat er geen universele "beste" expert is.
- Stel je voor dat Expert A gewend is aan een kok die vooral pasta maakt. Hij geeft goede, duidelijke feedback op pasta.
- Maar als je diezelfde expert vraagt om een sushi-kok te beoordelen, geeft hij misschien willekeurige of saaie scores, omdat hij de subtiele verschillen in sushi niet goed kan onderscheiden.
- Een andere expert (Expert C) is misschien een slechte pasta-bewerker, maar een fantastische sushi-bewerker.
De les: Een beloningsmodel dat perfect werkt voor het ene taalmodel (de ene kok), kan volledig falen voor een ander taalmodel (een andere kok). Je moet de expert kiezen die past bij de specifieke "kookstijl" van de AI die je traint.
Samenvatting in één zin
Om een AI goed te leren, is het niet genoeg dat de "leraar" (het beloningsmodel) alleen maar juist is; hij moet ook duidelijk en onderscheidend zijn in zijn feedback, en hij moet passen bij de specifieke student die hij onderwijst.
Als de leraar te vaag is ("dit is net iets beter dan dat"), raakt de student in de war en leert hij niets. De paper waarschuwt dat we in de AI-wereld te lang hebben gekeken naar alleen de "nauwkeurigheid" van de leraar, en we vergeten dat de energie (variatie) in zijn feedback minstens zo belangrijk is voor het leerproces.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.