Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een grote kok (een AI-model) wilt leren koken. Om hem te trainen, geef je hem een receptenboek. Vervolgens laat je een proefpersoon (een andere AI) zijn gerechten beoordelen om te zien of ze lekker zijn.
In de wereld van moderne kunstmatige intelligentie (LLM's) gebeurt dit vaak op een slimme, maar gevaarlijke manier:
- De proefpersoon (de 'Judge') schrijft zelf de recepten voor de kok.
- De kok leert van die recepten.
- Vervolgens laat je diezelfde proefpersoon de gerechten van de kok beoordelen.
Het probleem dat deze paper beschrijft, noemen ze "Preference Leakage" (voorkeurslekkage). Laten we dit uitleggen met een paar creatieve metaforen.
1. De "Zelfgemaakte Recepten" (Het Kernprobleem)
Stel je voor dat een kok (de AI die leert) alleen maar kookt op basis van recepten die zijn geschreven door een beroemde chef-kok (de 'Judge'). De beroemde chef heeft een heel specifieke stijl: hij houdt van zoute sauzen en specifieke presentatie.
De kok leert deze stijl na. Als de beroemde chef later terugkomt om het gerecht te proeven, zegt hij: "Wauw, dit smaakt precies zoals ik het zou maken! Dit is perfect!"
De chef is niet eerlijk. Hij vindt het gerecht niet per se het beste van de wereld, maar hij vindt het vertrouwd. Hij herkent zijn eigen "stijl" in het gerecht van de kok. Omdat ze dezelfde "stijl" delen, geeft hij een onterecht hoge score. Dit is Preference Leakage: de voorkeur van de beoordelaar lekt door naar de leerling via de data, waardoor de beoordeling vervalst raakt.
2. Drie Manieren waarop dit gebeurt
De paper beschrijft drie scenario's waarin deze lekkage optreedt:
- Hetzelfde model (De Spiegel): De kok en de proefpersoon zijn exact dezelfde persoon. Ze denken en spreken precies hetzelfde. Natuurlijk vindt de proefpersoon de output van zichzelf het allerlekkerst.
- Erfenis (De Ouder en Kind): De proefpersoon is een "kind" van de kok (of andersom). Ze hebben dezelfde genen (dezelfde basisarchitectuur). Het kind heeft de smaak van de ouder overgenomen. Als de ouder het kind beoordeelt, is hij vaak te streng of te mild omdat hij de "familie-kenmerken" herkent.
- Hetzelfde familiebedrijf (De Broers): De kok en de proefpersoon komen uit dezelfde fabriek (bijvoorbeeld beide van het merk "GPT" of "Llama"). Ze zijn niet exact hetzelfde, maar ze zijn opgeleid met dezelfde basis en hebben dezelfde "familie-kenmerken". Ze spreken een soort "familie-taal" die anderen niet begrijpen, maar waar ze elkaar wel om waarderen.
3. Waarom is dit gevaarlijk?
In het verleden wisten we dat AI's soms vooroordelen hadden (bijvoorbeeld: ze houden van lange antwoorden). Maar dit probleem is subtieler.
- Het is als een spook: Je kunt het niet altijd zien. De AI's zeggen niet: "Ik geef een hoge score omdat dit mijn eigen stijl is." Ze zeggen: "Dit is gewoon een goed antwoord." Maar in werkelijkheid is het een goed antwoord voor hen, niet noodzakelijk voor de mens.
- Het verstoort de ranglijst: Stel je een sportwedstrijd voor waar de scheidsrechter de speler van zijn eigen team een doelpunt geeft, niet omdat het een mooi doelpunt was, maar omdat de speler zijn eigen shirt draagt. Dan zie je in de ranglijst dat dat team bovenaan staat, terwijl ze misschien niet de beste zijn. Zo worden AI-modellen in de praktijk soms onterecht als "de beste" bestempeld.
4. Wat hebben ze ontdekt?
De onderzoekers hebben gekeken naar honderden tests en ontdekten:
- Kleine modellen lijden meer: Kleine AI's die leren van grote AI's, kopiëren vaak de "stijl" (de zinsbouw, de leestekens) van de grote AI. De grote AI ziet die stijl en denkt: "Ah, dat is mijn stijl, dat is goed!"
- Subjectieve vragen zijn kwetsbaarder: Bij wiskundige vragen (waar het antwoord 2+2=4 is) maakt het niet uit. Maar bij creatieve vragen (schrijf een gedicht) of mening-vragen, is de lekkage het grootst. Hier is de "stijl" van de beoordelaar het belangrijkst.
- Het is overal: Dit gebeurt in de meeste populaire tests die nu worden gebruikt om AI's te vergelijken.
5. De Oplossing?
De paper suggereert dat we voorzichtig moeten zijn. We kunnen niet zomaar een AI gebruiken om een andere AI te beoordelen als ze uit dezelfde "familie" komen of als de beoordelaar de data heeft geschreven waar de andere AI van heeft geleerd.
Het is alsof je een jury nodig hebt voor een zangwedstrijd, maar je mag geen juryleden toelaten die zelf ook zingen of die de zangers hebben opgeleid. Je hebt een onafhankelijke jury nodig die de muziek niet kent en geen voorkeur heeft voor een bepaalde stijl.
Kort samengevat:
Deze paper waarschuwt dat we in de AI-wereld vaak "de kip met de gouden eieren" laten beoordelen door de kip zelf. De kip denkt dat het ei goud is, omdat het eruit ziet als haar eigen ei. Om eerlijke resultaten te krijgen, moeten we zorgen dat de beoordelaar en de leerling geen familie zijn en niet uit dezelfde bron hebben geleerd.