Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een kunstcriticus bent die twee verschillende versies van een foto moet beoordelen. De ene foto is misschien een beetje te fel, de andere mist een detail. Je taak is om te zeggen welke foto het beste voldoet aan de opdracht van de klant.
Het probleem is dat de "kunstcritici" die we vandaag de dag hebben (de AI-modellen), vaak blind zijn voor de foto's zelf. Ze kijken naar de tekst, lezen de beschrijvingen en zeggen dan: "Deze tekst klinkt netter, dus deze foto is beter." Ze vergeten eigenlijk om naar het plaatje te kijken! Ze worden zo druk met het schrijven van hun oordeel, dat ze de beelden vergeten die ze net zagen.
De auteurs van dit paper hebben een oplossing bedacht: MJ1. Ze hebben een slimme, kleine AI gemaakt die wél echt naar de foto's kijkt voordat hij een oordeel velt.
Hier is hoe het werkt, vertaald in een simpel verhaal:
1. Het probleem: De "Aandacht-Verdwijning"
Stel je voor dat je een heel lang verhaal moet vertellen over een foto. Als je begint, kijk je nog goed naar de foto. Maar naarmate je langer praat, wordt je aandacht voor de foto steeds zwakker. Uiteindelijk, op het moment dat je je oordeel schrijft, heb je de foto al helemaal vergeten en baseer je je oordeel puur op wat je eerder hebt gezegd of op hoe netjes je zinnen klinken.
AI-modellen hebben dit exacte probleem. Ze kijken naar de foto, maar tegen de tijd dat ze hun score geven, is die informatie al verdwenen uit hun "geheugen".
2. De oplossing: De "Gestructureerde Controlelijst"
In plaats van zomaar te zeggen "Foto A is beter", dwingt MJ1 de AI om een stap-voor-stap controlelijst te volgen. Het is alsof je een detective bent die niet mag oordelen voordat hij het bewijs heeft verzameld.
De AI moet nu dit doen:
- Observatie (Het kijken): Eerst beschrijft de AI precies wat hij ziet op de foto's. "Hier zie ik een rode auto, daar een blauwe lucht." Dit doet hij direct, terwijl zijn aandacht nog scherp is.
- Claims (De beweringen): Vervolgens kijkt hij naar de antwoorden van de twee kandidaten. "Kandidaat A zegt dat de auto rood is. Kandidaat B zegt dat de auto blauw is."
- Verificatie (De check): Nu vergelijkt hij de beweringen met zijn eigen observaties. "Wacht, ik zag een rode auto. Kandidaat B had het dus fout."
- Oordeel: Pas nu, na al die stappen, geeft hij een score.
Het resultaat: Zelfs zonder dat de AI getraind is, werkt deze methode al beter. Het is alsof je iemand dwingt om eerst te kijken voordat hij spreekt.
3. De slimme truc: De "Spiegel-Test"
Om zeker te weten dat de AI echt naar de foto's kijkt en niet zomaar een voorkeur heeft (bijvoorbeeld: "Ik vind altijd antwoord A leuker, ongeacht wat er staat"), gebruiken de makers een slimme truc: de spiegel-test.
Stel je voor dat je de AI twee foto's geeft: Foto A en Foto B. De AI zegt: "Foto A is beter."
Nu doen we alsof we de foto's verwisselen. We geven de AI dezelfde foto's, maar noemen de ene "B" en de andere "A".
- Als de AI slim is, zal hij nu zeggen: "Nou, deze (de nieuwe A, die eigenlijk de oude B is) is beter." Hij past zijn oordeel aan aan de inhoud van de foto.
- Als de AI dom is (of vooroordeelsvol), zal hij blijven zeggen: "Ik vind A altijd leuker," zelfs als de inhoud van A nu helemaal anders is.
De AI krijgt een straf als hij deze spiegel-test niet doorstaat. Hij leert dus dat hij echt moet kijken naar de inhoud, niet naar de volgorde.
4. Het resultaat: Klein maar krachtig
Het mooiste aan dit verhaal is dat MJ1 een kleine AI is (met slechts 3 miljard "actieve" hersencellen). Terwijl de enorme, dure modellen van Google en OpenAI (die honderden keren groter zijn) vaak falen omdat ze de foto's vergeten, wint MJ1 het spel.
Waarom? Omdat ze niet groter zijn, maar slimmer in hun aanpak. Ze dwingen de AI om eerst te kijken, dan te denken, en pas daarna te oordelen.
Samenvattend
Deze paper laat zien dat je niet per se een gigantische, dure supercomputer nodig hebt om goede oordelen te vellen over afbeeldingen. Als je de AI gewoon dwingt om een strakke controlelijst te volgen en hem straf geeft als hij vooroordelen heeft, wordt hij veel beter in het zien van de werkelijkheid. Het is een bewijs dat de manier waarop je een AI leert, belangrijker is dan hoe groot hij is.