Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een superintelligente robot hebt die heel goed is in het kijken naar foto's en begrijpen wat erop staat. Deze robot kan een hond herkennen, een auto zien, of zelfs een bordje lezen. Maar wat gebeurt er als je die robot een foto laat zien van een horloge, maar er met een stift een klein post-it'tje op plakt met het woord "taxi" geschreven?
Volgens de onderzoekers van dit paper, Justus Westerhoff en zijn team, wordt die slimme robot dan volledig in de war gebracht. In plaats van te zeggen "dat is een horloge", roept hij: "Dat is een taxi!"
Dit paper introduceert een nieuw, enorm groot experiment genaamd SCAM (Subtle Character Attacks on Multimodal Models). Laten we dit uitleggen alsof we het vertellen aan een vriend in een café.
1. Het Probleem: De "Leugenende Post-it"
Moderne AI-modellen (zoals die in je telefoon of in zelfrijdende auto's) zijn getraind om te kijken naar beelden én tekst. Ze denken vaak dat tekst in een foto heel belangrijk is.
- De Analogie: Stel je voor dat je een foto ziet van een appeltaart. Maar iemand heeft met een marker op de foto geschreven: "Pizza".
- Een normaal mens denkt: "Nee, dat is een taart, de tekst is gewoon een grapje."
- De AI denkt: "Oh, er staat 'Pizza' op de foto, dus het moet een pizza zijn!" De AI laat zich misleiden door de tekst en negeert het echte plaatje.
Dit is gevaarlijk, vooral als die AI gebruikt wordt voor veiligheid, zoals in ziekenhuizen of bij zelfrijdende auto's. Als een verkeersbord met "Stop" wordt bedekt met een sticker met "Ga door", zou de auto misschien doorrijden.
2. De Oplossing: Het SCAM-dataset
Voorheen hadden onderzoekers maar kleine verzamelingen van dit soort "misleidende foto's". Het was alsof ze probeerden een auto te testen op een weggetje van 100 meter. Ze wisten niet of de auto echt veilig was.
Dit paper introduceert SCAM, het grootste en meest gevarieerde verzameling van dit soort "trucs" tot nu toe.
- Hoe werkt het? Mensen hebben echte foto's gemaakt van honderden objecten (van een koffiezetapparaat tot een fiets).
- Ze hebben er een post-it bijgeplakt met een woord dat er niets mee te maken heeft (bijvoorbeeld een foto van een schoen met het woord "vliegtuig" erop geschreven).
- Ze hebben 1162 van deze foto's gemaakt, met heel veel verschillende soorten objecten en woorden.
Het mooie aan SCAM is dat ze drie versies van elke foto hebben:
- SCAM: De foto met het bedrieglijke woordje (de "val").
- NoSCAM: Dezelfde foto, maar dan zonder het woordje (de "eerlijke" versie).
- SynthSCAM: Een digitaal gegenereerde versie waar het woordje er netjes op is geplakt met een computerlettertype.
3. Wat hebben ze ontdekt? (De Resultaten)
Ze hebben honderden verschillende AI-modellen getest op deze foto's. Hier zijn de belangrijkste ontdekkingen, vertaald in simpele taal:
- AI is heel kwetsbaar: Zelfs de allermodernste, slimste modellen (zoals GPT-4o of Claude) worden flink geklopt door deze trucs. Hun prestaties dalen drastisch. Het is alsof je een briljante professor een heel simpele leugen vertelt en hij erin trapt.
- De "Computer" is de zwakke schakel: De modellen die het slechtst presteren, zijn vaak diegene die een zwakke "oog" hebben (de visuele encoder). Ze kijken niet goed genoeg naar het plaatje en vertrouwen te veel op de tekst.
- Grotere "hersenen" helpen: Als je een AI-model gebruikt met een heel groot taalmodel (de "hersenen" die de tekst begrijpen), wordt het iets beter. Ze worden minder snel in de war. Het is alsof je een slimme student hebt die weliswaar een slechte foto ziet, maar door zijn grote kennis zegt: "Wacht even, dit is raar, dit is waarschijnlijk een grapje."
- Digitaal is net zo goed als echt: Een van de coolste ontdekkingen is dat je deze trucs ook digitaal kunt simuleren. Als je een woordje digitaal op een foto plakt, werkt het net zo goed als als je het echt met de hand op een post-it schrijft. Dit betekent dat onderzoekers in de toekomst makkelijker en goedkoper kunnen testen of AI veilig is, zonder dat ze honderden mensen hoeven te vragen om foto's te maken.
4. Waarom is dit belangrijk?
De auteurs zeggen: "We moeten AI veiliger maken."
Als we AI gebruiken in de echte wereld (bijvoorbeeld om medicijnen te herkennen of om auto's te laten rijden), mogen ze niet misleid worden door een klein woordje op een foto.
Dit paper is als een testcursus voor AI. Ze hebben een enorme "vallenbak" (SCAM) gemaakt om te zien welke AI-modellen valbaar zijn en welke niet. Ze hopen dat andere onderzoekers deze dataset gebruiken om AI's te trainen zodat ze in de toekomst niet meer in de val trappen.
Kortom:
De wereld van AI is heel slim, maar ze hebben een zwak punt: ze geloven te snel wat er in een foto staat geschreven. De onderzoekers hebben een enorme verzameling van "leugenachtige foto's" gemaakt om te testen hoe makkelijk we deze slimme robots kunnen bedriegen. De boodschap is duidelijk: we moeten AI's leren om kritischer te kijken en niet blindelings te vertrouwen op tekst in een afbeelding.
Je kunt de dataset en de code zelf bekijken op de website van het team: www.bliss.berlin/research/scam.