Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Each language version is independently generated for its own context, not a direct translation.

Titel: Doen machines net als mensen? Een nieuwe manier om fouten te meten

Stel je voor dat je twee studenten hebt die een examen doen. De ene is een mens, de andere is een supercomputer. Ze krijgen allebei een set met moeilijke vragen. Als ze beide 90% goed hebben, lijkt het alsof ze even slim zijn. Maar wat als de computer de vragen op een heel andere manier "begrijpt" dan de mens? Misschien raakt hij de juiste antwoorden door toeval, terwijl de mens ze echt begrijpt. Of misschien maken ze allebei fouten, maar totaal verschillende soorten fouten.

Dit is precies het probleem dat dit onderzoek oplost. De auteurs willen weten: Maken machines dezelfde fouten als mensen, of zijn ze gewoon slim op een heel vreemde manier?

Hier is de uitleg, vertaald naar alledaagse taal met een paar leuke vergelijkingen.

1. Het probleem: De "moeilijkheidsgraad" is verwarrend

Vroeger keken onderzoekers naar AI-modellen door ze beelden te laten zien die een beetje vervormd waren (bijvoorbeeld wazig, met ruis, of met een vreemd filter). Ze dachten: "Als we het filter op '5' zetten, is dat net zo moeilijk als een ander filter op '5'."

De analogie:
Stel je voor dat je twee sporters test.

Sporter A loopt een loopbaan met 5 stenen in zijn schoenen.
Sporter B loopt een loopbaan met 5 kilo gewicht op zijn rug.

Zijn die even zwaar? Nee! Voor de ene is het een lichte belasting, voor de andere is het bijna onmogelijk.
In de AI-wereld betekende dit dat onderzoekers soms beelden vergeleken die voor een computer "even moeilijk" leken (zelfde instelling), maar voor een mens totaal verschillend waren. Soms was een beeld voor een mens onherkenbaar, terwijl de computer er nog steeds goed in was, en andersom.

2. De oplossing: De "Menselijke Moeilijkheids-Schaal"

De auteurs van dit papier zeggen: "Laten we stoppen met kijken naar de instellingen van de computer. Laten we kijken naar hoe moeilijk het voor een mens is."

Ze hebben een nieuwe schaal gemaakt, een soort thermometer voor perceptie.

De basislijn: Beelden die iedereen perfect herkent (zoals een heldere foto van een hond).
De schaal: Hoe meer een beeld vervormd is, hoe lager de score van de thermometer.
- Iets wazig: De thermometer zakt een beetje.
- Heel erg wazig: De thermometer zakt diep.
- Onherkenbaar: De thermometer staat op nul.

Ze hebben deze schaal gebruikt om alle verschillende soorten vervormingen (ruis, wazigheid, kleurverandering) op één gemeenschappelijke lijn te zetten. Nu kunnen ze eerlijk vergelijken: "Hoe doen de machines het op het moment dat het voor mensen net even lastig begint te worden?"

3. De ontdekking: Het zijn vier verschillende werelden

Toen ze deze nieuwe schaal gebruikten, ontdekten ze dat er niet zomaar "moeilijk" en "niet moeilijk" is. Er zijn vier verschillende zones (regimes):

De Rustige Zone (Referentie): Alles is helder. Mensen en machines doen het allebei super.
De Lichte Streszone (Near-OOD): Beelden zijn een beetje vervormd. Mensen maken nog steeds weinig fouten, maar beginnen soms te twijfelen.
De Grote Chaoszone (Far-OOD): Beelden zijn erg vervormd. Mensen maken veel fouten, maar ze maken vaak dezelfde fouten (bijvoorbeeld: "Is dat een hond of een wolf?").
De Zwarte Gaten (Extreme-OOD): Beelden zijn zo vervormd dat er geen informatie meer overblijft. Zelfs mensen kunnen het niet meer zien. Hier is het nutteloos om machines te testen, want iedereen raadt maar wat.

4. Wat hebben ze gevonden? (De "Wie is wie?" analyse)

Ze hebben gekeken naar drie soorten AI-modellen:

CNNs: De "ouderwetse" slimme modellen (zoals een ervaren handelaar die op details let).
ViTs: De "moderne" modellen (zoals een visuele denker die het grote plaatje zoekt).
VLMs: De "meertalige" modellen (modellen die zowel naar beelden als naar tekst kunnen kijken, zoals een vertaler).

De verrassende resultaten:

In de Lichte Streszone: De CNNs en de VLMs gedroegen zich het meest als mensen. Ze maakten dezelfde twijfels. De moderne ViTs waren hier juist wat "anders" dan mensen, zelfs als ze het goed deden.
In de Grote Chaoszone: Hier draaide het om! De CNNs vielen volledig uit elkaar met mensen (ze raakten de weg kwijt). Maar de VLMs en de ViTs hielden het hoofd koel en maakten fouten die veel meer leken op die van mensen.

De belangrijkste les:
Een model dat super goed is op een standaardtest, is niet per se "menselijk" in zijn denken.

De VLMs (meertalige modellen) waren de winnaars: ze gedroegen zich in bijna alle situaties het meest als een mens. Dit komt waarschijnlijk omdat ze ook tekst hebben geleerd, wat hen helpt om context te begrijpen, net als wij.
De CNNs waren goed zolang het beeld helder was, maar faalden catastrofaal als het beeld erg wazig werd.
De ViTs waren verrassend sterk in de moeilijke situaties, waarschijnlijk omdat ze beter kunnen kijken naar het "grote plaatje" in plaats van alleen naar kleine details.

5. Waarom is dit belangrijk?

Stel je voor dat je een zelfrijdende auto koopt. Je wilt niet alleen dat hij goed rijdt op een zonnige dag. Je wilt ook dat hij op dezelfde manier faalt als jij als het regent en mistig is.

Als een auto een verkeerd bord ziet en denkt dat het een boom is, terwijl jij denkt dat het een bord is, is dat gevaarlijk. Je weet niet wat hij gaat doen.
Als de auto echter ook denkt dat het een boom is (net als jij), dan kun je zijn gedrag voorspellen. Je weet: "Ah, hij ziet het ook niet goed, ik moet voorzichtig zijn."

Conclusie:
Deze studie laat zien dat we AI niet alleen moeten testen op "hoeveel procent hij goed heeft", maar op "hoe hij faalt". Door te kijken naar hoe AI faalt op momenten dat het ook voor mensen moeilijk is, kunnen we bouwen aan systemen die veiliger, betrouwbaarder en begrijpelijker zijn. En de beste kandidaten voor nu? Die modellen die niet alleen kijken, maar ook "lezen" en begrijpen (de VLMs).

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het bepalen of AI-systemen informatie op dezelfde manier verwerken als mensen is een fundamentele uitdaging voor zowel cognitiewetenschap als betrouwbaar AI. Hoewel moderne AI-modellen op standaardtaken vaak menselijke nauwkeurigheid bereiken of zelfs overtreffen, garandeert deze pariteit niet dat hun onderliggende besluitvormingsstrategieën zijn uitgelijnd met menselijke informatieverwerking.

Bestaande methoden om deze uitlijning te beoordelen (zoals het vergelijken van foutpatronen) lopen tegen vier fundamentele problemen aan wanneer ze worden toegepast op vervormde (Out-of-Distribution of OOD) stimuli:

Definitie van OOD: OOD wordt momenteel gedefinieerd ten opzichte van de trainingsdata van het model, niet ten opzichte van menselijke perceptie. Mensen hebben geen eindige "trainingsverdeling", waardoor de huidige definitie voor menselijke perceptie niet direct toepasbaar is.
Gebrek aan een universele schaal: De mate van degradatie wordt vaak bepaald door parameters van beeldverwerkingspijplijnen (bijv. filtersterkte). Deze parameters zijn niet vergelijkbaar tussen verschillende vervormingstypen (bijv. een laagdoorlaatfilter met parameter 5 is niet direct vergelijkbaar met een hoogdoorlaatfilter met parameter 1) en corresponderen niet met menselijke perceptuele moeilijkheid.
Selectie van stimuli: Niet alle degradatiecondities zijn even zinvol. Extrem vervormde beelden die voor mensen onherkenbaar zijn (kansniveau), zijn niet geschikt om uitlijning te beoordelen, maar er ontbreekt een principieel kader om de juiste stimulusset te bepalen.
Ontbreken van een baseline: Ruwe uitlijningswaarden zijn misleidend zonder een baseline, zoals de uitlijning tussen mensen zelf (human-human alignment). Als mensen het niet eens zijn over een stimulus, kan er geen hoge model-mens uitlijning worden verwacht.

Methodologie

De auteurs stellen een mensgericht raamwerk voor dat de mate van OOD herdefinieert als een spectrum van menselijke perceptuele moeilijkheid.

Constructie van het OOD-spectrum:
- In plaats van te vertrouwen op vervormingsparameters, wordt een referentieverdeling opgebouwd gebaseerd op de nauwkeurigheid van mensen op niet-vervormde beelden.
- De afwijking van vervormde stimuli ten opzichte van deze referentie wordt gekwantificeerd met Glass's $\Delta$ (effectgrootte) op logit-getransformeerde nauwkeurigheidscores.
- Deze waarde wordt de OOD-score genoemd. Een negatieve score geeft een grotere afwijking van de menselijke prestatiebasislijn aan.
Identificatie van Regimes:
- Een Gaussian Mixture Model (GMM) wordt toegepast op de verdeling van OOD-scores over alle vervormingstypen en -niveaus.
- Dit resulteert in vier distincte regimes van perceptuele uitdaging:
  - Referentie: Niet-vervormd of licht vervormd.
  - Near-OOD: Matige afname in nauwkeurigheid.
  - Far-OOD: Een overgangszone met variabele prestatiedaling.
  - Extreme-OOD: Beelden zijn onherkenbaar voor mensen (prestaties op kansniveau).
Metingen van Uitlijning:
- Om te beoordelen hoe systemen falen (niet alleen of ze falen), worden drie metrieken gebruikt:
  - Error Consistency (EC): Overlap van verkeerd geclassificeerde samples tussen systemen.
  - Misclassification Agreement (MA): Hoe vaak systemen dezelfde verkeerde klasse kiezen wanneer ze beide fout zijn.
  - Class-Level Error Divergence (CLED): Maat voor de dissimilariteit van foutpatronen tussen verschillende condities (gebaseerd op verwarrende matrices).
Dataset en Modellen:
- Gebruik van de modelvshuman dataset (16 objectcategorieën, 14 vervormingstypen).
- Evaluatie van 31 modellen verdeeld over drie architectuurfamilies: CNNs (bijv. ResNet, VGG), Vision Transformers (ViTs) (bijv. ViT, Swin), en Vision-Language Models (VLMs) (bijv. CLIP, BLIP).

Belangrijkste Bijdragen

Mensgericht OOD-spectrum: Een principieel kader dat OOD definieert op basis van menselijke perceptuele moeilijkheid in plaats van willekeurige model-parameters.
Regime-specifieke analyse: Het aantonen dat menselijke foutpatronen sterk worden gestructureerd door het niveau van perceptuele moeilijkheid (OOD-regime) en minder door het type vervorming.
Gedetailleerde uitlijningsprofielen: Een empirische karakterisering van hoe verschillende architecturen uitlijnen met menselijke perceptie over het volledige spectrum van uitdagingen, inclusief de ontdekking dat uitlijningsranglijsten verschuiven afhankelijk van het OOD-regime.

Resultaten

Menselijke Foutstructuur:
- Menselijke foutpatronen worden primair bepaald door het OOD-niveau en niet door het vervormingstype. Condities binnen hetzelfde OOD-regime vertonen meer gelijkenis in foutpatronen dan verschillende niveaus binnen hetzelfde vervormingstype.
- In Near-OOD zijn menselijke fouten voornamelijk stimulus-gedreven (consistent tussen waarnemers). In Far-OOD worden fouten meer waarnemer-afhankelijk en minder systematisch.
Architecturale Uitlijning:
- VLMs (Vision-Language Models): Toont de meest consistente uitlijning met mensen over zowel Near- als Far-OOD condities. Hun semantische kennis lijkt hen te helpen bij het behouden van mensachtige foutpatronen, zelfs onder zware degradatie.
- CNNs vs. ViTs:
  - In Near-OOD zijn CNNs beter uitgelijnd met mensen dan ViTs. Dit kan worden toegeschreven aan de textuurbias van CNNs die in matig vervormde situaties soms convergeren met menselijke strategieën.
  - In Far-OOD keert dit patroon zich om: ViTs zijn beter uitgelijnd met mensen dan CNNs. CNNs vertonen een catastrofale daling in uitlijning (EC en MA naderen nul), terwijl ViTs, die minder afhankelijk zijn van hoge-frequentie textuurdetails, mensachtige beslissingen blijven nemen op basis van grove informatie.
- Sub-familie effecten: Modellen binnen dezelfde super-familie (bijv. CNNs) vertonen over het algemeen meer gelijkenis in uitlijning dan modellen tussen verschillende super-families, hoewel dit binnen ViT-families minder sterk is.
Rangschikkingen:
- De rangschikking van modellen verandert drastisch tussen regimes. Modellen die goed presteren in Near-OOD (zoals CNNs) presteren vaak slecht in Far-OOD, en vice versa voor ViTs.

Betekenis en Conclusie

Dit werk benadrukt dat het beoordelen van model-mens uitlijning niet kan worden beperkt tot gemiddelde nauwkeurigheid of analyse op één specifiek niveau van moeilijkheid.

Betrouwbaarheid: Modellen die menselijke fouten op menselijke manieren maken, zijn voorspelbaarder en interpreteerbaarder in de praktijk.
Robuustheid: Menselijk visueel systeem degradeert "gracefully" (geleidelijk) over verschillende vervormingen. Modellen die hier van afwijken (bijv. CNNs in Far-OOD) vertonen kwetsbare representaties.
Toekomst: Het voorgestelde spectrum biedt een standaard om toekomstige architecturen te evalueren op niet alleen nauwkeurigheid, maar op mensachtige robuustheid en betrouwbaar gedrag. De bevindingen suggereren dat multimodale training (zoals bij VLMs) een semantisch raamwerk biedt dat bestand is tegen visuele degradatie, wat een richting aangeeft voor het ontwikkelen van meer mensachtige AI.

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

1. Het probleem: De "moeilijkheidsgraad" is verwarrend

2. De oplossing: De "Menselijke Moeilijkheids-Schaal"

3. De ontdekking: Het zijn vier verschillende werelden

4. Wat hebben ze gevonden? (De "Wie is wie?" analyse)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes