On the Reliability of Cue Conflict and Beyond

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom Computers (en Wij) Soms Verkeerd Kijken: Een Nieuwe Manier om Ze Te Testen

Stel je voor dat je een kind leert om dieren te herkennen. Als je het kind een foto van een tijger laat zien, leert het kind waarschijnlijk twee dingen:

De vorm: Het heeft strepen, een staart en een puntige snuit (de vorm).
De textuur: Het heeft een vacht met een specifiek patroon (de textuur).

In de wereld van kunstmatige intelligentie (AI) hebben onderzoekers al jaren een populaire manier om te testen of een computer meer op de vorm let of op de textuur. Ze noemen dit de "Cue-Conflict" test.

Het Oude Probleem: De Verwarde Spiegel

Stel je voor dat je de computer een test geeft waarbij je de vorm van een auto neemt, maar de textuur van een ijsbeer eroverheen plakt.

Als de computer zegt "Auto!", dan kijkt hij naar de vorm.
Als hij zegt "IJsbeer!", dan kijkt hij naar de textuur.

Dit klinkt logisch, maar de auteurs van dit paper zeggen: "Wacht even, deze test is kapot!"

Hun analogie is als volgt:
Stel je voor dat je een schilderij maakt van een auto, maar je gebruikt verf van een ijsbeer. Het resultaat is een rommelig, onherkenbaar plasje.

De vorm is niet schoon: Je ziet nog steeds hints van de ijsbeer in de "auto". De computer raakt in de war omdat de signalen door elkaar lopen.
De textuur is te sterk: Soms is de textuur van de ijsbeer zo dominant dat de vorm van de auto bijna onzichtbaar is. Het is alsof je de computer vraagt om te kiezen tussen een flauwe tekening en een schreeuwerige poster. De keuze is niet eerlijk.
De test is te klein: Ze testten de computer alleen op een paar specifieke dieren. Alsof je een piloot alleen test op het landen op één specifiek vliegveld, en dan zegt: "Hij is een goede piloot!" terwijl hij misschien op alle andere vliegvelden neerstort.

Omdat deze oude test zo rommelig was, kregen onderzoekers tegenstrijdige resultaten. Sommigen zeiden: "AI's zijn net mensen, ze kijken naar de vorm!" Anderen zeiden: "Nee, ze kijken alleen naar de textuur!" De waarheid zat waarschijnlijk in het midden, maar de slechte test kon het niet ontrafelen.

De Oplossing: REFINED-BIAS (De Schone Test)

De auteurs van dit paper hebben een nieuwe, schone test bedacht, genaamd REFINED-BIAS. Ze hebben de test op drie manieren verbeterd:

1. De Ingrediënten zijn nu puur (De Keuken-Analogie)

In de oude test werd er met een "stijlfilter" gewerkt, wat resulteerde in een modderige soep.
In de nieuwe test maken ze twee volledig gescheiden ingrediënten:

Vorm: Ze nemen de omtrek van een object (zoals een silhouet) en vullen het met een egaal kleur. Geen textuur, alleen de vorm.
Textuur: Ze nemen een stukje van de vacht of het patroon en plakken dat op een vlakke achtergrond. Geen vorm, alleen het patroon.

Het is alsof je in plaats van een modderige soep, nu een bord hebt met een perfect gesneden appel (vorm) en een perfect gesneden sinaasappel (textuur). De computer kan nu echt kiezen: "Kijk ik naar de vorm of naar het patroon?"

2. De Test is eerlijker (De Scorebord-Analogie)

De oude test keek alleen naar het percentage juiste antwoorden.

Oude test: Als een computer 8% van de vormen goed had en 2% van de texturen, was de verhouding 80/20. Hij leek dus erg op vormen gericht.
Nieuwe test: Ze kijken ook naar hoe goed de computer überhaupt iets herkent. Als hij 80% van de vormen goed had en 20% van de texturen, is de verhouding ook 80/20, maar hij is veel beter in het herkennen van dingen.

De nieuwe test zegt: "Het maakt niet uit of je 80% of 8% goed hebt, we meten ook hoe scherp je ogen zijn." Dit voorkomt dat we denken dat een slechte computer een goede voorkeur heeft.

3. De Test is breder (De Vliegveld-Analogie)

In de oude test mocht de computer alleen kiezen uit twee opties (bijv. "Auto" of "IJsbeer"). Als de computer dacht: "Dit lijkt op een hond, maar 'hond' staat niet op de lijst, dus ik kies 'Auto'", werd dit als een fout geteld, terwijl hij eigenlijk wel naar de vorm keek.
De nieuwe test laat de computer kiezen uit alle mogelijke dieren. Zo zien we echt wat de computer denkt, zonder dat we hem in een hoekje duwen.

Wat hebben ze ontdekt?

Met deze nieuwe, schone test konden ze eindelijk de waarheid achterhalen:

Vorm is belangrijk voor prestaties: Computers die beter naar de vorm kijken (net als mensen), presteren over het algemeen beter in de echte wereld.
Architectuur maakt uit: Sommige soorten AI (zoals de nieuwe "Vision Transformers") zijn van nature beter in het zien van lokale details (textuur), maar als je ze leert om ook naar de globale vorm te kijken, worden ze veel slimmer.
Geen tegenstrijdigheden meer: De oude verwarring was veroorzaakt door de slechte test. Nu zien we een helder beeld: een goede AI moet zowel naar de vorm als naar de textuur kijken, maar de vorm is vaak de sleutel tot echte intelligentie.

Conclusie

Kortom: De oude manier om AI's te testen was als een spiegel die vervormd was. Je zag je eigen beeld, maar het was niet eerlijk. De auteurs hebben een nieuwe, kristalheldere spiegel gemaakt (REFINED-BIAS). Hiermee kunnen we nu echt zien hoe AI's denken, en we kunnen ze beter leren om net als mensen te kijken: niet alleen naar de vacht van de tijger, maar naar de vorm van het dier zelf.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "On the Reliability of Cue Conflict and Beyond" in het Nederlands.

Probleemstelling: De Onbetrouwbaarheid van de Bestaande Cue-Conflict Benchmark

De huidige standaard voor het analyseren van de voorkeur van neurale netwerken voor vorm (shape) versus textuur (texture) is de cue-conflict benchmark (Geirhos et al., 2018). Deze benchmark gebruikt gestileerde afbeeldingen waarbij de vorm van één klasse wordt gecombineerd met de textuur van een andere. Hoewel deze methode heeft bijgedragen aan het inzicht dat een mensachtige vorm-bias vaak correleert met betere prestaties, identificeren de auteurs ernstige betrouwbaarheidsproblemen:

Onzuivere en Verwarrende Cues: De gebruikte "stylization"-techniek (gebaseerd op style transfer) zorgt er niet voor dat vorm en textuur volledig gescheiden zijn. Er treedt vaak "lekkage" op: vorminformatie blijft zichtbaar in de textuur-cues en vice versa. Dit maakt de stimuli perceptueel dubbelzinnig voor zowel mensen als modellen.
Ongelijke Informatiedichtheid: De verhouding tussen vorm en textuur is niet gecontroleerd. In veel gevallen domineert één cue de andere, waardoor de "bias" score eigenlijk een maat is voor welke cue het meest informatief is, en niet voor de inherente voorkeur van het model.
Verwarring tussen Voorkeur en Sensitiviteit: De bestaande metriek is een relatieve ratio (bijv. $N_{shape} / (N_{shape} + N_{texture})$ ). Dit verbergt de absolute gevoeligheid. Een model met 8% vorm- en 2% textuur-accuracie heeft dezelfde ratio als een model met 80% en 20%, hoewel het laatste model veel beter presteert en beide cues beter gebruikt.
Beperkte Evaluatieruimte: De evaluatie wordt beperkt tot een vooraf geselecteerde subset van klassen (alleen de vorm- en textuurbronklassen). Dit vervormt de echte voorspellingen van het model, omdat het model zijn top-voorspelling uit de volledige klasruimte moet halen, maar de evaluatie filtert deze onterecht.

Deze factoren leiden tot inconsistente resultaten in recente studies en maken het moeilijk om te bepalen of een model echt een menselijke vorm-bias heeft of dat de meting wordt beïnvloed door artefacten van de datasetconstructie.

Methodologie: Het REFINED-BIAS Framework

Om deze problemen op te lossen, stellen de auteurs REFINED-BIAS voor, een geïntegreerd dataset- en evaluatiekader.

1. Dataset Constructie (REFINED-BIAS Dataset)

In plaats van te vertrouwen op model-afhankelijke stylization, definiëren de auteurs vorm en textuur op basis van menselijke perceptie:

Vorm (Shape): Gedefinieerd als coherent geometrisch structureel patroon (globaal silhouet en lokale randen).
Textuur (Texture): Gedefinieerd als schaal-consistente, herhalende patronen zonder structurele informatie.

Datacollectie en Generatie:

Er zijn 20 ImageNet-superklassen geselecteerd (10 vorm-dominant, 10 textuur-dominant) op basis van menselijke perceptie.
Voor elke klasse zijn 300 diverse afbeeldingen verzameld (in totaal 6.000 afbeeldingen, 5x groter dan de originele benchmark).
Generatiepijplijn:
- Vorm-cues: Objectsegmentatie gevolgd door het verwijderen van interne textuur (via blur) en het extraheren van randen/contouren op een zwarte achtergrond.
- Textuur-cues: Het uitsnijden van patches uitsluitend uit het binnenste van het object (om randen te vermijden) en het herschikken van deze patches om lokale structuur te breken, zonder grid-artefacten.
Validatie: Menselijke studies tonen aan dat de cues in REFINED-BIAS veel consistenter herkenbaar zijn (hoge inter-rater overeenkomst) dan in de cue-conflict dataset.

2. Evaluatiemetriek (Redefined Bias)

De auteurs introduceren een nieuwe metriek die werkt op de volledige logit-ruimte van het model om de beperkingen van de ratio-metriek te overwinnen.

Ranking-based Metric: In plaats van alleen te kijken of een voorspelling correct is (0 of 1), wordt gebruikgemaakt van de rangorde van de voorspelling.
Mean Reciprocal Rank (MRR): De metriek berekent de gemiddelde reciproke rang ($1/r$) van de correcte vorm- en textuurlabels binnen de volledige voorspellingsranglijst van het model.
- $Shape\text{-}Sens = \frac{1}{N} \sum \frac{1}{r_{shape}}$
- $Texture\text{-}Sens = \frac{1}{N} \sum \frac{1}{r_{texture}}$
Voorkeur (Preference): Wordt nu berekend als de verhouding tussen deze sensitiviteiten: $Shape\text{-}Preference = \frac{Shape\text{-}Sens}{Shape\text{-}Sens + Texture\text{-}Sens}$ .

Dit scheidt de vraag "hoeveel weet het model?" (Sensitiviteit) van "waar kiest het voor?" (Voorkeur).

Kernresultaten

De auteurs testen REFINED-BIAS op diverse trainingsstrategieën en architecturen:

Validatie van Trainingsstrategieën:
- REFINED-BIAS toont consistent aan dat strategieën die gericht zijn op vorm (zoals shape augmentation en contrastive learning) leiden tot een toename in vorm-voorkeur.
- De originele cue-conflict benchmark faalt hier vaak in: sommige strategieën tonen geen significant effect of zelfs tegenstrijdige resultaten (bijv. adversarial training toonde een onlogische sterke vorm-bias in de oude benchmark, maar geen significante verandering in REFINED-BIAS).
Scheiding van Sensitiviteit en Voorkeur:
- De nieuwe metriek onthult dat modellen die zowel vorm als textuur gebruiken (bijv. door mixed augmentation), dit ook echt doen. De oude ratio-metriek verborg dit, omdat een daling in textuur-gebruik de vorm-ratio kunstmatig kon verhogen zonder dat het model beter werd.
- Adversarial training blijkt de vorm- of textuur-gebruik niet significant te verhogen, wat in lijn is met de verwachting dat dit voornamelijk robuustheid tegen ruis verbetert en niet de perceptuele bias.
Architectuur-afhankelijke Trade-offs:
- Vision Transformers (ViT): Vertonen een lagere vorm-sensitiviteit dan CNN's, wat past bij hun focus op globale context.
- Swin en CMT: Architecturen met lokale-naar-globale mechanismen (zoals Swin Transformer en CMT) tonen een hogere vorm-sensitiviteit dan standaard ViT's. Dit bevestigt dat lokale feature-aggregatie essentieel is voor vormherkenning. De oude benchmark zag dit verschil niet.
Correlatie met Prestaties:
- Er is een sterke positieve correlatie tussen het gebruik van beide cues (vorm én textuur) en de in-domain prestaties (ImageNet-1k accuracy). Modellen die beide cues effectief benutten, presteren het beste.

Bijdragen en Significantie

Oplossing voor Onbetrouwbaarheid: REFINED-BIAS lost de fundamentele problemen van de cue-conflict benchmark op door zuivere, mens- en model-herkenbare stimuli te garanderen en de evaluatie uit te breiden naar de volledige beslissingsruimte.
Nieuwe Metriek: De introductie van een ranking-based sensitiviteitsmetriek maakt eerlijke vergelijkingen tussen modellen mogelijk, ongeacht hun absolute prestatieniveau, en onthult nuance die door ratio-metrieken wordt gemist.
Empirische Kader: Het werk biedt een principieel en betrouwbaar kader voor het diagnosticeren van bias in moderne visiemodellen. Het lost eerdere tegenstrijdige conclusies op en bevestigt dat menselijke vorm-bias een belangrijke indicator is voor robuustheid, maar dat dit alleen correct gemeten kan worden wanneer cue-puurheid en sensitiviteit gescheiden worden.
Open Source: De dataset en code zijn publiek beschikbaar gesteld om herhaalbaarheid en verdere research te faciliteren.

Conclusie:
Het artikel concludeert dat de bestaande cue-conflict benchmark door zijn oncontroleerbare stylization en beperkte evaluatie niet langer als de de facto standaard kan dienen voor bias-analyse. REFINED-BIAS biedt een robuust alternatief dat leidt tot heldere, reproduceerbare inzichten in hoe neurale netwerken visuele informatie verwerken, en bevestigt dat de combinatie van vorm- en textuurgevoeligheid essentieel is voor hoge prestaties.