Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom computers soms "zien" wat wij niet zien (en andersom)

Stel je voor dat je een foto bekijkt. Voor jou is het een prachtige, scherpe afbeelding. Maar voor een computerprogramma dat de kwaliteit moet beoordelen, is het misschien een ramp. Of juist het omgekeerde: de computer zegt "perfect", maar jij vindt het wazig.

Dit is het probleem waar dit onderzoek over gaat. Er zijn veel programma's (zoals SSIM, LPIPS of VMAF) die proberen te voorspellen hoe goed een mens een foto of video vindt. Meestal worden deze getest door mensen foto's te laten kijken en te vragen: "Hoe mooi is dit?". Maar dit onderzoek doet iets heel anders. Het kijkt niet naar de mening van de mens, maar naar hoe ons oog eigenlijk werkt.

Hier is de uitleg, vertaald naar alledaagse taal met een paar leuke vergelijkingen.

1. De "Oog-Test" in plaats van de "Mening-Test"

Normaal gesproken testen we deze programma's door ze te laten wedden tegen mensen: "Kun jij voorspellen wat de mensen vinden?"
De auteurs van dit paper zeggen: "Wacht even. Laten we eerst kijken of deze programma's de fysieke regels van het menselijk oog begrijpen."

Het is alsof je een auto wilt testen. Je kunt hem laten racen tegen een andere auto (de menselijke mening), maar het is slimmer om eerst te kijken of de motor wel de juiste regels van de weg volgt. Heeft de auto remmen? Kan hij remmen op een gladde weg?

De auteurs hebben drie specifieke "oog-tests" bedacht, gebaseerd op psychologie (de studie van hoe we waarnemen):

Test A: Het "Fluister-gehoor" (Contrast Sensitiviteit)

Stel je voor dat je in een stilte zit. Je kunt een heel zacht gefluister horen, maar alleen als het op het juiste moment en de juiste toonhoogte gebeurt.

Het menselijk oog: Kan heel goed kleine details zien in het midden van het beeld, maar ziet minder goed de allerfijnste details (zoals een heel fijne ruit) of de allergrootste vlekken.
De test: De onderzoekers lieten de programma's kijken naar patronen met verschillende fijnheid.
Het resultaat: Sommige programma's (zoals de oude SSIM) luisterden alleen naar de "fijne ruis" en negeerden de rest. Ze waren als iemand die alleen naar de piepjes in de muziek luistert en de bas mist. Andere programma's (zoals ColorVideoVDP) luisterden precies zoals een mens: ze hoorden het gefluister perfect.

Test B: De "Verstopte Schat" (Contrast Masking)

Stel je voor dat je een schat zoekt in een bos. Als het bos leeg is, zie je de schat (een steen) heel makkelijk. Maar als het bos vol staat met bladeren en takken (ruis), moet de steen veel groter zijn om nog gezien te worden.

Het menselijk oog: Als er al veel "ruis" in een beeld zit (zoals een textuur), dan "maskeren" die ruis de fouten. Een kleine fout in een drukke foto valt niet op.
De test: De onderzoekers lieten de programma's kijken naar fouten in een rustig vlak én in een druk, textuurrijk vlak.
Het resultaat: Veel programma's zagen de fouten overal even goed. Ze hadden geen "oog" voor de context. Maar de slimme, moderne programma's (die op kunstmatige intelligentie draaien, zoals LPIPS) begrepen het: "Oh, hier is het bos druk, die kleine steen zie ik niet." Ze waren heel goed in het begrijpen van deze verstopping.

Test C: De "Kleur- en Bewegings-illusie" (Matching)

Soms lijkt een kleur of een beweging in een foto "even groot" als een andere, ook al zijn ze technisch verschillend.

Het menselijk oog: Als je een heel heldere kleur ziet, lijkt hij voor ons oog "even groot" als een minder heldere kleur op een andere plek. Ons brein past het beeld aan.
De test: Kijken of de programma's deze aanpassing begrijpen.
Het resultaat: Hier faalden bijna alle programma's. Ze zagen de technische verschillen, maar begrepen niet dat ons brein die verschillen "weggladstrijkt" bij heldere beelden. Ze waren te star.

2. Wat hebben ze ontdekt? (De grote verrassingen)

De onderzoekers hebben 34 verschillende programma's getest. Hier zijn de leukste ontdekkingen:

De "Oude Klok" (SSIM): Dit is een beroemd programma, maar het blijkt dat het te veel waarde hecht aan de allerfijnste details (zoals een heel fijne ruit), terwijl mensen die vaak niet eens zien. Het is alsof je een auto beoordeelt op de kleur van de schroeven, terwijl je de wielen mist.
De "Kunstenaars" (LPIPS & DISTS): Deze programma's, die op AI zijn getraind, hebben nooit geleerd over deze oog-tests. Toch blijken ze heel goed te begrijpen hoe ons oog "verstopte schatten" ziet (masking). Het is alsof ze door pure ervaring hebben begrepen hoe ons brein werkt, zonder dat ze het expliciet hebben geleerd.
De "Video-Meester" (VMAF): Dit is het programma dat Netflix en anderen gebruiken. Het werkt goed, maar het ziet alleen de grote fouten. Als de fout heel klein is (net onder de drempel), ziet hij die niet. Hij mist de subtiele nuances.
De "Kleur-Blinden": Veel programma's die kleuren moeten beoordelen, maken een enorme fout. Ze denken dat een grote kleurverschil net zo erg is als een klein verschil, terwijl ons oog dat bij heldere kleuren juist minder erg vindt.

3. Waarom is dit belangrijk?

Vroeger zeiden we: "Als het programma zegt dat de kwaliteit goed is, dan is het goed."
Dit onderzoek zegt: "Niet zo snel. Laten we eerst kijken of het programma begrijpt hoe we kijken."

Het is alsof je een chef-kok wilt beoordelen. Je kunt vragen aan de gasten of het lekker smaakt (de menselijke mening), maar het is ook slim om te kijken of de kok de basisregels van de keuken kent (hoe de smaakpapillen werken).

De conclusie in het kort:
Deze nieuwe testmethode is een soort "spiegel" voor de software. Het laat zien welke programma's echt begrijpen hoe ons oog werkt en welke programma's gewoon maar gokken. Het helpt ontwikkelaars om betere programma's te maken, zodat we in de toekomst minder last hebben van beelden die er voor de computer goed uitzien, maar voor ons oog juist slecht zijn.

En het beste nieuws? De onderzoekers hebben hun testmethode openbaar gemaakt, zodat iedereen het kan gebruiken om zijn eigen software te testen!

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

1. De "Oog-Test" in plaats van de "Mening-Test"

Test A: Het "Fluister-gehoor" (Contrast Sensitiviteit)

Test B: De "Verstopte Schat" (Contrast Masking)

Test C: De "Kleur- en Bewegings-illusie" (Matching)

2. Wat hebben ze ontdekt? (De grote verrassingen)

3. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Analyse

Betekenis en Conclusie

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

1. De "Oog-Test" in plaats van de "Mening-Test"

Test A: Het "Fluister-gehoor" (Contrast Sensitiviteit)

Test B: De "Verstopte Schat" (Contrast Masking)

Test C: De "Kleur- en Bewegings-illusie" (Matching)

2. Wat hebben ze ontdekt? (De grote verrassingen)

3. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Analyse

Betekenis en Conclusie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities