Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe kok hebt aangenomen die niet alleen recepten kan lezen, maar ook foto's van gerechten kan analyseren en er een verhaal over kan vertellen. Soms zegt hij: "Dit is een heerlijke pizza," terwijl de foto een brandende asbak toont. Hoe weet je of deze kok goed is?

Vroeger hadden we maar één manier om dit te testen: we keken of zijn verhaal leek op wat een andere kok had gezegd. Maar dat werkt niet goed als de kok ook vragen moet beantwoorden over de foto, of als hij een document moet uitleggen.

De auteurs van dit paper hebben een nieuwe, slimme oplossing bedacht die ze HarmonicEval noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Eén-Size-Fits-All" Meetlat

Stel je voor dat je een sportleraar bent. Je hebt een meetlat waarmee je atleten beoordeelt.

Voor een sprinter telt vooral snelheid.
Voor een marathonloper telt vooral uithoudingsvermogen.
Voor een turner telt vooral grace en precisie.

Huidige meetlatten (de oude methoden) zijn alsof je voor iedere sport alleen naar de snelheid kijkt. Een turner die langzaam maar perfect turnt, krijgt dan een slechte score, terwijl een sprinter die struikelt maar snel is, een hoge score krijgt. Ze zijn niet flexibel genoeg voor de verschillende taken die moderne AI (zoals Vision Language Models) moet doen.

2. De Oplossing: HarmonicEval (De Slimme Jury)

De auteurs hebben een nieuwe "jury" bedacht die niet naar één ding kijkt, maar naar vijf verschillende aspecten tegelijk:

Correctheid: Is het verhaal waar? (Is de pizza echt een pizza?)
Volledigheid: Ontbreekt er iets belangrijks? (Zie je ook de kaas en de saus?)
Duidelijkheid: Is het makkelijk te begrijpen?
Vloeiendheid: Klinkt het als natuurlijk Nederlands?
Kort en krachtig: Is het niet onnodig langdradig?

In plaats van één groot cijfer te geven, kijkt deze jury eerst naar elk aspect apart.

3. De Magische Wiskunde: Het "Harmonische" Deel

Hier wordt het interessant. Stel je voor dat de juryleden soms twijfelen.

Als een jurylid heel zeker is over de "Correctheid" (hij weet zeker dat het een pizza is), maar heel onzeker over de "Vloeiendheid" (hij twijfelt of de zinnen goed lopen), dan moet de "Correctheid" zwaarder meetellen in het eindcijfer.
Als een jurylid over alles twijfelt, telt zijn mening minder zwaar mee.

De auteurs gebruiken een slimme wiskundige formule (de "harmonische weging") om te bepalen welke mening van de jury het meest betrouwbaar is. Het is alsof je luistert naar de stem die het stevigst klinkt, en minder naar de stem die trilt. Zo krijg je een totaalcijfer dat eerlijk is, ongeacht welke taak de AI uitvoert.

4. Het Nieuwe Speelveld: MMHE

Om te bewijzen dat hun nieuwe meetlat werkt, hebben ze een gigantisch nieuw testveld gebouwd, genaamd MMHE.

Ze hebben 18.000 mensen (experts) gevraagd om handmatig te beoordelen hoe goed AI-teksten waren.
Ze keken naar vier verschillende soorten taken: het beschrijven van een foto, het beantwoorden van vragen over een foto, het uitleggen van documenten, en het vinden van een specifiek object in een foto.
Voor elke tekst kregen de experts vijf verschillende cijfers (voor de vijf aspecten hierboven).

Dit is als het hebben van een enorme database met beoordelingen van echte mensen, zodat ze hun nieuwe meetlat kunnen testen en vergelijken met de oude methoden.

5. Wat Vond Ze?

De resultaten waren indrukwekkend:

HarmonicEval deed het veel beter dan de oude methoden. Het voelde meer aan als wat een mens zou zeggen.
De oude methoden negeerden vaak belangrijke dingen. Bijvoorbeeld: ze gaven een hoge score aan een tekst die grammaticaal perfect was, maar volledig onzin bevatte over de foto. HarmonicEval zag dat direct en gaf een lagere score.
Bovendien gaf HarmonicEval uitleg. Als de AI een slechte score kreeg, kon het systeem zeggen: "Je hebt een hoge score voor vloeiendheid, maar je bent onvolledig." Dat helpt ontwikkelaars om hun AI te verbeteren.

Conclusie

Kortom: De auteurs hebben een nieuwe manier bedacht om te meten hoe goed een AI is. In plaats van één vaag cijfer te geven, kijken ze naar vijf verschillende eigenschappen en wegen ze die slim af op basis van hoe zeker de AI is. Hierdoor krijgen we een eerlijker beeld van hoe slim onze digitale assistenten echt zijn, of ze nu een foto beschrijven of een vraag beantwoorden.

Het is alsof we zijn overgestapt van een simpele liniaal naar een slimme, digitale scanner die elke hoek van een gebouw meet en ons precies vertelt waar de muren recht zijn en waar ze scheef staan.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models" in het Nederlands.

Probleemstelling

Bestaande methoden voor het automatisch evalueren van tekst gegenereerd door Vision-Language Models (VLM's) hebben twee belangrijke beperkingen:

Taalspecificiteit: De meeste metrics zijn ontworpen voor één specifieke taak (bijvoorbeeld beeldbeschrijving of image captioning). Ze zijn moeilijk overdraagbaar naar andere multimodale taken zoals visuele vraagbeantwoording (VQA) of het genereren van verwijzende uitdrukkingen.
Gebrek aan nuance: Bestaande metrics leveren vaak slechts één totaalscore op. Ze neigen ernaar om specifieke criteria te prioriteren (bijvoorbeeld correctheid en volledigheid bij beeldbeschrijvingen), wat leidt tot onnauwkeurige evaluaties in andere contexten (bijvoorbeeld het belonen van lange, onnatuurlijke antwoorden bij VQA). Er ontbreekt een meta-evaluatiebenchmark die menselijke oordelen over meerdere taken en criteria tegelijkertijd biedt.

Methodologie: HarmonicEval

De auteurs stellen HarmonicEval voor, een referentievrije (reference-free) evaluatiemetric die een totaalscore berekent in een "bottom-up" benadering door criteria-specifieke scores te aggregeren. Het framework bestaat uit twee hoofdstappen:

Score per criterium (Criterion-wise scoring):
- Een VLM fungeert als evaluator en wordt geprompt om de gegenereerde tekst onafhankelijk te beoordelen op vijf specifieke criteria:
  - Correctheid: Nauwkeurigheid van de inhoud.
  - Volledigheid: Omvang van relevante details.
  - Duidelijkheid (Clarity): Begrijpelijkheid voor de lezer.
  - Vloeiendheid (Fluency): Grammaticale juistheid en natuurlijke flow.
  - Bondigheid (Conciseness): Efficiëntie zonder onnodige omhaal.
- Om de uitlijning met menselijke oordelen te verbeteren, wordt score smoothing toegepast. Hierbij wordt de verwachte waarde van de output-token waarschijnlijkheidsverdeling van het VLM gebruikt in plaats van een enkele discrete score.
Score-aggregatie met Harmonic Weighting:
- De individuele scores worden samengevoegd tot één totaalscore. In plaats van een simpel gemiddelde, introduceert de auteurs een harmonische weging.
- De weging ( $w_c$ ) voor elk criterium wordt dynamisch bepaald op basis van de tweede-orde statistieken (variantie) van de token-probabiliteitsverdeling.
- Formule: $S = \sum w_c \tilde{s}_c$ , waarbij $w_c$ afhangt van de standaardafwijking ( $\sigma_c$ ) van de score.
- Logica: Een lagere variantie (hoger vertrouwen in de score) resulteert in een hogere weging. Een hyperparameter $\gamma$ (standaard 0.75) balanceert tussen uniforme weging, inverse variantie-weging en selectieve weging. Dit zorgt ervoor dat onbetrouwbare scores minder invloed hebben op het eindresultaat.

Benchmark: MMHE

Om de generaliseerbaarheid te testen, hebben de auteurs de Multi-task Multi-criteria Human Evaluation (MMHE) benchmark ontwikkeld.

Data: 18.000 expert-menselijke oordelen.
Taken: Vier diverse multimodale taken:
1. Referring Expression Generation (REG)
2. Visual Question Answering (VQA)
3. Visual Document Understanding (VDU)
4. Image Captioning (IC)
Opzet: Voor elke instance zijn drie gegenereerde antwoorden van state-of-the-art VLM's (zoals LLaVA, Qwen-VL, GPT-4o) beoordeeld door drie experts op de vijf criteria en een totaalscore (via een "best-of-three" methode).

Resultaten

De experimenten op de MMHE-benchmark en bestaande beeldbeschrijvingsbenchmarks tonen het volgende:

Superieure correlatie: HarmonicEval bereikt een hogere correlatie met menselijke oordelen dan traditionele metrics (zoals BLEU, ROUGE, CIDEr) en state-of-the-art VLM-metrics (zoals FLEUR, G-VEval). De gemiddelde nauwkeurigheid op MMHE is 73.4%, wat hoger is dan alle baselines.
Taakadaptiviteit: De analyse toont aan dat bestaande metrics vaak verkeerde prioriteiten stellen (bijv. negeert volledigheid bij VQA), terwijl HarmonicEval door de criteria-specifieke scoring en dynamische weging beter presteert over alle taken heen.
Uitlegbaarheid: Een gebruikersstudie toont aan dat HarmonicEval significant betere tekstuele uitleggen levert over waarom een score is gegeven, omdat het fouten op specifiek criteriumniveau kan identificeren (bijv. gebrek aan vloeiendheid of incorrecte details).
Robuustheid: HarmonicEval presteert op bestaande IC-benchmarks (Flickr8k, Pascal-50S, FOIL) vergelijkbaar met of beter dan gespecialiseerde metrics, zonder dat taakspecifieke fine-tuning nodig is.
Ablatiestudies: Het verwijderen van de "score per criterium" stap of de "harmonische weging" leidt tot een daling in prestaties, wat bewijst dat beide componenten essentieel zijn.

Bijdrage en Significantie

De belangrijkste bijdragen van dit werk zijn:

HarmonicEval: Een nieuwe, referentievrije metric die multimodale taken kan evalueren door criteria-specifieke scores te aggregeren via een statistisch onderbouwde harmonische weging.
MMHE Benchmark: De eerste meta-evaluatiebenchmark die menselijke oordelen biedt over meerdere taken en criteria, wat cruciaal is voor het begrijpen van de beperkingen van huidige evaluatiemethoden.
Inzicht in bestaande metrics: Het paper levert het eerste diepgaande inzicht in hoe bestaande metrics impliciet bepaalde criteria prioriteren en andere negeren, wat leidt tot vertekende evaluaties in multi-task scenario's.

Conclusie:
HarmonicEval biedt een robuustere en meer interpreteerbare manier om VLM's te evalueren. Door de focus te verleggen van een enkel totaalscore naar een geaggregeerde score gebaseerd op meerdere criteria en statistisch vertrouwen, overbrugt het de kloof tussen automatische evaluatie en menselijke perceptie in diverse multimodale toepassingen.

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

1. Het Probleem: De "Eén-Size-Fits-All" Meetlat

2. De Oplossing: HarmonicEval (De Slimme Jury)

3. De Magische Wiskunde: Het "Harmonische" Deel

4. Het Nieuwe Speelveld: MMHE

5. Wat Vond Ze?

Conclusie

Probleemstelling

Methodologie: HarmonicEval

Benchmark: MMHE

Resultaten

Bijdrage en Significantie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance