PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Dit paper introduceert PRISMM-Bench, het eerste benchmark gebaseerd op door reviewers geïdentificeerde inconsistenties in wetenschappelijke papers, waarmee wordt aangetoond dat huidige grote multimodale modellen moeite hebben met het betrouwbaar detecteren en oplossen van subtiele tegenstrijdigheden tussen tekst, figuren, tabellen en formules.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin

Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Vakjury" voor AI: Waarom slimme computers nog steeds fouten in wetenschappelijke papers over het hoofd zien

Stel je voor dat je een gigantische, super-slimme robot hebt die alles kan lezen, zien en begrijpen. Deze robot kan diagrammen analyseren, formules oplossen en lange teksten samenvatten. Hij is als een universitair professor die in één seconde duizenden boeken heeft gelezen.

Maar, zoals bij elke nieuwe technologie, is er een groot vraagteken: Kan deze robot echt begrijpen wat hij ziet, of leest hij alleen maar oppervlakkig?

Dit is precies wat de onderzoekers van dit paper (PRISMM-Bench) wilden testen. Ze hebben een nieuwe "proef" bedacht om te zien of deze robots echt slim zijn, of dat ze gewoon slimme gokkers zijn.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Verkeerde Kaart"

In de wetenschap schrijven mensen papers (onderzoeksrapporten). Soms maken ze onbedoelde fouten. Bijvoorbeeld:

  • In de tekst staat: "Onze auto rijdt 100 km/u."
  • Maar in de foto (de figuur) staat: "Snelheid: 10 km/u."

Voor een mens is dit een duidelijke fout. Maar voor een AI kan dit verwarrend zijn. De AI kijkt misschien alleen naar de tekst en negeert de foto, of andersom. Ze zien de tegenstelling niet.

2. De Oplossing: Een "Vakjury" van Mensen

Vroeger maakten onderzoekers zelf nep-fouten om AI's te testen. Dat was als een leraar die zelf fouten in een proefwerk maakt om leerlingen te testen. Dat werkt niet goed, want die fouten zijn vaak te makkelijk of te raar.

In plaats daarvan hebben deze onderzoekers een slimme truc bedacht: Ze hebben gekeken naar echte beoordelingen van echte mensen.

  • De Analogie: Stel je voor dat wetenschappelijke papers worden ingediend bij een grote conferentie (zoals een groot festival voor wetenschappers). Er zit een "vakjury" (reviewers) die elke paper nakijkt.
  • Deze juryleden schrijven vaak op: "Hé, in figuur 1 staat iets anders dan in de tekst!"
  • De onderzoekers van dit paper hebben duizenden van deze echte opmerkingen verzameld. Ze hebben een database gemaakt van 384 echte fouten die door echte mensen zijn gevonden. Dit noemen ze PRISMM-Bench.

3. De Test: Drie Soorten Vragen

Ze hebben deze database gebruikt om drie soorten vragen te maken voor de AI's:

  1. De Detectie: "Wat is er mis?" (Zoek de fout op).
  2. De Oplossing: "Hoe maak je het goed?" (Wat moet je veranderen?).
  3. De Match: "Welke twee onderdelen kloppen niet met elkaar?" (Zoek de verkeerde partner).

4. De Valstrik: De "Woorden-truc"

Hier wordt het interessant. De onderzoekers merkten iets raars op.
Wanneer ze de AI's een meerkeuzevraag gaven met lange, mooie zinnen, haalden ze hoge scores. Maar als ze de tekst weglieten en alleen de antwoorden gaven, haalden ze nog steeds hoge scores!

  • De Analogie: Het is alsof je een quiz geeft. De AI's zeggen niet: "Ik heb de tekst gelezen en de foto bekeken." Nee, ze zeggen: "Ik weet dat antwoord C altijd het langste is, dus dat is wel het juiste." Ze gebruiken woord-trucs in plaats van echt nadenken. Ze zijn als een gokker die de patronen van de kaarten kent, maar niet weet wat er op de kaarten staat.

Om dit te fixen, hebben de onderzoekers de antwoorden veranderd in een strakke, saaie lijst (een JSON-formaat). Geen mooie zinnen, alleen feiten.

  • Het Effect: Zodra de mooie zinnen weg waren, zakte de score van de AI's drastisch. Ze konden de truc niet meer gebruiken. Ze moesten nu echt kijken naar de foto en de tekst.

5. Het Resultaat: De AI's zijn nog niet klaar

Toen ze de beste AI's ter wereld (zoals GPT-5 en Gemini) op deze nieuwe, eerlijke test zetten, was het resultaat schokkend:

  • Zelfs de slimste AI's haalden maar een 50-54%. Dat is net iets beter dan gokken, maar verre van perfect.
  • Mensen (die als proefpersonen meededen) haalden veel hogere scores, vooral als ze de hele paper konden bekijken.

Wat betekent dit?
Het betekent dat onze huidige "super-intelligente" robots nog niet betrouwbaar genoeg zijn om als assistent voor wetenschappers te werken. Ze kunnen tekst lezen en plaatjes zien, maar ze kunnen die twee nog niet goed met elkaar verbinden en de subtiele fouten vinden die een mens eruit zou halen.

Conclusie

Dit paper is een waarschuwing en een hulpmiddel.

  • Waarschuwing: Vertrouw niet blind op AI voor kritisch wetenschappelijk werk; ze maken nog te veel fouten door niet echt te "denken".
  • Hulpmiddel: Ze hebben een nieuwe "trainingsbaan" (PRISMM-Bench) gebouwd waar AI's in de toekomst kunnen oefenen om echt slim te worden, in plaats van alleen maar slimme antwoorden te gissen.

Kortom: De AI's zijn nog steeds leerlingen die moeten leren dat kijken en lezen samen moeten werken, en niet alleen apart.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →