THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

Tzu-Yen Ma, Bo Zhang, Zichen Tang, Junpeng Ding, Haolin Tian, Yuanze Li, Zhuodi Hao, Zixin Ding, Zirui Wang, Xinyu Yu, Shiyao Peng, Yizhuo Zhao, Ruomeng Jiang, Yiling Huang, Peizhi Zhao, Jiayuan Chen

Gepubliceerd 2026-03-27

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wetenschappelijk onderzoek een enorme bibliotheek is, vol met prachtige boeken (de papers) die de geheimen van het universum onthullen. Maar wat als iemand in die bibliotheek een boek zou vervalsen? Ze zouden een pagina uit een ander boek knippen, een foto van een monster vervangen door een nepfoto, of de tekst zo aanpassen dat het verhaal niet meer klopt met de plaatjes.

Dit is precies wat THEMIS doet. Het is een nieuw, superkrachtig "detective-systeem" dat is ontworpen om te kijken of multimodale grote taalmodellen (MLLMs) – dat zijn slimme AI's die zowel tekst als plaatjes begrijpen – deze vervalsingen kunnen opsporen.

Hier is een simpele uitleg van wat dit paper doet, met wat creatieve vergelijkingen:

1. Het Probleem: De "Vervalsings-Feestjes"

Vroeger waren AI's goed in simpele dingen, zoals "dat is een kat" of "dit is een auto". Maar wetenschappelijke fraude is veel ingewikkelder. Het is alsof je een meesterwerk van een schilderij probeert na te maken: je moet niet alleen de kleuren zien, maar ook begrijpen of de schaduwen logisch zijn, of de tekst onder het schilderij klopt met wat je ziet, en of er stukken uit een ander schilderij zijn geplakt.

Bestaande tests voor AI waren als een "peuter-toets": ze vroegen de AI om een simpele tekening te herkennen. Maar wetenschappelijke fraude is meer als een forensisch onderzoek bij een moordzaak. Je hebt experts nodig die tot in de puntjes kunnen kijken.

2. De Oplossing: THEMIS (De Super-Detective)

De onderzoekers van de Beijing University of Posts and Telecommunications hebben THEMIS gebouwd. Ze noemen het een "benchmark", maar denk er liever aan als een gigantische, realistische oefensessie voor AI-detectives.

THEMIS heeft drie superkrachten:

Echte Situaties (De "Reële Wereld"):
De meeste tests gebruiken nep-data die te makkelijk is. THEMIS kijkt naar echte, ingetrokken wetenschappelijke papers (waarbij wetenschappers hun eigen fouten of fraude hebben toegegeven) en maakt daarnaast duizenden nieuwe, zeer realistische nep-voorbeelden.
- Vergelijking: Het is het verschil tussen een politieagent die oefent met een tekening van een dader, versus een agent die oefent met een echte, verwarrende moordplek met modder, regen en vage vingerafdrukken. THEMIS laat de AI's werken in de modder en regen.
Elk Type Vervalsing (De "Handboeken van de Vervalsers"):
De dataset dekt 5 hoofdsoorten fraude en 16 specifieke trucs.
- Knip-en-plak (Splicing): Een stukje uit een foto knippen en ergens anders plakken.
- Kopieer-en-plak (Copy-Move): Een stukje van dezelfde foto kopiëren en ergens anders in diezelfde foto plakken (alsof je een tweede kopie van een bloem in een tuin tekent).
- AI-Generatie: Een hele foto maken met een AI die er echt uitziet, maar niet bestaat.
- Herhaling (Duplication): Dezelfde foto twee keer gebruiken, maar dan gedraaid, gekleurd of geschaald.
- Tekst-Bild Inconsistentie: De tekst zegt "de temperatuur steeg", maar de grafiek laat zien dat hij daalde.
- Vergelijking: THEMIS is als een trainingskamp waar de AI's leren om niet alleen te zien dat er een vlekje is, maar om te begrijpen hoe de vlekje er is gekomen.
Diep Denken (De "5 Zintuigen"):
THEMIS test niet alleen of de AI "ja" of "nee" zegt. Het test vijf specifieke vaardigheden:
1. Expertkennis: Begrijpt de AI wat een microscopische cel moet zijn?
2. Visueel Herkennen: Ziet de AI de rare randjes?
3. Ruimtelijk Redeneren: Begrijpt de AI dat een kopie niet logisch past in de ruimte?
4. Locatie: Kan de AI precies aangeven waar de vervalsing zit (tot op het pixel)?
5. Vergelijken: Klopt de tekst met het plaatje?

3. De Resultaten: De AI's Struikelen

De onderzoekers hebben 16 van de slimste AI's ter wereld (zoals GPT-5, Gemini, Llama) op deze test laten werken. Het nieuws is niet goed:

De "Grootste" AI faalt: Zelfs de allerbeste AI (GPT-5) haalde maar 56% goed. Dat betekent dat hij in bijna de helft van de gevallen de fraude mist of de verkeerde conclusie trekt.
Verwarring bij complexe trucs: Als iemand meerdere trucs combineert (bijvoorbeeld: een foto draaien én de kleuren aanpassen), zakken de scores van de AI's dramatisch. Het is alsof je een detective vraagt om een spoor te volgen terwijl iemand constant de lichten uitdoet en de muren verplaatst.
Locatie is moeilijk: AI's kunnen soms zeggen "hier is iets mis", maar ze kunnen vaak niet precies zeggen waar. Het is alsof ze zeggen "er is een moord gebeurd in dit huis", maar ze kunnen niet zeggen in welke kamer.

4. Waarom is dit belangrijk?

Wetenschap bouwt op vertrouwen. Als mensen niet meer kunnen vertrouwen op de plaatjes en data in papers, stort de wetenschap in.

De AI's zijn de nieuwe "rechercheurs": Menselijke experts kunnen niet elke paper controleren. We hebben AI nodig die dit voor ons doet.
THEMIS is de "proefneming": Zolang we niet weten hoe goed deze AI's zijn, kunnen we ze niet vertrouwen. THEMIS laat zien dat we nog een lange weg te gaan hebben voordat AI's veilig zijn om wetenschappelijke fraude te bestrijden.

Kortom:
THEMIS is een strenge, realistische test die laat zien dat onze slimste AI's nog niet klaar zijn om de "rechercheurs" van de wetenschappelijke wereld te worden. Ze zien soms wel de vervalsing, maar missen vaak de details of raken in de war bij complexe trucs. Het paper is een wake-up call: we moeten AI's veel beter trainen voordat we hen de sleutel geven tot de integriteit van de wetenschap.

THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

1. Het Probleem: De "Vervalsings-Feestjes"

2. De Oplossing: THEMIS (De Super-Detective)

3. De Resultaten: De AI's Struikelen

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: De THEMIS Benchmark

Belangrijkste Resultaten

Significantie en Impact

THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

1. Het Probleem: De "Vervalsings-Feestjes"

2. De Oplossing: THEMIS (De Super-Detective)

3. De Resultaten: De AI's Struikelen

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: De THEMIS Benchmark

Belangrijkste Resultaten

Significantie en Impact

Meer zoals dit