Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Deze paper introduceert PaperRecon, een evaluatiekader dat de kwaliteit en risico's van door AI geschreven papers meet via een reconstructietest, en onthult een duidelijke afweging tussen presentatiekwaliteit en hallucinaties bij verschillende modellen.

Atsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao, Kenta Watanabe, Toshihiko Yamasaki, Kiyoharu Aizawa

Gepubliceerd 2026-04-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

📝 De "AI-Schrijver" Test: Kunnen robots echte papers schrijven zonder te liegen?

Stel je voor dat je een meesterchef hebt die een recept voor een perfecte taart heeft. Je geeft deze chef een korte samenvatting van het recept, een foto van de taart en de lijst met ingrediënten. De taak van de chef? Het recept volledig uitschrijven, alsof hij het zelf heeft bedacht, zonder de originele taart te zien.

Dit is precies wat dit onderzoek doet, maar dan met AI-agenten (slimme computerprogramma's) en wetenschappelijke papers in plaats van taarten en chefs.

De onderzoekers van de Universiteit van Tokio hebben een nieuwe test bedacht, genaamd PaperRecon. Ze wilden weten: Kunnen AI's een wetenschappelijk artikel herschrijven dat klinkt als een echte, maar zonder dat ze er dingen bijverzonnen (hallucineren)?

🏗️ Hoe werkt de test? (De "Bouwopdracht")

  1. De Originele Taart: Ze nemen een echt, goed artikel dat al is gepubliceerd.
  2. De Korte Samenvatting: Ze maken een heel kort verslag (een overview.md) van dat artikel. Dit is als een schets op een napje.
  3. De Hulpstukken: Ze geven de AI ook de originele tabellen, afbeeldingen en de code (als die er is).
  4. De Opdracht: De AI moet nu het volledige artikel herschrijven, gebaseerd op die schets en de hulpstukken.
  5. De Vergelijking: Vervolgens kijken de onderzoekers heel streng naar het resultaat. Ze vergelijken het AI-artikel met het origineel.

⚖️ Twee Sporen: Hoe goed klinkt het? vs. Is het waar?

De onderzoekers kijken naar twee dingen, alsof ze een auto testen op uiterlijk en veiligheid:

  1. Presentatie (Het Uiterlijk): Klinkt het artikel professioneel? Ziet het eruit als een echte wetenschappelijke paper?
    • Vergelijking: Stel je voor dat je een naakopdracht krijgt om een huis te bouwen. De AI bouwt een huis dat er prachtig uitziet, met een strakke gevel en mooie ramen. Dat is een goede "presentatie".
  2. Hallucinaties (De Veiligheid): Verzon de AI dingen die niet waar zijn?
    • Vergelijking: In dat mooie huis van de AI zijn de muren misschien wel mooi, maar de fundering is gemaakt van boter. Of de AI zegt dat er een zwembad is, terwijl er alleen een gat in de grond zit. Dat is een "hallucinatie".

🤖 De Resultaten: De Strijd tussen Claude en Codex

De onderzoekers hebben twee grote AI's getest: Claude Code (van Anthropic) en Codex (van OpenAI). Hier is wat ze ontdekten:

  • Claude Code is de "Stylist":

    • Het goede nieuws: Het artikel dat Claude schrijft, klinkt fantastisch. Het is goed gestructureerd, gebruikt de juiste vaktermen en leest als een echte paper.
    • Het slechte nieuws: Claude liegt veel! Gemiddeld verzon hij meer dan 10 dingen per artikel. Hij maakt cijfers, resultaten of methodes op die niet kloppen.
    • Vergelijking: Het is alsof Claude een prachtig verpakt cadeau geeft, maar er zit een leeg doosje in. Het ziet er mooi uit, maar het is nep.
  • Codex is de "Eerlijke Boer":

    • Het goede nieuws: Codex liegt veel minder. Hij verzon maar ongeveer 3 dingen per artikel. Hij houdt zich strikt aan de feiten.
    • Het slechte nieuws: Het artikel dat Codex schrijft, is minder mooi. Het klinkt soms wat stroef en mist de "flair" van een echte wetenschapper.
    • Vergelijking: Codex geeft je een doosje dat er wat slordig uitziet, maar er zit echt een waardevol cadeau in.

📉 De Grote Leerles: Een Dilemma

De belangrijkste conclusie van het onderzoek is een afweging (trade-off):

  • Hoe beter de AI wordt in het schrijven (mooie zinnen, goede structuur), hoe meer hij geneigd is om te liegen om dat mooie plaatje compleet te maken.
  • Hoe eerlijker de AI is, hoe minder "flair" zijn tekst heeft.

Het onderzoek laat zien dat AI's momenteel nog niet perfect zijn. Ze kunnen prachtige verhalen schrijven, maar we kunnen ze nog niet blindelings vertrouwen voor feitelijke informatie.

🚀 Wat betekent dit voor de toekomst?

Dit onderzoek is een waarschuwing voor de wetenschappelijke wereld. Als we AI's toestaan om papers te schrijven, moeten we heel goed opletten. We kunnen niet alleen kijken of het artikel er mooi uitziet (dat is makkelijk), we moeten ook controleren of de feiten kloppen (dat is moeilijk).

De onderzoekers zeggen: "We moeten een veiligheidsnet bouwen." Zolang AI's deze "lieverij" (hallucinaties) niet onder controle hebben, moeten we voorzichtig zijn met hun werk. Het is alsof je een auto bestelt die er prachtig uitziet, maar waarvan je niet zeker weet of de remmen wel werken.

Kortom: AI's worden steeds beter in het schrijven van wetenschap, maar ze zijn nog steeds te goed in het verzonnen van feiten. We moeten ze blijven controleren, net als een leraar die een spiekbriefje van een leerling controleert.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →