Fully Automated Systematic Review Generation via Large Language Models: Quality Assessment and Implications for Scientific Publishing

Deze studie toont aan dat een volledig geautomatiseerde AI-pipeline systematische reviews kan genereren met een hogere kwaliteitsscore dan een menselijk geschreven review, maar waarschuwt voor fundamentele beperkingen zoals herhaling en de noodzaak van nieuwe verificatiestandaarden om de wetenschappelijke integriteit te waarborgen.

McLaughlin, L., Walz, M. S., Arries, C.

Gepubliceerd 2026-02-23
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenstapt met als opdracht: "Schrijf een samenvatting van alle boeken over een specifiek onderwerp, citeer elke bron perfect en doe dit in een paar uur." Voor een mens is dit een taak die maanden kost, maar voor een computerprogramma met een "superbrein" (een Large Language Model of LLM) is het nu mogelijk om dit in een handomdraai te doen.

Dit is het verhaal van het onderzoek van Liam, Michael en Cade. Ze hebben een volledig geautomatiseerde machine gebouwd die systematische reviews (wetenschappelijke samenvattingen) schrijft, van begin tot eind, zonder dat er één menselijke hand aan te pas komt.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De Machine die Schrijft (De "Robot-Schrijver")

Stel je een zeer slimme, maar soms wat vergeetachtige robot voor die je een opdracht geeft: "Schrijf een artikel over klassieke Hodgkin-lymfoom."

  • Zoeken: De robot zoekt zelf op internet (via PubMed) naar duizenden artikelen.
  • Selecteren: Hij leest de samenvattingen en beslist zelf welke artikelen goed genoeg zijn en welke hij moet weggooien.
  • Samenvatten: Hij vat de inhoud van de goedgekeurde artikelen samen.
  • Schrijven: Hij schrijft de inleiding, de resultaten en de conclusie alsof hij een professor is.

Het bijzondere? Ze deden dit met één stukje computercode. Druk op een knop, en na een paar uur ligt er een compleet wetenschappelijk artikel.

2. Het Grote Probleem: De "Hallucinerende" Bibliothecaris

Er is echter een groot nadeel aan deze robot. Als je hem te veel informatie tegelijk geeft (bijvoorbeeld 50 samenvattingen), raakt hij in de war.

  • De Analogie: Stel je voor dat je een bibliothecaris vraagt om een verslag te maken van 50 boeken die op één stapel liggen. Als de stapel te hoog is, begint de bibliothecaris te gissen. Hij zegt: "In boek 3 staat dat..." terwijl de informatie eigenlijk uit boek 45 komt. Dit noemen ze hallucinaties of foutieve citaten.
  • De Oplossing: De onderzoekers bedachten een slim trucje. Ze gaven de robot niet alle 50 boeken tegelijk, maar slechts de top 10 die het meest relevant leken voor het specifieke hoofdstuk dat hij op dat moment schreef. Hierdoor maakte hij veel minder fouten. Het was alsof je de bibliothecaris een klein, overzichtelijk stapeltje geeft in plaats van een hele berg.

3. De Menselijke Test (De "Blinde Proef")

Om te zien of deze robotartikelen goed genoeg waren, vroegen ze zes echte experts (artsen die gespecialiseerd zijn in bloedziekten) om drie artikelen te beoordelen. Ze wisten niet wie de schrijver was:

  1. Een artikel geschreven door een mens.
  2. Een artikel geschreven door een mens met hulp van AI (de "Semi-automatische" versie).
  3. Een artikel geschreven alleen door de AI (de "Volledig geautomatiseerde" versie).

De verrassende uitkomsten:

  • De kwaliteit: De experts vonden de AI-articles (zowel de mens+AI als de pure AI) vaak beter geschreven dan het artikel van de mens. Ze vonden ze vloeiender en logischer.
  • De verwarring: Niemand kon zeker weten wie wat had geschreven.
  • De grootste verrassing: Het artikel dat door een mens was geschreven, werd door de experts vaker aangezien voor een AI-bericht. Ze dachten: "Dit is wel erg slordig en onconsistent, dat moet wel door een robot zijn." Terwijl ze dachten dat het AI-bericht (dat eigenlijk heel goed was) door een mens was geschreven.
  • Conclusie: De experts hadden een vooroordeel. Ze dachten dat AI-schrijven "sloppier" zou zijn, maar in dit geval was het AI-schrijven juist netter.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is een wake-up call voor de wetenschappelijke wereld.

  • Het goede nieuws: AI kan ons enorm veel tijd besparen. Het kan duizenden artikelen in minuten lezen en samenvatten. Dit is geweldig voor gebieden waar nu te weinig mensen zijn om dit werk te doen.
  • Het slechte nieuws: Als we dit niet goed regelen, kan iemand (een "boze actor") duizenden nep-artikelen laten schrijven die er heel geloofwaardig uitzien, maar vol zitten met fouten of leugens.
  • De les: We moeten transparant zijn. Als je AI gebruikt, moet je dat zeggen. En we moeten experts leren om AI beter te herkennen, zodat ze niet denken dat een goed geschreven artikel per se door een mens is gemaakt, of andersom.

Kort samengevat:
We hebben nu een machine die kan schrijven alsof het een professor is. Hij is snel en vaak beter dan wij, maar hij kan soms de bronnen verwarren als we hem te veel informatie geven. De mens moet nog steeds de "chef" blijven die controleert of de robot niet in de war raakt, anders vullen we de bibliotheken met mooie, maar onbetrouwbare verhalen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →