Evaluating Large Language Models for Translating Multimodal… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Gepubliceerd 2026-05-22

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op medRxiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een meesterkok bent die probeert een beroemd gerecht na te maken, maar je hebt het recept niet. In plaats daarvan heb je een rommelige stapel notities: sommige krabbels op servetten, sommige getekend als cartoons, en sommige geschreven in een verwarrende mix van talen. Je doel is om deze rommelige notities om te zetten in een nauwkeurige, stap-voor-stap instructiehandleiding die een robotkeuken kan volgen om het gerecht perfect te bereiden.

Dit artikel gaat over het testen van twee superintelligente AI-koks (zogenaamde Large Language Models, of LLM's) om te zien of zij dit werk voor medisch onderzoek kunnen doen.

Het probleem: Het "Verloren in Vertaling"-recept

In medisch onderzoek definiëren wetenschappers specifieke groepen patiënten (zoals "mensen met Type 2-diabetes") met complexe regels. Deze regels staan meestal in voor mensen leesbare documenten die lijken op een mix van verhalen, stroomdiagrammen en tabellen.

Om deze regels te gebruiken in het computersysteem van een ziekenhuis, moet een menselijk expert ze handmatig vertalen naar een computertaal (SQL). Dit is als het vertalen van een gedicht naar computercode. Het kost veel tijd, is zeer saai, en als twee verschillende experts het doen, kunnen ze uiteindelijk met licht verschillende resultaten eindigen. De onderzoekers wilden zien of AI deze vertaling automatisch kon uitvoeren.

Het experiment: Het testen van de AI-koks

De onderzoekers kozen twee van de slimste beschikbare AI-modellen (OpenAI's GPT o3 en Anthropic's Claude Opus 4.1) en gaven hen vijf verschillende "recepten" (medische definities voor aandoeningen zoals nierletsel, hartaanvallen en diabetes) uit een openbare bibliotheek genaamd PheKB.

Ze testten de AI op drie verschillende manieren, alsof je de kok verschillende soorten instructies geeft:

Het volledige pakket: De AI kreeg het hele document (tekst, grafieken en diagrammen).
Alleen het verhaal: De AI kreeg alleen de geschreven tekst en tabellen, maar geen afbeeldingen.
Alleen de afbeeldingen: De AI kreeg alleen de diagrammen en stroomdiagrammen, zonder woorden.

De resultaten: Wat werkte en wat niet

1. De "Alleen-afbeeldingen"-valstrik
Toen de AI probeerde alleen de diagrammen (de stroomdiagrammen) te lezen, faalde het op erbarmelijke wijze. Het was alsof je een kok vraagt een complex gerecht te bereiden door alleen te kijken naar een tekening van een pan en een vork, zonder tekst die de ingrediënten of het hitte-niveau uitlegt. De AI miste cruciale details, kreeg de timing verkeerd en produceerde instructies die niet zouden werken.

2. Het "Verhaal" is koning
Toen de AI de geschreven tekst kreeg (zelfs zonder de afbeeldingen), deed het het zeer goed. Het bleek dat de geschreven woorden bijna alle benodigde informatie bevatten. De AI kon de logica begrijpen en de computercode nauwkeurig schrijven.

3. De AI is een uitstekende conceptmaker, geen eindredacteur
Beide AI-modellen waren verrassend goed in het begrijpen van het grote geheel en de logica van de regels. Ze maakten echter specifieke soorten fouten:

Ontbrekende ingrediënten: Ze vergaten soms specifieke medische codes op te nemen (zoals een specifiek type medicatie).
Verkeerde getallen: Ze konden een drempelwaarde verkeerd krijgen (bijvoorbeeld zeggen "bloeddruk boven de 140" terwijl de regel "boven de 150" was).
Dingen verzinnen: Soms verzon de AI regels of voorwaarden die helemaal niet in het oorspronkelijke document stonden (een "hallucinatie").
Verwarring over het formaat: Bij het bekijken van diagrammen konden ze vaak niet uitzoeken hoe ze een visuele pijl om moeten zetten in een logische "als-dan"-computeropdracht.

De grote les

Het artikel concludeert dat deze AI-modellen nog niet klaar zijn om menselijke experts te vervangen. Ze kunnen niet zomaar naar een rommelig document kijken en een perfect, direct bruikbaar computerprogramma spugen.

Ze zijn echter uitstekende conceptgeneratoren. Als je ze duidelijke, gestructureerde tekst geeft, kunnen ze een zeer goed startpunt voor de code schrijven. Maar omdat ze subtiele maar gevaarlijke fouten kunnen maken (zoals een getal verkeerd krijgen of een regel missen), moet een menselijk expert hun werk altijd controleren.

De uiteindelijke les:
Het grootste probleem is niet dat de AI niet slim genoeg is; het is dat medische documenten niet op een manier zijn geschreven die makkelijk voor computers te lezen is. Als artsen en onderzoekers hun notities standaardiseren om duidelijker en gestructureerder te zijn (zoals het schrijven van een recept in een standaardformaat in plaats van krabbelen op een servet), zou de AI veel nuttiger worden. Tot die tijd is de AI een behulpzame assistent, maar moet de menselijke expert de baas blijven.

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

Het probleem: Het "Verloren in Vertaling"-recept

Het experiment: Het testen van de AI-koks

De resultaten: Wat werkte en wat niet

De grote les

Technische Samenvatting: Evaluatie van Grootte Taalmodellen voor het Vertalen van Multimodale Fenotype-documentatie naar Uitvoerbare EHR-fenotyperingsalgoritmen

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

Het probleem: Het "Verloren in Vertaling"-recept

Het experiment: Het testen van de AI-koks

De resultaten: Wat werkte en wat niet

De grote les

Technische Samenvatting: Evaluatie van Grootte Taalmodellen voor het Vertalen van Multimodale Fenotype-documentatie naar Uitvoerbare EHR-fenotyperingsalgoritmen

Meer zoals dit