Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

Dit artikel presenteert een LLM-agent die real-time toegang heeft tot autoritatieve biomedische terminologiediensten om legacy-metadata te standaardiseren, wat in een evaluatie met HuBMAP-gegevens leidt tot een hogere nauwkeurigheid dan alleen gebruik van het taalmodel.

Josef Hardi, Martin J. O'Connor, Marcos Martinez-Romero, Jean G. Rosario, Stephen A. Fisher, Mark A. Musen

Gepubliceerd 2026-04-13
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Digitale Vertaler die nooit Moet Gissen: Hoe AI Oude Wetenschappelijke Gegevens Redt

Stel je voor dat je een enorme bibliotheek binnenloopt, maar de boeken zijn geschreven in een vreemde taal, de titels zijn met potlood geschreven en de inhoud is willekeurig over de planken gegooid. Als je een specifiek boek zoekt, is het bijna onmogelijk. Dit is precies wat er gebeurt met wetenschappelijke data. Wetenschappers genereren enorme hoeveelheden informatie, maar de "beschrijvingen" (metadata) die bij die data horen, zijn vaak rommelig, onvolledig en niet gestandaardiseerd.

Deze paper van onderzoekers van Stanford en de Universiteit van Pennsylvania vertelt het verhaal van hoe ze een slimme oplossing hebben gevonden om deze chaos op te ruimen, zonder duizenden mensen in te huren om het handmatig te doen.

Het Probleem: De "Vage" Woordenlijst

In de wetenschap willen we dat data FAIR is: Findable (vindbaar), Accessible (toegankelijk), Interoperable (uitwisselbaar) en Reusable (opnieuw te gebruiken). Maar vaak schrijft de ene wetenschapper "longweefsel", de ander "long" en de derde "pulmonair". Voor een computer zijn dit drie totaal verschillende dingen.

Om dit op te lossen, hebben wetenschappers standaarden bedacht. Denk hierbij aan een strenge receptuur: "Gebruik alleen termen uit deze specifieke woordenlijst (een 'ontologie')." Maar hier zit het probleem:

  1. De oude data is al jarenlang verzameld zonder deze regels.
  2. De regels zelf zijn vaak alleen maar tekst in een document, niet iets waar een computer direct mee kan werken.

De Eerste Poging: De AI die uit het hoofd leert

Eerder probeerden ze een AI (een Large Language Model of LLM) om deze oude data te corrigeren. Ze gaven de AI de oude tekst en zeiden: "Hé AI, gebruik deze woordenlijst om de termen te verbeteren."

Het probleem hiermee is dat de AI moet gissen. Ze heeft de woordenlijst niet echt "voor zich", ze moet het uit haar trainingsdata halen. Het is alsof je iemand vraagt om een adres te vinden in een stad die ze alleen uit een oud boek kent, terwijl de stad de afgelopen jaren volledig is veranderd. De AI kan termen verzonnen die er goed uitzien, maar die niet bestaan, of ze kiest de verkeerde variant.

De Nieuwe Oplossing: De AI met een Telefoon (ARMS)

De onderzoekers hebben een nieuwe methode bedacht, genaamd ARMS (Agentic Real-Time Metadata Standardization). In plaats van de AI alleen te laten gissen, geven ze haar tools (gereedschappen) om live te zoeken.

Hier is een analogie om het te begrijpen:

  • De Oude AI (Prompt-only): Stel je voor dat je een vertaler bent die in een kamer zit zonder internet. Iemand geeft je een zin in het Chinees en zegt: "Vertaal dit naar het Nederlands, maar gebruik alleen woorden die in dit boek staan." Je moet het uit je hoofd proberen te vertalen. Je kunt de woordenlijst niet checken. Je maakt fouten.
  • De Nieuwe AI (ARMS): Nu krijg je een telefoon en een live databank. Als iemand je een zin in het Chinees geeft, bel je direct de woordenlijst-databank op. Je zegt: "Ik zoek het woord voor 'long', maar alleen in de categorie 'anatomie van de mens'." De databank geeft je direct het exacte, officiële woord terug. Jij hoeft niet meer te gissen; je kijkt het op.

In de paper noemen ze dit een "Agent". Deze AI-agent doet drie dingen:

  1. Hij haalt de receptuur (de CEDAR-sjabloon) op van een server, zodat hij precies weet wat er mag.
  2. Hij belt de woordenlijst-databank (BioPortal) om te zien welke termen er echt bestaan en welke precies passen.
  3. Hij kiest de beste optie en corrigeert de data.

Wat Hadden Ze Getest?

Ze testten dit systeem op data van het HuBMAP-project (een enorm project om een kaart van het menselijk lichaam te maken). Ze hadden 839 oude, rommelige datasets.
Ze hadden een gouden standaard: een set van dezelfde datasets die door echte menselijke experts al perfect was opgeschoond. Dit was hun "antwoordenboekje" om te zien hoe goed de AI was.

De Resultaten: Een Duidelijke Winnaar

De resultaten waren overtuigend:

  • Bij termen die een specifieke woordenlijst nodig hadden: De oude AI (die giste) had slechts 46% van de termen goed. De nieuwe AI (die live zocht) had 78% goed!
  • Bij andere termen (zoals data of nummers): Ook hier verbeterde de nieuwe AI van 59% naar 79%.
  • Alles bij elkaar: De nieuwe methode was 46% beter dan de oude methode.

Bij sommige soorten data (zoals 'Lightsheet' en 'MIBI' beeldvorming) haalde de nieuwe AI zelfs 100% perfectie.

Waarom is dit belangrijk?

Dit is niet alleen een technisch trucje. Het betekent dat we in de toekomst:

  1. Miljoenen oude datasets kunnen redden en bruikbaar maken zonder dat we duizenden mensen nodig hebben om ze handmatig in te voeren.
  2. Wetenschappers over de hele wereld data kunnen koppelen en vergelijken, omdat iedereen nu dezelfde, schone termen gebruikt.
  3. De AI niet meer hoeft te hallucineren (verzonnen feiten te bedenken), omdat ze direct naar de bron kijkt.

Conclusie

De kernboodschap van dit paper is simpel: Geef de AI niet alleen instructies, geef haar ook de gereedschappen om die instructies uit te voeren.

Het is het verschil tussen iemand vragen om een adres uit zijn hoofd te herinneren, en iemand een GPS geven die live de verkeersinformatie checkt. Voor de toekomst van wetenschappelijke data is deze "live GPS" (de tool-gebruikende AI) de sleutel om de enorme berg aan oude, rommelige data om te toveren tot een bruikbare, vindbare schatkist.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →