Sino-US-DrugQA: A Benchmark for Evaluating Large Language… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Chen, Z., Fu, X., Lu, W.

Gepubliceerd 2026-02-17

📖 3 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Chen, Z., Fu, X., Lu, W.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een enorme bibliotheek hebt met twee heel verschillende afdelingen: één voor de regels van de Verenigde Staten (de FDA) en één voor de regels van China (de NMPA). Als je een medicijn wilt maken dat in beide landen mag worden verkocht, moet je precies weten welke regels waar gelden. Dat is als het proberen te navigeren door twee verschillende landen met verschillende verkeersborden, waar je soms moet omdraaien en soms rechtdoor kunt gaan.

Deze paper introduceert een nieuwe test (een soort "rijexamen") voor slimme computers, genaamd Sino-US-DrugQA.

Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. De "Examenboekjes"

De onderzoekers hebben een gigantisch boekje gemaakt met bijna 12.000 vragen. Deze vragen komen uit de officiële reglementen van zowel China als de VS.

De simpele vragen: "Wat zegt de regel in China over dit medicijn?" (Alsof je vraagt: "Mag ik hier linksaf?")
De moeilijke vragen: "Wat is het verschil tussen de regel in China en de regel in de VS?" (Alsof je vraagt: "Als ik hier linksaf mag, mag ik dat dan ook in het buurland, of moet ik daar anders rijden?")

2. De "Slimme Studenten"

Ze hebben vier van de slimste kunstmatige intelligenties (AI) die er momenteel zijn, zoals GPT-5.2 en DeepSeek-V3.2, op deze vragen laten antwoorden. Ze deden dit zonder dat ze eerst extra les hadden gehad (een "zero-shot" test, alsof je iemand de examenboeken geeft en zegt: "Ga maar aan de slag, zonder studietijd").

3. Het Resultaat: Goed, maar niet perfect

De computers deden het best goed op de simpele vragen. Ze haalden een cijfer tussen de 79% en 85%. Dat is alsof ze een heel goed rijbewijs hebben gehaald voor één land. Ze kunnen prima helpen om regels in één taal te controleren of een eerste opzet te maken.

Maar hier komt de hapering:
Zodra de vraag ging over het vergelijken van de twee landen, vielen de cijfers flink. De computers werden ongeveer 6 tot 9 punten lager.

De analogie: Het is alsof je een tolk hebt die perfect Chinees en perfect Engels spreekt. Als je vraagt "Wat betekent dit woord in het Chinees?", is het antwoord perfect. Maar als je vraagt "Wat is het verschil tussen deze twee zinnen in beide talen?", begint de tolk te twijfelen en maakt hij fouten.

4. Wat betekent dit voor de echte wereld?

De boodschap van dit onderzoek is voorzichtigheid.

Wat AI wel kan: Het is een uitstekende assistent. Het kan snel regels opzoeken en een eerste versie van een document schrijven. Het is als een zeer snelle secretaresse die alles opschrijft wat je dicteert.
Wat AI nog niet kan: Het is nog geen beslissingsmaker. Als het gaat om het vergelijken van regels tussen landen, is de AI nog niet betrouwbaar genoeg om alleen te werken.

De conclusie:
Je mag deze slimme computers gebruiken om het zware werk te doen, maar je moet ze nooit volledig vertrouwen als het gaat om het vergelijken van regels tussen landen. Er moet altijd een menselijke expert (een ervaren regelaar) de antwoorden controleren, net zoals je een beginnende chauffeur nooit alleen door een stormachtige nacht laat rijden zonder een ervaren passagier die meekijkt.

De onderzoekers hebben hun examenboekje en de antwoorden openbaar gemaakt, zodat iedereen deze "rijlessen" voor AI kan blijven geven en verbeteren.

Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

1. De "Examenboekjes"

2. De "Slimme Studenten"

3. Het Resultaat: Goed, maar niet perfect

4. Wat betekent dit voor de echte wereld?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

1. De "Examenboekjes"

2. De "Slimme Studenten"

3. Het Resultaat: Goed, maar niet perfect

4. Wat betekent dit voor de echte wereld?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit