Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Dit artikel introduceert PubHealthBench, een nieuwe benchmark met meer dan 8000 vragen gebaseerd op Britse overheidsrichtlijnen om de kennis van LLMs op het gebied van volksgezondheid te evalueren, waarbij wordt geconstateerd dat hoewel de nieuwste modellen bij meerkeuzevragen menselijke prestaties overtreffen, hun prestaties bij open antwoorden beperkter blijven en aanvullende veiligheidsmaatregelen vereisen.

Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Gezondheidstest voor AI: Kunnen Chatbots de Britse Gezondheidsraad wel volgen?

Stel je voor dat je een nieuwe, super slimme robot hebt die alles over de wereld lijkt te weten. Je vraagt hem: "Mag ik mijn hond meenemen naar het strand als het regent?" of "Hoeveel alcohol mag ik drinken als ik zwanger ben?" De robot geeft een antwoord. Maar is dat antwoord waar, actueel en veilig?

Dat is precies wat dit onderzoek van het Britse Gezondheidsbureau (UKHSA) heeft onderzocht. Ze wilden weten of die slimme AI-chatbots (zoals de nieuwste versies van GPT) echt goed genoeg zijn om de officiële gezondheidsregels van de Britse overheid te kennen.

Hier is de samenvatting, vertaald naar begrijpelijk Nederlands met een paar creatieve vergelijkingen.

1. Het Probleem: De "Gouden Gids" is heel groot

De Britse overheid heeft duizenden documenten over gezondheid: van hoe je een griepgolf moet stoppen tot wat je mag eten tijdens een zwangerschap. Dit is als een enorme bibliotheek met de meest recente regels.

Het probleem? AI-modellen zijn getraind op een enorme hoeveelheid internetdata, maar ze weten niet altijd welke regels vandaag gelden. Ze kunnen verouderde informatie gebruiken of zelfs dingen uitvinden die er niet staan (dit noemen ze "hallucineren"). In de gezondheidszorg kan een foutje leiden tot gevaarlijke situaties.

2. De Oplossing: De "PubHealthBench" (De Gezondheidsexamen)

Om dit te testen, hebben de onderzoekers een gigantisch examen gemaakt, genaamd PubHealthBench.

  • Hoe werkt het? Ze hebben 687 officiële documenten ingelezen en er een computerprogramma op laten draaien dat er 8.000 vragen van maakt.
  • De vorm: Het examen had twee delen:
    1. Meerkeuze (MCQA): Net als op school. "Welk antwoord is juist: A, B of C?"
    2. Vrije tekst: Je vraagt de AI gewoon: "Wat zegt de overheid over...?" en de AI moet het zelf uitleggen, zonder hints.

3. De Resultaten: De Slimme Robot vs. De Mens

De onderzoekers hebben 24 verschillende AI-modellen getest, van de allerbeste (zoals GPT-4.5) tot kleinere, goedkopere versies.

De Meerkeuze-test (De "Kennisquiz"):

  • De winnaars: De allerbeste, dure AI-modellen (zoals GPT-4.5 en o1) scoorden boven de 90%. Ze waren zelfs beter dan een gemiddelde mens die snel even Google gebruikt!
  • De vergelijking: Het was alsof de AI een uitgelezen professor was die de gids uit zijn hoofd kent. Ze wisten precies wat er in de documenten stond.
  • De verliezers: Kleinere, goedkopere AI-modellen deden het minder goed, maar scoorden vaak nog steeds boven de 75%.

De Vrije Tekst-test (Het "Echte Gesprek"):

  • Hier klapte het verhaal: Toen de AI's moesten antwoorden zonder meerkeuze-opties (dus zonder hints), daalde hun score drastisch. Niemand haalde boven de 75%.
  • Het probleem: De AI's begonnen dingen te verzinnen, belangrijke details te vergeten of tegenstrijdige adviezen te geven.
  • De metafoor: In de meerkeuze-test was de AI als een student die het antwoordboekje heeft geleerd. In de vrije tekst-test was het alsof die student zonder boekje een betoog moest houden: hij wist de feiten wel, maar kon ze niet altijd netjes en correct in een verhaal verwerken. Soms "droomde" hij details bij.

4. Belangrijke Nuances

  • Voor wie is het goed? De AI's waren het allerbeste in het beantwoorden van vragen voor het gewone publiek (bijv. "Mag ik dit eten?"). Ze deden het iets minder goed voor artsen en specialisten (die vaak heel specifieke, complexe regels nodig hebben).
  • De "Grootte" maakt uit: De enorme, dure AI-modellen deden het veel beter dan de kleine, goedkope versies. De kleine modellen maakten veel meer fouten in de vrije tekst, wat gevaarlijk kan zijn als je ze gebruikt voor medisch advies.

5. Conclusie: Is de AI klaar voor de praktijk?

Het onderzoek zegt: "Ja, maar..."

  • Ja: De allerbeste AI-modellen weten de feiten uit de Britse gezondheidsgidsen heel goed. Ze zijn een geweldige bron voor snelle informatie.
  • Maar: Als je de AI vraagt om een volledig verhaal te schrijven (vrije tekst), kan hij nog steeds fouten maken of dingen uitvinden.

De les voor de toekomst:
Je kunt AI gebruiken als een slimme assistent die snel feiten opzoekt, maar je moet hem nooit blindelings vertrouwen als hij een advies geeft zonder dat iemand (of een ander systeem) het even checkt. Het is als een zeer slimme stagiair: hij kent de regels, maar hij heeft nog steeds een ervaren manager nodig om te controleren of hij ze niet verkeerd uitlegt.

Kortom: De AI wordt steeds "gezonder" en slimmer, maar voor de veiligheid van de mensen hebben we nog steeds een menselijke hand nodig om de laatste controle te doen.