Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🏥 Les IA sont-elles de bons médecins pour le grand public ?

Imaginez que vous avez un super-étudiant (une Intelligence Artificielle ou IA) qui a lu des millions de livres. On lui demande de répondre à des questions sur la santé publique au Royaume-Uni : comment se protéger d'une épidémie, quand se faire vacciner, ou comment gérer une intoxication alimentaire.

Les chercheurs de l'Agence de sécurité sanitaire du Royaume-Uni (UKHSA) se sont demandé : « Ce super-étudiant connaît-il vraiment ses leçons, ou est-ce qu'il invente des réponses pour faire joli ? »

Pour le savoir, ils ont créé un examen spécial appelé PubHealthBench.

1. La création de l'examen : Une usine à questions 🏭

Au lieu de demander à des humains de rédiger 8 000 questions (ce qui prendrait des années), les chercheurs ont construit une usine automatique.

  • La matière première : Ils ont pris 687 documents officiels du gouvernement britannique (des guides PDF et HTML).
  • Le processus : Une IA a lu ces documents, a découpé les informations importantes et a généré automatiquement des milliers de questions à choix multiples (comme un QCM) et des questions ouvertes.
  • Le contrôle qualité : Comme une usine qui produit des pièces, ils ont inspecté un échantillon pour s'assurer que les questions étaient claires et justes.

2. Le grand test : Qui réussit l'examen ? 🎓

Ils ont fait passer cet examen à 24 différents modèles d'IA (les plus récents et les plus puissants du marché) et les ont comparés à des humains moyens (qui avaient le droit d'utiliser Google, mais pas d'IA).

Voici ce qu'ils ont découvert, avec une analogie simple :

🅰️ Le QCM (Le test à choix multiples) : L'IA est un champion !
Imaginez un jeu où l'on vous donne la question et 4 ou 5 réponses possibles, dont une seule est vraie.

  • Résultat : Les IA les plus avancées (comme GPT-4.5) ont obtenu plus de 90 % de bonnes réponses.
  • Comparaison : Elles ont battu les humains qui utilisaient Google ! C'est comme si l'IA avait une mémoire photographique parfaite des règles du jeu. Elle sait exactement quelle case cocher.

🅱️ La réponse libre (Le test oral) : L'IA commence à bégayer.
Maintenant, imaginez qu'on enlève les choix de réponses. On demande à l'IA : « Expliquez-moi comment agir en cas de fièvre. »

  • Résultat : Les performances chutent drastiquement. Aucune IA n'a dépassé 75 % de réussite.
  • Le problème : C'est ici que l'IA commence à halluciner.
    • Parfois, elle oublie une étape importante (comme si un médecin oubliait de vous dire de boire de l'eau).
    • Parfois, elle ajoute des conseils qui ne sont pas dans le guide officiel (comme si elle inventait un remède maison).
    • Parfois, elle se contredit elle-même.

3. Les découvertes surprenantes 🕵️‍♀️

  • Le paradoxe du "Petit vs Grand" : Les IA les plus grosses et les plus chères (les "Propriétaires") sont très bonnes, mais les modèles plus petits et gratuits (les "Open-Weight") font beaucoup plus d'erreurs, surtout quand ils doivent parler librement. C'est comme comparer un expert médical à un étudiant en première année : l'étudiant connaît les bases, mais peut se tromper sur les détails vitaux.
  • Le public vs Les pros : Les IA sont meilleures quand elles parlent au grand public (conseils simples) que quand elles doivent donner des conseils médicaux complexes aux professionnels. C'est rassurant pour nous, les citoyens, car c'est nous qui utilisons le plus ces chatbots.
  • L'illusion de la perfection : Même les meilleures IA ne sont pas parfaites. Dans le mode "réponse libre", elles peuvent donner un conseil qui semble logique mais qui est techniquement faux par rapport au guide officiel.

4. La conclusion : Faut-il avoir confiance ? ⚖️

Les chercheurs disent : « Oui, mais avec des lunettes de sécurité. »

  • C'est prometteur : Les IA modernes connaissent énormément de choses sur la santé publique. Elles sont souvent plus rapides et précises qu'un humain qui cherche sur Google.
  • Mais attention : Si vous demandez à une IA de vous donner un conseil de santé en mode "conversation libre", elle risque de s'inventer des choses ou d'oublier des détails cruciaux.

L'analogie finale :
Pensez à l'IA comme à un bibliothécaire très rapide.

  • Si vous lui demandez : « Dans quel rayon se trouve le livre sur le vaccin ? » (QCM), il vous répondra instantanément et correctement.
  • Si vous lui demandez : « Expliquez-moi tout ce qu'il faut savoir sur ce vaccin pour ma famille » (Réponse libre), il risque de mélanger deux livres, d'oublier une page importante ou d'inventer une anecdote qui n'existe pas.

Le message clé : L'IA est un outil formidable pour trouver de l'information, mais pour la santé, il faut toujours vérifier ses réponses avec un professionnel humain ou un document officiel. Ne la laissez pas conduire l'ambulance toute seule ! 🚑🤖