Automation of Systematic Reviews with Large Language Models

Cao, C., Arora, R., Cento, P., Budak, A., Manta, K., Farahani, E., Cecere, M., Selemon, A., Sang, J., Gong, L. X., Kloosterman, R., Jiang, S., Saleh, R., Margalik, D., Lin, J., Jomy, J., Xie, J., Chen, D., Gorla, J., Lee, S., Zhang, K., Kuang, J., Ware, H., Whelan, M. G., Teja, B., Leung, A. A., Arora, R. K., Pillay, J., Hartling, L., Detsky, A., Noetel, M., Emerson, D. B., Tricco, A. C., Church, G. M., Moher, D., Bobrovitz, N.

Publié 2026-02-18

📖 4 min de lecture☕ Lecture pause café

Voir sur medRxiv ↗PDF ↗

⚕️

Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous devez préparer un grand dîner pour des centaines de personnes, mais que vous n'avez qu'une seule recette de base et que vous devez vérifier si chaque ingrédient du monde entier est frais, mesurer sa quantité exacte et décider s'il est dangereux à manger. C'est un peu ce que font les chercheurs quand ils écrivent une revue systématique : ils tentent de rassembler toutes les preuves scientifiques sur un sujet pour aider les médecins et les décideurs à prendre de bonnes décisions.

Le problème ? C'est un travail colossal. Cela prend souvent plus d'un an, c'est épuisant, et même les meilleurs humains peuvent se tromper ou oublier des détails. C'est comme essayer de trier une montagne de sable à la main pour trouver quelques perles.

C'est là qu'intervient cette étude, qui teste un nouvel assistant ultra-intelligent basé sur l'intelligence artificielle (appelé otto-SR), un peu comme un "robot cuisinier" capable de lire des millions de livres en quelques secondes.

Voici comment ils ont testé ce robot, étape par étape, avec des comparaisons simples :

1. Le Tri des Invitations (Le Dépistage)

Imaginez que vous avez reçu 32 000 lettres d'invitation à un événement, mais vous ne voulez inviter que les 500 personnes qui correspondent à vos critères.

Les humains : Ils ont lu les lettres et ont bien trouvé 98 % des bonnes personnes, mais ils en ont manqué environ 18 % (ils ont oublié d'inviter certaines personnes importantes).
Le robot (otto-SR) : Il a lu toutes les lettres instantanément. Il a trouvé 97 % des bonnes personnes (presque autant que les humains) et n'a pas manqué 96 % des bonnes personnes.
Résultat : Le robot est plus rapide et ne rate presque personne.

2. La Mesure des Ingrédients (L'Extraction de données)

Une fois les bons articles trouvés, il faut extraire des chiffres précis (comme la dose d'un médicament ou le nombre de patients guéris).

Les humains : Ils ont eu raison dans environ 80 % des cas. C'est bien, mais ils font des erreurs de calcul ou de lecture.
Le robot : Il a eu raison dans 93 % des cas. Il est plus précis et ne se fatigue jamais.

3. Le Contrôle Qualité (L'Évaluation des risques)

Il faut vérifier si les études sont fiables ou si elles sont "pourries" (biaisées). C'est comme un inspecteur de qualité qui vérifie si une usine respecte les règles d'hygiène.

Le robot : Il a été extrêmement cohérent. Deux fois, si on lui demandait de vérifier la même chose, il donnait exactement la même réponse. C'est comme un juge qui ne change jamais d'avis selon son humeur.

4. La Mise à Jour du Menu (La Réplication)

Enfin, ils ont demandé au robot de refaire tout le travail d'une revue célèbre (Cochrane) qui contenait 146 000 références.

Ce qui s'est passé : Le robot a trouvé deux fois plus d'études pertinentes que les auteurs originaux (114 études au lieu de 64 !). Il avait repéré des perles que les humains avaient laissées tomber.
Le résultat final : Grâce à ce travail plus complet, le robot a changé le résultat de certaines analyses. Dans deux cas, il a prouvé qu'un traitement était encore plus efficace qu'on ne le pensait, et dans un cas, il a montré que ce n'était pas si efficace que ça.

En résumé

Cette étude nous dit que l'intelligence artificielle (les "Grands Modèles de Langage") peut devenir un partenaire formidable pour la science. Elle ne remplace pas les humains, mais elle agit comme un super-assistant qui fait le travail de tri et de calcul le plus fastidieux.

Au lieu de passer un an à chercher des aiguilles dans une botte de foin, les chercheurs peuvent maintenant utiliser ce robot pour trouver les aiguilles en quelques jours, avec une précision incroyable. Cela permet de mettre à jour les connaissances médicales beaucoup plus vite, pour que les patients bénéficient des meilleures informations, plus rapidement.

Automation of Systematic Reviews with Large Language Models

1. Le Tri des Invitations (Le Dépistage)

2. La Mesure des Ingrédients (L'Extraction de données)

3. Le Contrôle Qualité (L'Évaluation des risques)

4. La Mise à Jour du Menu (La Réplication)

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats

5. Signification et Conclusion

Automation of Systematic Reviews with Large Language Models

1. Le Tri des Invitations (Le Dépistage)

2. La Mesure des Ingrédients (L'Extraction de données)

3. Le Contrôle Qualité (L'Évaluation des risques)

4. La Mise à Jour du Menu (La Réplication)

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats

5. Signification et Conclusion

Articles similaires

A case report on gendered biases in a Finnish healthcare AI assistant

Spine Reviews: Crowdsourcing Global Spine Expert Knowledge via Digital Ledger Technology

Individualised evoked response detection based on the spectral noise colour

Mechanistic Insights into Skin Sympathetic Nerve Activity Dynamics in Healthy Subjects Through a Two-Layer Signal-Analytical and Closed-Loop Physiological Modeling Framework

Wearable sleep staging using photoplethysmography and accelerometry across sleep apnea severity: a focus on very severe sleep apnea