Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Cette étude présente un pipeline entièrement open-source et déployable localement, utilisant le modèle Qwen2.5-72b pour extraire avec une haute précision des données longitudinales sur les tumeurs à partir de rapports radiologiques, garantissant ainsi la confidentialité des données et la reproductibilité dans les environnements de soins de santé.

Luc Builtjes, Alessa Hering

Publié Wed, 11 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette recherche, imagée comme si nous racontions une histoire de détective médical.

🕵️‍♂️ Le Grand Détective Numérique : Traquer le Cancer dans les Mots

Imaginez que les comptes rendus de radiologie (les rapports écrits par les médecins après un scanner) soient comme des journaux de bord d'un navire. Chaque fois qu'un patient revient pour un nouveau scan, le médecin écrit une nouvelle page dans ce journal. Il y décrit la taille des "monstres" (les tumeurs), si elles ont grossi, rétréci ou disparu grâce au traitement.

Le problème ? Ces journaux sont écrits en langage humain, avec des phrases compliquées, des tableaux manuscrits et des styles différents selon le médecin. Pour un ordinateur, c'est comme essayer de lire un livre écrit dans une langue qu'il ne connaît pas, avec des dessins illisibles.

🤖 La Solution : Un Robot Ouvrier Libre et Privé

Les chercheurs de l'Université Radboud (aux Pays-Bas) ont eu une idée brillante : utiliser une Intelligence Artificielle (IA) très puissante pour lire ces rapports et en extraire les chiffres importants automatiquement.

Mais il y avait un gros souci : les meilleures IA du monde sont souvent comme des châteaux privés. On ne peut pas les installer dans les hôpitaux car elles envoient les données des patients sur Internet, ce qui est dangereux pour la confidentialité.

Leur innovation ? Ils ont créé un outil 100% gratuit et ouvert (comme un plan de maison que tout le monde peut copier) qui fonctionne localement.

  • Analogie : Imaginez un robot cuisinier que vous installez dans votre propre cuisine. Il prépare le repas (extrait les données) sans jamais envoyer la recette ou les ingrédients à un voisin. Tout reste chez vous, en toute sécurité.

🧩 Comment ça marche ? (Le Jeu de la Mémoire)

Le défi n'était pas seulement de lire un rapport, mais de relier les points dans le temps.

  • Le problème : Si le médecin dit "le nodule A mesure 10 mm" en janvier, et "le nodule A mesure 8 mm" en mars, l'ordinateur doit comprendre qu'il s'agit du même nodule qui rétrécit.
  • La méthode : L'IA (un modèle appelé Qwen) a reçu une mission spéciale. On lui a donné deux rapports à la fois (comme deux pages d'un album photo) et on lui a dit : "Regarde bien, trouve les mêmes tumeurs, compare leurs tailles et dis-moi si elles ont changé."

Ils ont utilisé un système appelé llm_extractinator, qui agit comme un traducteur ultra-précis. Il prend le texte désordonné du médecin et le transforme en un tableau de données parfait, prêt à être analysé par d'autres scientifiques.

📊 Les Résultats : Une Performance de Champion

Les chercheurs ont testé leur robot sur 50 paires de rapports (soit 100 comptes rendus au total). Le résultat ? C'est bluffant !

  • Précision : L'IA a réussi à trouver les bonnes informations dans 93 à 95 % des cas. C'est presque aussi bien que deux médecins humains qui relisent le même document ensemble.
  • Confidentialité : Comme tout se passe sur les ordinateurs de l'hôpital, aucune donnée de patient n'a fui.
  • Réutilisabilité : Puisque l'outil est "open-source", n'importe quel hôpital dans le monde peut le télécharger et l'utiliser gratuitement pour faire la même chose.

💡 Pourquoi c'est important ?

Avant, pour étudier comment le cancer évolue sur des milliers de patients, il fallait des équipes entières de secrétaires pour lire manuellement des montagnes de papiers. C'était lent, cher et épuisant.

Grâce à cette invention :

  1. On gagne du temps : L'IA lit des milliers de rapports en quelques minutes.
  2. On sauve la vie : En ayant des données propres et rapides, les chercheurs peuvent mieux comprendre les traitements et aider les futurs patients.
  3. On protège les secrets : Les données sensibles restent dans les murs de l'hôpital.

En résumé : Ces chercheurs ont construit un super-traducteur gratuit et privé qui transforme le langage complexe des médecins en données claires, permettant de suivre la guerre contre le cancer comme jamais auparavant, sans jamais compromettre la vie privée des patients.