Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'identifier des types de cellules spécifiques dans une image de tissu biologique, mais avec une contrainte étrange : vous ne pouvez regarder que des carrés minuscules, de la taille d'un timbre-poste (40x40 pixels). C'est comme essayer de reconnaître un animal en ne voyant qu'un seul de ses poils, sans voir le reste du corps.

C'est le défi que les chercheurs japonais de cette étude ont relevé. Ils voulaient savoir : quelle est la meilleure "machine" (intelligence artificielle) pour faire ce travail précis ?

Voici l'explication de leur découverte, servie avec quelques analogies simples.

1. Le Dilemme : Le Géant vs Le Spécialiste

Pour résoudre ce problème, les chercheurs ont comparé deux types d'IA :

Les "Modèles Fondation" (Les Géants) : Ce sont des intelligences artificielles colossales, entraînées sur des millions d'images de la vie réelle (comme des chats, des voitures, des paysages) avec des détails très nets. On les utilise souvent en médecine parce qu'ils sont "géniaux" et apprennent vite.
- L'analogie : C'est comme engager un professeur d'université très brillant qui a lu des milliers de livres sur l'art. Il est très intelligent, mais il est habitué à voir des tableaux entiers. Si vous lui montrez un seul grain de peinture sur un tableau, il risque de ne pas savoir quoi en faire, car il a l'habitude de voir l'ensemble.
Les "Architectures Spécifiques" (Les Artisans) : Ce sont des modèles construits de zéro, spécialement conçus pour regarder ces tout petits carrés de cellules.
- L'analogie : C'est comme engager un expert en microscopie qui a passé sa vie à étudier uniquement des grains de sable. Il ne connaît pas les paysages, mais il sait exactement à quoi ressemble un grain de sable spécifique.

2. La Course aux Données : Qui gagne ?

Les chercheurs ont entraîné ces modèles avec différentes quantités de données (de quelques centaines à plusieurs milliers d'exemples).

Au début (Peu de données) : Le "Professeur" (le modèle fondation) gagne facilement. Comme il a déjà vu des millions d'images, il devine bien même avec peu d'exemples. C'est comme si le professeur pouvait deviner le sujet du tableau même avec un seul grain de peinture.
Au milieu (Beaucoup de données) : C'est ici que ça change. Dès qu'on donne assez d'exemples aux "Artisans" (les modèles spécifiques), ils commencent à surpasser le Professeur.
- La révélation : Le modèle CustomViT (un type d'IA basé sur des "transformateurs", une technologie moderne) a fini par devenir le champion. Il a appris à voir les détails fins des cellules mieux que le géant pré-entraîné.

Pourquoi ? Parce que le "Professeur" a été entraîné sur des images grandes et nettes. Quand on le force à regarder un tout petit carré flou ou réduit, il perd ses repères. L'Artisan, lui, a été formé spécifiquement pour ce format étriqué.

3. La Vitesse et l'Énergie

Il y a un autre avantage majeur pour les modèles spécifiques : la vitesse.

Le "Géant" (modèle fondation) est lourd. Pour faire une prédiction, il faut beaucoup de temps de calcul et une grosse carte graphique (comme un camion qui consomme beaucoup d'essence).
L'Artisan (CustomViT) est léger et rapide. Il fait le même travail (voire mieux) en une fraction de seconde.
- L'analogie : C'est la différence entre un camion de déménagement (le modèle fondation) et une moto de course (le modèle spécifique). Pour aller d'un point A à un point B dans une petite ruelle (l'image de cellule), la moto est non seulement plus rapide, mais elle arrive aussi plus vite à destination.

4. Et si l'image est floue ?

Les chercheurs ont aussi testé ce qui se passe si l'image est floue (comme si le microscope était mal réglé).

Le résultat surprenant : Ni le Géant ni l'Artisan n'ont montré de super-pouvoirs magiques contre le flou. Quand l'image devient très floue, tout le monde perd des points.
La leçon : Avoir un modèle "intelligent" et pré-entraîné ne vous rend pas plus résistant au flou. Si l'information visuelle est détruite, même le meilleur cerveau du monde ne peut pas deviner ce qu'il y a dessous.

En Résumé : La Conclusion Simple

Cette étude nous apprend une chose importante pour le futur de l'IA médicale :

"Plus grand n'est pas toujours mieux."

Si vous avez une tâche très spécifique (comme analyser des cellules minuscules) et que vous avez assez de données pour entraîner votre propre modèle, n'utilisez pas le modèle géant tout fait. Créez un modèle sur mesure.

Avant : On pensait qu'il fallait toujours utiliser les modèles géants pré-entraînés car ils étaient "intelligents".
Maintenant : On sait que pour les petits détails, un modèle fait maison, entraîné spécifiquement pour ce travail, est plus précis, plus rapide et consomme moins d'énergie.

C'est comme si on arrêtait d'essayer de faire de la couture avec une tronçonneuse (le modèle géant) pour finalement utiliser un petit ciseau de précision (le modèle spécifique) qui fait le travail parfaitement.

Each language version is independently generated for its own context, not a direct translation.

Titre de l'étude

Réexamen du rôle des modèles de fondation dans l'analyse d'images histopathologiques au niveau cellulaire sous contraintes de petits patches : Effets de l'échelle des données d'entraînement et des perturbations de flou sur les CNN et les Vision Transformers.

1. Problématique

L'analyse histopathologique au niveau cellulaire présente un défi unique par rapport aux tâches de vision par ordinateur standards. Alors que la plupart des architectures modernes (CNN, Transformers) sont conçues et pré-entraînées sur des images de haute résolution (généralement 224×224 pixels, comme ImageNet), l'analyse cellulaire nécessite de traiter des patches extrêmement petits de 40×40 pixels (environ 1/30 de la surface d'une entrée standard).

Les questions centrales de cette étude sont :

Les architectures d'apprentissage profond modernes et les modèles de fondation (Foundation Models) peuvent-ils apprendre des représentations robustes et évolutives sous cette contrainte spatiale extrême ?
Les modèles pré-entraînés sur des données naturelles ou histopathologiques de grande taille sont-ils transférables à ce régime de faible résolution, ou faut-il privilégier des architectures spécifiques entraînées de zéro ?
Comment la robustesse au flou (un problème fréquent en imagerie médicale) se comporte-t-elle à cette échelle ?

2. Méthodologie

Données et Annotation

Cohorte : 303 spécimens de cancer colorectal avec immunomarquage CD103/CD8.
Volume de données : Génération de 185 432 images de cellules annotées.
Annotation : Utilisation de l'outil Cu-Cyto® Viewer avec une approche collaborative homme-IA, suivie d'une double vérification par des experts et un pathologiste.
Échantillonnage : Création de jeux de données équilibrés via un échantillonnage stratifié avec sept niveaux de taille (FlagLimit) allant de 256 à 16 384 échantillons par classe.

Architectures Évaluées

Les auteurs ont comparé deux catégories de modèles :

Modèles spécifiques à la tâche (entraînés de zéro) :
- MLP, CNN basique, ResNet-D4, NIN (hybride), SE-ResNet-D4 (avec mécanismes d'attention canal), EfficientNet-B0, ConvNeXt-Tiny.
- CustomViT : Un Vision Transformer conçu spécifiquement pour les patches 40×40 (divisés en tokens 8×8), avec 6 blocs de transformateurs.
Modèles de fondation (Foundation Models) :
- Évaluation via Linear Probing (LP) et Fine-Tuning (FT) de la dernière couche.
- Modèles testés : ResNet-RS50, CTransPath (Swin Transformer), et UNI (Vision Transformer hybride).
- Adaptation : Les patches 40×40 ont été redimensionnés à 224×224 (interpolation bicubique) pour correspondre aux entrées des modèles pré-entraînés.

Protocole Expérimental

Augmentation de données : Transformations géométriques (flips) et transformations d'espace colorimétrique (correction gamma, HSV).
Robustesse au flou : Évaluation de la dégradation des performances avec un filtre gaussien isotrope appliqué soit avant le redimensionnement (flou optique simulé) soit après (flou numérique), avec des écarts-types ( $\sigma$ ) variant de 0,1 à 1,6.
Métriques : Précision, rappel, F1-macro, temps d'inférence et nombre de paramètres.

3. Résultats Clés

Performance et Échelle des Données

Régime de faible données (FlagLimit $\le$ 512) : Les modèles de fondation (notamment UNI avec Fine-Tuning) surpassent nettement les modèles entraînés de zéro, démontrant l'avantage du transfert de connaissances lorsque les données sont rares.
Régime de données modérées à élevées (FlagLimit $\ge$ 2048) :
- CustomViT montre une amélioration monotone et dépasse tous les modèles de fondation dès 4096 échantillons par classe.
- Performance : CustomViT atteint une précision de 0,92 et un F1-macro de 0,92, surpassant UNI (F1 = 0,78) et tous les CNN.
- Saturations : Les modèles de fondation et les CNN classiques (ResNet, ConvNeXt) montrent une saturation des performances ou une amélioration marginale au-delà de certaines tailles de données, tandis que CustomViT continue de progresser.

Efficacité Computationnelle

Coût d'inférence : CustomViT est extrêmement efficace, avec un temps d'inférence de 1,78 ms par patch.
Comparaison : Les modèles de fondation comme UNI nécessitent environ 24,89 ms par patch et occupent plus de 1 Go de stockage (303M de paramètres), soit plus de 10 fois le coût computationnel de CustomViT (1,89M de paramètres).

Robustesse au Flou

Sensibilité : Tous les modèles subissent une dégradation significative des performances pour un flou fort ( $\sigma \ge 0,8$ ).
Absence d'avantage qualitatif : Les modèles de fondation ne montrent pas de robustesse intrinsèque supérieure aux modèles compacts. Bien que CustomViT ait la meilleure précision "propre", sa chute de performance sous fort flou est également prononcée.
Type de flou : Il n'y a pas de différence qualitative majeure entre le flou appliqué avant ou après le redimensionnement une fois l'échelle spatiale normalisée.

Échec de certaines architectures

Mécanismes d'attention canal (SE) : L'ajout de blocs Squeeze-and-Excitation (SE-ResNet) et l'utilisation d'EfficientNet se sont révélés contre-productifs pour les petits patches, entraînant une convergence plus lente et une généralisation réduite.
ConvNeXt : Malgré son inspiration par les Transformers, il n'a pas surpassé les CNN classiques dans ce contexte de très faible résolution.

4. Contributions Majeures

Preuve de concept pour les petits patches : Démontre que l'analyse cellulaire sur des patches 40×224 est non seulement possible, mais que des architectures spécifiques peuvent surpasser les modèles de fondation massifs si suffisamment de données sont disponibles.
Optimisation du Vision Transformer : Introduction et validation de CustomViT, une architecture optimisée pour les très petites résolutions, qui offre le meilleur compromis précision/coût.
Limites du Transfer Learning : Identification d'une limite fondamentale pour les modèles de fondation pré-entraînés sur des images de grande taille (224×224) lorsqu'ils sont appliqués à des patches cellulaires (40×40). Le redimensionnement introduit des artefacts et détruit les détails morphologiques fins essentiels.
Analyse de la robustesse : Établissement du fait que la haute précision sur des données propres ne garantit pas une meilleure robustesse au flou, et que les modèles de fondation n'apportent pas d'avantage significatif en termes de résilience dans ce régime spécifique.

5. Signification et Conclusion

Cette étude remet en question la tendance actuelle à l'application systématique de modèles de fondation massifs à tous les problèmes de vision médicale. Elle démontre que pour l'analyse histopathologique au niveau cellulaire sous contraintes spatiales extrêmes :

L'approche "From-Scratch" est supérieure : Dès que le volume de données atteint un seuil critique (environ 2000-4000 échantillons par classe), entraîner une architecture adaptée (comme un Vision Transformer léger) de zéro est plus efficace, plus précis et beaucoup moins coûteux en calcul que d'utiliser un modèle de fondation.
L'adéquation architecture-tâche est cruciale : Les designs optimisés pour des images naturelles de grande taille (avec des mécanismes d'attention hiérarchique ou des noyaux larges) ne se transfèrent pas bien aux micro-images cellulaires.
Impact clinique : L'utilisation de modèles comme CustomViT permet un déploiement plus rapide et moins coûteux dans les environnements cliniques, tout en offrant une précision diagnostique supérieure pour la classification cellulaire.

En résumé, pour les tâches de classification cellulaire sur de très petits patches, les architectures spécifiques entraînées sur des données suffisantes surpassent les modèles de fondation, offrant un meilleur équilibre entre précision, robustesse et efficacité computationnelle.