Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Secret des IA : Elles voient mieux qu'elles ne parlent

Imaginez que vous avez un ami très intelligent, disons un génie de la géométrie. Ce génie peut regarder une photo de votre main et dire exactement comment vos doigts sont pliés, avec une précision incroyable. Mais il y a un problème : ce génie est aussi un peu timide et mal à l'aise avec les mots.

Quand vous lui demandez : "Combien mes doigts sont-ils pliés ?", il essaie de vous répondre avec des mots, mais il bafouille, se trompe de chiffres et vous donne une réponse approximative. Pourtant, si vous lui montrez ce qu'il a vu dans son esprit (ses "pensées" brutes), il peut vous donner la réponse exacte.

C'est exactement ce que découvre cette étude sur les modèles d'intelligence artificielle (les "Foundation Models") :

Leur cerveau (la vision) est un expert en géométrie.
Leur bouche (le texte) est un goulot d'étranglement qui gâche cette précision.

🕵️‍♂️ L'Expérience : Le Détective et le Traducteur

Les chercheurs ont voulu tester cette théorie avec 14 modèles d'IA différents (comme des versions de ChatGPT ou d'autres IA visuelles).

Le scénario :
Ils ont montré des photos de mains, de visages et d'objets à ces IA.

Test A (La bouche) : Ils ont demandé à l'IA de décrire l'angle des doigts en mots.
- Résultat : L'IA a fait beaucoup d'erreurs (environ 20 degrés d'erreur). C'est comme si elle disait "mon doigt est presque droit" alors qu'il est plié à 45 degrés.
Test B (Le cerveau) : Au lieu de demander des mots, les chercheurs ont regardé directement les "pensées" de l'IA (ses données internes) et ont utilisé un petit outil mathématique simple (un "probe") pour lire ces pensées.
- Résultat : L'IA a donné la réponse exacte avec une erreur minuscule (environ 6 degrés).

La leçon : L'IA sait la géométrie, mais elle ne sait pas bien la dire. C'est comme un pianiste virtuose qui a oublié comment parler, mais dont les doigts savent jouer la partition parfaitement.

🛠️ La Solution : Le "Traducteur" Magique (LoRA)

Si l'IA a la réponse dans sa tête mais ne sait pas la dire, comment faire ?
Les chercheurs ont utilisé une astuce appelée LoRA (Low-Rank Adaptation).

L'analogie : Imaginez que le génie géométrique a un cerveau brillant, mais qu'il parle une langue étrangère que nous ne comprenons pas. Au lieu de réapprendre tout le génie (ce qui coûterait des millions de dollars et des mois de temps), on lui donne juste un petit dictionnaire de poche (le LoRA).
Le résultat : Avec ce petit dictionnaire entraîné sur seulement 2 000 images (très peu !), l'IA réussit enfin à traduire ses pensées géométriques précises en mots humains. Elle passe d'une erreur de 20 degrés à 6 degrés.

Cela prouve que le problème n'était pas que l'IA était "bête" en géométrie, mais que le chemin entre son cerveau et sa bouche était mal construit.

🎨 L'Étrange Convergence : Des Chemins Différents, Même Destination

Le papier révèle quelque chose de fascinant sur la façon dont ces IA apprennent.

Les chercheurs ont comparé des IA qui ont appris de façons très différentes :

Certaines ont appris en regardant des millions d'images sans texte (comme un enfant qui observe le monde).
D'autres ont appris en associant des images à des mots (comme un élève qui apprend avec un manuel).
D'autres encore sont des réseaux de neurones très différents (des "Transformers" vs des "CNN").

Le miracle : Malgré des architectures totalement différentes et des façons d'apprendre opposées, toutes ces IA en sont arrivées au même endroit. Elles ont toutes développé une compréhension de la géométrie aussi bonne.

L'analogie : Imaginez cinq randonneurs qui partent de cinq sommets de montagnes différents, avec des cartes différentes et des chaussures différentes. Pourtant, ils arrivent tous exactement au même point précis au sommet, avec la même vue.
Cela suggère que la géométrie est une "vérité universelle" que l'IA finit par découvrir, peu importe comment elle est entraînée.

📏 Pourquoi est-ce important pour nous ?

Économie d'argent et d'énergie : Au lieu de créer un nouveau logiciel spécial pour chaque tâche (un pour les mains, un pour les têtes, un pour les caméras), on peut utiliser un seul modèle géant déjà existant. On lui ajoute juste un petit "module" de 6 000 paramètres (très léger) pour chaque nouvelle tâche. C'est comme utiliser le même moteur de voiture pour faire du rallye, de la ville ou du tout-terrain, en changeant juste les pneus.
Plus de précision : On peut maintenant utiliser ces IA pour des tâches de mesure précise (comme la chirurgie assistée par ordinateur ou la robotique) sans avoir à tout réapprendre.
Comprendre l'IA : Cela nous aide à savoir que quand une IA semble "bête" en parlant, ce n'est pas forcément qu'elle ne comprend pas. Il faut parfois juste savoir comment lui poser la bonne question ou comment lire dans ses pensées.

En résumé

Ces modèles d'intelligence artificielle sont des géomètres silencieux. Ils voient le monde en 3D avec une précision incroyable, mais ils sont souvent bloqués par leur capacité à formuler cette précision en mots. En utilisant de petites astuces pour "débloquer" leur langage, nous pouvons transformer ces modèles génériques en outils de mesure ultra-précis, peu coûteux et polyvalents.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de fondation vision-langage (VLM) sont de plus en plus utilisés pour des tâches visuelles quantitatives. Cependant, il existe un écart significatif entre la capacité des modèles à encoder des informations géométriques continues dans leurs représentations internes et leur capacité à exprimer ces informations via leur sortie textuelle.

Le goulot d'étranglement textuel : Les praticiens qui interrogent ces modèles par des prompts textuels obtiennent des estimations imprécises (erreurs de 20° à 39°).
Hypothèse centrale : L'imprécision provient-elle d'une limitation fondamentale de la représentation visuelle (le modèle "ne voit" pas la géométrie) ou d'un déficit de l'interface de génération textuelle (le modèle "sait" mais ne peut pas le dire) ?
Objectif de l'étude : Déterminer si les caractéristiques figées (frozen features) des modèles de fondation encodent des mesures géométriques continues (angles de joints, pose, intrinsèques caméra) et identifier la source des erreurs de prédiction.

2. Méthodologie

Les auteurs ont conçu une approche systématique pour sonder (probe) les caractéristiques internes de quatorze modèles de fondation différents sans les réentraîner massivement.

Données et Tâches :
- FreiHAND : 32 560 images de mains avec 21 points clés 3D (angles de flexion des doigts).
- BIWI : Images de têtes pour l'estimation de la pose (yaw, pitch, roll).
- YCB-Video : Pose d'objets rigides (6DoF).
- MPIIFaceGaze : Direction du regard.
Architecture de sondage :
- Extraction des activations cachées ( $H^{(\ell)}$ ) à différentes couches $\ell$ de modèles figés.
- Mise en moyenne spatiale (mean-pooling) pour obtenir un vecteur global $\bar{h}_i$ .
- Utilisation d'une sonde linéaire (régression ridge à rang réduit - RRR) pour mapper les caractéristiques aux cibles continues (en degrés).
- Comparaison avec la génération de texte (prompts directs, few-shot, Chain-of-Thought) et un fine-tuning léger (LoRA).
Modèles évalués : 14 modèles couvrant des paradigmes variés : auto-supervisés (DINOv2/3), contrastifs (CLIP, SigLIP), hybrides (SigLIP 2, InternViT) et VLM génératifs (Qwen, Gemma).
Évaluation statistique : Utilisation de l'erreur moyenne absolue (MAE), du coefficient de détermination ( $R^2$ ), de tests d'équivalence TOST, et de validations croisées imbriquées (10-fold CV).

3. Contributions Clés

Le goulot d'étranglement est un déficit d'entraînement de la voie, pas de la représentation :
- Les sondes linéaires sur des caractéristiques figées atteignent une précision de 6,1° MAE sur les angles des joints de la main.
- La génération de texte (même avec few-shot) plafonne à 20,0° MAE.
- Un écart de 3,3x existe entre la capacité de lecture directe des features et la capacité de l'interface textuelle.
- Le fine-tuning LoRA (r=16, 2 000 images) réduit cet écart à 6,5°, prouvant que la géométrie est bien encodée mais mal routée vers le décodeur textuel.
L'objectif d'entraînement prime sur l'architecture :
- Cinq encodeurs visuels très différents (DINOv3, SigLIP 2, CLIP, etc.) convergent vers une précision statistiquement équivalente ( $R^2 \approx 0,55$ ) malgré une similarité de représentation faible (CKA aussi bas que 0,41).
- Cela démontre une convergence fonctionnelle sans convergence représentationnelle, étendant l'hypothèse de la "représentation platonicienne" aux cibles géométriques continues.
- Les modèles auto-supervisés/contrastifs surpassent les modèles supervisés (CNN, ViT entraînés sur ImageNet) de 0,15 en $R^2$ , indépendamment de l'architecture (ViT vs CNN).
La géométrie est spatialement dépendante de la tâche :
- L'ablation de patches (suppression des patches à forte norme) impacte fortement la pose de tête (images encadrées lâchement, $R^2$ baisse de 0,13) mais pas la pose d'objets (images recadrées, changement négligeable).
- Cela explique pourquoi le pooling par attention améliore les performances sur les visages mais pas sur les objets rigides.

4. Résultats Principaux

Performance des sondes vs Texte :
- Probe figé (SigLIP 2) : 6,14° MAE ( $R^2 = 0,559$ ).
- Texte (Qwen-3B, few-shot) : 20,0° MAE.
- LoRA (Gemma 3) : 6,51° MAE (récupère 79% de la précision de la sonde figée).
- Les modèles génératifs (VLM) dégradent la précision sur les géométries articulées (mains) mais maintiennent une bonne précision sur les objets rigides.
Analyse par couches :
- Le signal géométrique croît monotonement dans les encodeurs visuels (atteignant un pic vers les couches 16-20).
- Dans les décodeurs LLM, le signal géométrique atteint un pic tôt puis décline, confirmant que le traitement autoregressif "oublie" les détails géométriques fins.
- LoRA permet de préserver le signal géométrique dans les couches profondes où le modèle de base le perd.
Convergence fonctionnelle :
- Malgré des similarités de représentation (CKA) très variables entre les modèles, leur capacité à prédire la géométrie est statistiquement identique pour les meilleurs encodeurs.
- Les modèles basés sur CNN (ConvNeXt) sont légèrement inférieurs aux ViT, mais cet écart est dû à la pré-formation (supervisée vs auto-supervisée) et non à l'architecture elle-même.

5. Signification et Impact

Scientifique : L'article réfute l'idée que les VLM manquent de compréhension géométrique. Le problème réside dans la manière dont l'information est extraite et générée. Cela valide l'hypothèse que des représentations fonctionnellement équivalentes peuvent émerger de stratégies représentationnelles très différentes.
Pratique (Déploiement) :
- Approche modulaire : Un seul backbone figé (ex: 300M paramètres) peut servir de capteur géométrique universel. Chaque tâche (pose de main, tête, objet) n'ajoute que ~~6 000 paramètres (la sonde) et nécessite peu de données étiquetées (~~6 400 images).
- Rapport coût/efficacité : Ce ratio de paramètres (50 000:1) est bien inférieur aux modèles spécifiques (ex: MediaPipe, HRNet).
- Sortie humaine : L'utilisation de LoRA permet d'obtenir des réponses textuelles précises sans réentraîner tout le modèle, rendant la géométrie accessible via le langage naturel.

Conclusion : Les modèles de fondation "connaissent" la géométrie de manière latente et précise. L'incapacité à la verbaliser est un problème d'interface (bottleneck textuel) et non de perception. En utilisant des sondes légères ou un fine-tuning ciblé (LoRA), on peut exploiter cette géométrie latente pour des applications de mesure physique continue à faible coût.

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

🧠 Le Grand Secret des IA : Elles voient mieux qu'elles ne parlent

🕵️‍♂️ L'Expérience : Le Détective et le Traducteur

🛠️ La Solution : Le "Traducteur" Magique (LoRA)

🎨 L'Étrange Convergence : Des Chemins Différents, Même Destination

📏 Pourquoi est-ce important pour nous ?

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Impact

Articles similaires

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection