Context-Dependent Affordance Computation in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Caméléon Numérique : Comment les IA voient le monde selon qui elles sont

Imaginez que vous regardez une photo d'une cuisine.

Si vous êtes un chef, vous voyez un four prêt à chauffer, un couteau affûté et une planche à découper.
Si vous êtes un sécurité, vous voyez un couteau dangereux, une fenêtre ouverte et un sol glissant.
Si vous êtes un enfant, vous voyez une chaise pour grimper, un tabouret pour jouer et des miettes à manger.

Le monde physique (la photo) n'a pas changé. Mais ce que vous voyez et ce qui compte pour vous a totalement changé.

C'est exactement ce que cette étude a découvert chez les intelligences artificielles (les modèles de vision-linguistique).

1. Le mythe du "Photographe Neutre"

Pendant longtemps, les informaticiens pensaient que les IA fonctionnaient comme une caméra objective :

Elles prenaient une photo.
Elles mesuraient les formes et les couleurs (la géométrie).
Elles identifiaient les objets (une table, une chaise).
Ensuite seulement, elles essayaient de deviner à quoi ça servait.

C'est comme si l'IA disait : "Je vois d'abord un rectangle en bois avec quatre pieds, et ensuite je me demande si c'est une table."

2. La Révolution : L'IA est un "Acteur"

Cette étude a prouvé que c'est faux. Les IA modernes ne sont pas des caméras neutres. Elles sont comme des acteurs de théâtre qui entrent en scène avec un rôle précis.

Les chercheurs ont demandé à une IA de décrire la même image 7 fois, en lui disant à chaque fois : "Tu es un chef", "Tu es un agent de sécurité", "Tu es un enfant en fauteuil roulant", etc.

Le résultat est stupéfiant :

Quand l'IA joue le rôle du chef, elle décrit la scène avec 90 % de mots différents que quand elle joue le rôle de l'agent de sécurité.
Elle ne voit pas les mêmes objets. Elle ne parle pas des mêmes choses.
En fait, plus de 90 % de ce que l'IA "voit" dépend de son objectif du moment.

C'est comme si l'IA avait des lunettes magiques. Si elle met les lunettes "Chef", tout devient une cuisine. Si elle met les lunettes "Sécurité", tout devient un champ de bataille potentiel.

3. L'Analogie du "Menu à la Carte" (Just-In-Time)

Imaginez que vous construisez une maison.

L'ancienne méthode (Modèle Statique) : Vous construisez d'abord toutes les pièces, tous les meubles, tous les détails de la maison, même si vous ne savez pas encore qui va habiter dedans. C'est lent et gaspilleur.
La nouvelle méthode (Ontologie Juste-à-Temps) : Vous ne construisez que la pièce dont vous avez besoin maintenant. Si le client veut cuisiner, vous construisez la cuisine. S'il veut jouer, vous construisez le salon.

Les chercheurs suggèrent que les robots et les IA devraient fonctionner ainsi. Au lieu de garder une "mémoire du monde" fixe et rigide, ils devraient construire leur compréhension de la réalité à la demande, en fonction de ce qu'ils doivent faire à l'instant T.

4. Pourquoi est-ce important ?

Cela change la façon dont nous devrions concevoir les robots pour le futur.

Pour les robots : Un robot qui aide un humain à cuisiner ne doit pas perdre de temps à analyser la solidité du sol (sauf si c'est urgent). Il doit immédiatement voir les ingrédients et les ustensiles.
Pour la compréhension humaine : Cela montre que nos propres cerveaux fonctionnent probablement de la même manière. Nous ne voyons pas le monde "tel qu'il est", mais "tel que nous en avons besoin". Notre cerveau filtre le monde pour nous montrer ce qui est utile pour notre tâche actuelle.

En résumé

Cette étude nous dit que la réalité n'est pas une photo fixe, mais un film qui change selon le personnage principal.

Les intelligences artificielles ont appris, en étudiant des millions d'images et de textes, que pour comprendre le monde, il faut d'abord savoir qui on est et ce qu'on veut faire. La géométrie (les formes) n'est que le décor ; le sens (l'action) est le vrai moteur de la vision.

C'est une découverte majeure : pour que les robots soient vraiment intelligents, ils ne doivent pas seulement "voir" le monde, ils doivent savoir pourquoi ils le regardent.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Calcul d'Affordances Dépendant du Contexte dans les Modèles Vision-Langage

1. Problématique et Contexte

L'article remet en question l'hypothèse implicite de la vision par ordinateur traditionnelle, qui postule un pipeline de traitement séquentiel et hiérarchique : extraction géométrique des pixels $\rightarrow$ reconnaissance d'objets $\rightarrow$ compréhension du contexte $\rightarrow$ calcul des affordances (possibilités d'action). Cette approche, qualifiée de « géométrie d'abord », suppose que la structure spatiale est fixe et neutre, indépendamment de l'agent ou de sa tâche.

Les auteurs proposent une architecture alternative : « Sémantique d'abord » (Semantic-First). Selon cette hypothèse, inspirée par la psychologie écologique (Gibson), la phénoménologie et les neurosciences cognitives, l'interprétation fonctionnelle (affordance) précède et structure la représentation géométrique. L'objectif est de vérifier si les Modèles Vision-Langage (VLM), entraînés sur des données naturelles, exhibent un comportement où la compréhension fonctionnelle d'une scène est radicalement dépendante du contexte de l'agent (ses objectifs, son état moteur, son histoire).

2. Méthodologie

L'étude repose sur une analyse computationnelle à grande échelle utilisant des modèles de langage multimodaux comme agents cognitifs proxy.

Données : Sous-ensemble du jeu de données COCO-2017 (479 images, 3 213 paires scène-contexte valides).
Modèles :
- Qwen-VL-30B (modèle principal).
- LLaVA-1.5-13B (pour la réplication et la validation de la généralisation architecturale).
Protocole Expérimental :
- Primes de Contexte (Personas) : Pour chaque image, le modèle a été interrogé sous 7 conditions d'agents distinctes (Tableau 1) :
  - Neutre (Analyse objective)
  - Chef (Préparation culinaire)
  - Sécurité (Évaluation des vulnérabilités/tactique)
  - Enfant (Jeu et exploration)
  - Mobilité (Utilisateur de fauteuil roulant)
  - Urgence (Survie immédiate)
  - Loisir (Détente sans pression temporelle)
- Extraction : Le modèle devait générer une réponse structurée (JSON) listant les objets, leurs affordances et leur raisonnement.
Mesures et Analyses :
- Similarité Jaccard : Calculée au niveau des mots (lexique) et des objets pour quantifier la divergence des descriptions fonctionnelles entre les contextes.
- Décomposition de Tucker : Appliquée sur les embeddings des textes d'affordances (via sentence-transformers) pour révéler la structure latente des facteurs fonctionnels.
- Contrôles Stochastiques : 7 000 inférences avec différentes graines aléatoires et températures (0.0 à 1.0) pour distinguer le bruit de génération des effets réels du contexte.
- Comparaison Humaine : Benchmarking contre les annotations du projet Visual Genome.

3. Résultats Clés

A. Dérive Massive des Affordances (Context-Dependent Drift)
Les résultats montrent une instabilité fonctionnelle extrême selon le contexte :

Similarité Lexicale : La similarité Jaccard moyenne entre les descriptions d'affordances de différents contextes est de 0,095 (IC 95% : [0,093, 0,096]). Cela signifie que plus de 90% du vocabulaire descriptif change selon l'agent.
Similarité Sémantique : Au niveau des embeddings de phrases (cosinus), la similarité moyenne est de 0,415, indiquant que même au niveau sémantique, 58,5% de la variance est dépendante du contexte.
Généralisation : La dérive est observée de manière cohérente sur deux architectures différentes (Qwen-VL et LLaVA), suggérant que ce n'est pas un artefact d'un modèle spécifique mais une propriété émergente des VLM entraînés sur des données naturelles.

B. Structure Latente Stable
La décomposition de Tucker a révélé des facteurs latents orthogonaux et interprétables, prouvant que la dépendance au contexte n'est pas du bruit diffus mais structurée :

Manifold Culinaire (Dim2) : Isolé presque exclusivement au contexte « Chef » (charge de 0,95).
Axe d'Accès (Dim3) : Capture le contraste entre l'« Enfant » (espace ouvert/jeu, +0,72) et la « Mobilité » (obstruction/contrainte, -0,60).
Saillance Générale (Dim1) : Représente moins de 1% de la variance, correspondant aux caractéristiques géométriques invariantes.

C. Validation des Contrôles

Les expériences de contrôle stochastique confirment que la variance entre les primes (contextes) est nettement supérieure à la variance intra-prime (bruit de génération), avec des ratios de variance > 3 à toutes les températures.
Les résultats sont robustes aux changements de métriques (Jaccard filtré, similarité cosinus) et à la stabilité des facteurs (analyse de bootstrap).

4. Contributions Principales

Preuve Empirique de la Dépendance Contextuelle : Quantification de la dérive des affordances (>90% de changement lexical), démontrant que les VLM ne construisent pas de modèles du monde statiques, mais des projections dynamiques basées sur la tâche.
Proposition Théorique « Sémantique d'abord » : Soutien à l'hypothèse selon laquelle l'interprétation fonctionnelle structure la représentation géométrique, inversant le pipeline classique de la vision par ordinateur.
Concept de « Ontologie Juste-à-Temps » (JIT Ontology) : Proposition d'un nouveau paradigme pour la robotique et l'IA incarnée. Au lieu de maintenir un modèle du monde statique et complet (souvent inutile), les systèmes devraient projeter une ontologie spatiale spécifique à la tâche uniquement au moment de la requête.
Méthodologie de Décomposition : Introduction de l'analyse tensorielle (Tucker) pour cartographier la structure latente des affordances, révélant des dimensions fonctionnelles distinctes (Culinaire, Accès, Saillance).

5. Signification et Implications

Pour la Robotique : Les architectures actuelles qui traitent le contexte comme une entrée auxiliaire sous-estiment son rôle constitutif. Si 90% de l'information fonctionnelle varie avec la tâche, les modèles statiques calculent principalement des structures non pertinentes. L'approche JIT Ontology (comme dans VoxPoser) est présentée comme une voie plus efficace pour l'interaction robotique.
Pour la Vision par Ordinateur : Les résultats suggèrent que le traitement géométrique fin (détection d'objets précise) pourrait être un résidu (moins de 10% de la variance) par rapport à la détection fonctionnelle. Les architectures futures devraient intégrer le contexte de l'agent comme entrée de premier ordre.
Pour les Sciences Cognitives : Bien que l'étude ne prouve pas le mécanisme biologique, elle démontre la viabilité computationnelle d'une architecture de perception « sémantique d'abord ». Cela soutient les théories de la cognition incarnée et de l'attention sélective (l'« inattention blindness » n'est pas un bug, mais une optimisation pour filtrer la géométrie non pertinente).

Limites et Avenir :
L'étude se base sur des comportements de sortie (output behavior) et non sur l'analyse interne des représentations (probing des couches). Les auteurs précisent qu'ils ne prétendent pas avoir prouvé l'ordre de traitement causal interne des modèles, mais ont démontré un comportement fonctionnel massif. Les travaux futurs devront inclure des validations comportementales humaines, des sondes d'attention et des tests sur des modèles plus avancés (GPT-4V, Gemini).

En conclusion, ce papier établit que la compréhension visuelle dans les systèmes modernes d'IA est fondamentalement contextuelle et dynamique, remettant en cause la notion d'un modèle du monde unique et fixe.

Context-Dependent Affordance Computation in Vision-Language Models

🎭 Le Caméléon Numérique : Comment les IA voient le monde selon qui elles sont

1. Le mythe du "Photographe Neutre"

2. La Révolution : L'IA est un "Acteur"

3. L'Analogie du "Menu à la Carte" (Just-In-Time)

4. Pourquoi est-ce important ?

En résumé

Résumé Technique : Calcul d'Affordances Dépendant du Contexte dans les Modèles Vision-Langage

1. Problématique et Contexte

2. Méthodologie

3. Résultats Clés

4. Contributions Principales

5. Signification et Implications

Articles similaires

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers