💬 NLP

Lexical Consensus: Grounded Word Learning and Shared Meaning in Artificial Agents

Ce document introduit le cadre du Consensus Lexical pour démontrer que les agents artificiels peuvent acquérir et stabiliser des significations de mots ancrées sur la distance perceptuelle plutôt que sur la parenté sémantique, révélant un gradient d'apprentissage robuste où les catégories natives sont les plus faciles à apprendre tandis que les concepts lointainement disjonctifs approchent du hasard, et soulignant que la dénomination et la récupération bidirectionnelles reposent sur des mécanismes distincts au sein de géométries perceptuelles figées.

Auteurs originaux : Patricio M. Vera

Publié 2026-06-23

📖 6 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Patricio M. Vera

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous apprenez à parler à un robot, mais au lieu de lui donner un dictionnaire rempli de définitions, vous pointez des images du doigt en disant : « Ceci est un slithy », ou « Cela est un vorpal ». Le robot n'a jamais entendu ces mots auparavant, et ils ne signifient rien pour lui pour l'instant. La grande question que pose ce document est la suivante : Le robot peut-il réellement apprendre ce que signifient ces mots simplement en regardant des images, et s'en souviendra-t-il plus tard ?

Les chercheurs, dirigés par P. M. Vera, ont construit une expérience spéciale appelée Consensus Lexical pour tester cela. Voici comment elle fonctionne, expliquée à travers des analogies simples.

1. Les « yeux » du robot sont déjà organisés

Avant que le robot n'apprenne des mots, on lui donne un ensemble d'« yeux » (un modèle de vision par ordinateur pré-entraîné appelé DINOv2). Considérez ces yeux comme une bibliothèque hautement organisée.

La bibliothèque possède déjà des livres classés par genre. Tous les livres sur les « grenouilles » sont sur une étagère, tous les livres sur les « chevaux » sur une autre, et tous les livres sur les « navires » sur une troisième.
Le robot n'apprend pas à voir ; il utilise simplement cette bibliothèque pré-organisée. Les chercheurs voulaient voir si le robot pouvait apprendre à apposer de nouveaux étiquettes sur ces étagères existantes.

2. Le vocabulaire « Carroll »

Au lieu d'utiliser des mots normaux comme « chien » ou « voiture », les chercheurs ont utilisé des mots inventés tirés de Alice au Pays des Merveilles de Lewis Carroll (comme slithy, mimsy et vorpal).

Pourquoi ? Parce que si vous utilisez le mot « chien », le robot pourrait déjà savoir ce qu'est un chien grâce à son entraînement préalable. En utilisant des mots absurdes, les chercheurs s'assurent que le robot apprend la signification uniquement à partir des images qu'ils lui montrent, et non de ce qu'il savait déjà.

3. Les quatre niveaux de difficulté (La « sculpture de concepts »)

Les chercheurs ont testé le robot avec quatre types de leçons différents pour voir à quel point l'apprentissage était difficile :

Niveau 1 : Concepts Natifs (Les étagères faciles).
- La leçon : « Ce mot slithy signifie uniquement les grenouilles. »
- Le résultat : Le robot a appris cela instantanément. C'est comme coller une nouvelle étiquette de nom sur une étagère qui était déjà parfaitement organisée.
Niveau 2 : Surextensions Cohérentes (Les étagères liées).
- La leçon : « Ce mot mimsy signifie les grenouilles ET les crapauds » (des choses qui se ressemblent).
- Le résultat : Le robot a quand même très bien appris cela. C'est comme mettre une étiquette de nom sur deux étagères qui sont juste à côté l'une de l'autre.
Niveau 3 : Disjonction de milieu de gamme (Les étagères distantes).
- La leçon : « Ce mot vorpal signifie les grenouilles ET les navires » (des choses qui sont quelque peu différentes).
- Le résultat : Le robot a commencé à avoir des difficultés. Il s'est trompé de sens plus souvent.
Niveau 4 : Disjonction lointaine (Les étagères opposées).
- La leçon : « Ce mot gimble signifie les grenouilles ET les avions » (des choses totalement sans rapport et très éloignées dans la bibliothèque).
- Le résultat : Le robot a échoué. Ses performances n'étaient pas meilleures que s'il avait simplement répondu au hasard.

La Grande Découverte : Le robot n'a pas appris les mots en fonction de la « logique » du groupe. Il a appris en fonction de la proximité visuelle des images entre elles dans sa bibliothèque interne. Si les images étaient voisines, le robot apprenait le mot. Si les images étaient des étrangères vivant dans des parties différentes de la bibliothèque, le robot ne pouvait pas apprendre le mot.

4. Le test du « Nom » vs la « Mémoire »

Les chercheurs ont testé le robot de deux manières :

Nommer (Image $\to$ Mot) : Montrer une image, demander « Qu'est-ce que c'est ? »
Récupérer (Mot $\to$ Image) : Dire « Montre-moi un slithy », et demander au robot de choisir la bonne image dans un tas.

Ils ont découvert que ce sont deux compétences différentes.

Pour Nommer, une mémoire « moyenne » simple fonctionnait bien.
Pour Récupérer, le robot était bien meilleur s'il se souvenait d'exemples spécifiques (comme un album photo) plutôt que d'une image « moyenne ». Il est plus facile de trouver un ami spécifique dans une foule si vous vous souvenez de son visage, plutôt que de simplement vous souvenir de ce à quoi ressemble une « personne moyenne ».

5. La discussion de groupe des robots (Consensus)

Les chercheurs ont ensuite placé de nombreux robots dans une pièce et les ont laissé discuter entre eux pour se mettre d'accord sur la signification des mots.

Le résultat : Les robots se sont rapidement mis d'accord sur ce que les mots signifiaient.
Le bémol : Ils se sont mis d'accord parce qu'ils possédaient tous la même bibliothèque pré-organisée (les mêmes « yeux »). Ils n'ont pas modifié leurs bibliothèques internes pour correspondre aux autres ; ils ont simplement coordonné leurs réponses en se basant sur la bibliothèque qu'ils partageaient déjà. Les mots n'ont pas changé leur façon de voir le monde ; ils ont simplement aidé à se mettre d'accord sur les étiquettes.

6. Les vérifications de « Falsification » (Le robot a-t-il triché ?)

Pour s'assurer que le robot ne se contentait pas de deviner ou de mémoriser des schémas, les chercheurs ont tenté de briser l'expérience :

Étiquettes aléatoires : Ils ont échangé les mots de manière aléatoire. Le robot a échoué.
Images aléatoires : Ils ont donné au robot du bruit aléatoire au lieu de vraies images. Le robot a échoué.
Hors cadre : Ils ont montré au robot des images qu'il n'avait jamais vues auparavant. Le robot a correctement répondu : « Je ne connais pas ce mot ».

L'essentiel

Ce document prouve que pour qu'un agent artificiel apprenne un nouveau mot, le concept doit s'insérer proprement dans la façon dont il voit déjà le monde.

Ce n'est pas de la magie : On ne peut pas simplement apprendre à un robot que « grenouilles = avions » et s'attendre à ce que cela fonctionne.
C'est une question de structure : L'apprentissage se produit lorsque le nouveau mot correspond aux groupes naturels que le robot perçoit déjà.
C'est une limite : Le robot peut apprendre des mots pour des choses qui se ressemblent, mais il se heurte à un mur lorsqu'on essaie de lui enseigner des mots pour des choses qui n'ont aucun rapport entre elles.

En résumé, l'apprentissage du langage pour l'IA est contraint par la façon dont l'IA voit le monde. Si le monde semble organisé pour l'IA, les mots s'impriment. Si le monde ressemble à un mélange désordonné, les mots s'effondrent.

Résumé Technique : Consensus Lexical

Énoncé du Problème
L'évaluation actuelle de l'intelligence artificielle est principalement organisée autour de la performance aux tâches, de la précision des benchmarks et de l'imitation comportementale. Bien que précieuses, ces mesures ne répondent pas à une question plus profonde : un agent artificiel peut-il acquérir, stabiliser et utiliser de nouveaux sens lexicaux dérivés d'une expérience ancrée ? Plus précisément, il reste incertain si les agents peuvent apprendre de nouvelles correspondances mot-concept à partir d'exemples visuels limités, généraliser ces correspondances de manière bidirectionnelle (image-vers-étiquette et étiquette-vers-image), et les stabiliser entre agents. Ce document s'attaque au fossé entre l'évaluation basée sur l'imitation et l'évaluation basée sur l'acquisition, en demandant si les agents peuvent acquérir un vocabulaire pour leur environnement sans dépendre uniquement d'étiquettes préchargées ou de définitions spécifiques à une tâche.

Méthodologie
Le document introduit le Consensus Lexical, un cadre expérimental reproductible conçu pour évaluer l'acquisition lexicale sur un substrat perceptuel structuré. Le cadre isole l'acquisition lexicale de l'apprentissage perceptuel en utilisant un encodeur perceptuel gelé (DINOv2-small) pour générer des plongements visuels (embeddings). La conception expérimentale comprend les composants suivants :

Lexique Artificiel : Le système utilise des mots non référents de type Carroll (par exemple, slithy, mimsy, vorpal) tirés du vocabulaire de Lewis Carroll. Ces étiquettes sont phonotactiquement plausibles mais expérimentalement non ancrées, entrant dans le système comme des identifiants opaques pour empêcher toute fuite sémantique.
Évaluation par Découpage de Concept (Concept-Carving) : Pour tester si l'acquisition n'est qu'un simple réétiquetage de clusters existants ou si elle dépend de la cohérence perceptuelle, le cadre définit quatre niveaux de concepts basés sur la relation entre le concept enseigné et la géométrie perceptuelle gelée :
1. Concepts natifs : Une étiquette correspond à une catégorie visuelle native.
2. Concepts quasi-disjonctifs : Les étiquettes regroupent des catégories perceptuellement cohérentes (sur-extensions).
3. Concepts moyennement disjonctifs : Les étiquettes regroupent des catégories présentant une distance perceptuelle intermédiaire.
4. Concepts fortement disjonctifs : Les étiquettes regroupent des catégories perceptuellement distantes (unions arbitraires).
Agents Apprenants : L'étude emploie des apprenants lexicaux interprétables, incluant des apprenants basés sur des centroïdes (réseaux prototypiques avec encodeurs gelés), des apprenants multi-centroïdes, le k-plus proches voisins (k-NN) d'exemplaires, et des bases linéaires (régression logistique, SVM linéaire).
Ancrage Bidirectionnel : L'évaluation se déroule dans deux directions :
- Condition 1 (C1) : Nommage image-vers-étiquette (assigner l'étiquette correcte à une nouvelle image).
- Condition 2 (C2) : Récupération étiquette-vers-image (récupérer une instance valide à partir d'un pool de candidats donné une étiquette).
Consensus Multi-Agents : Une population d'agents entraînés sur des ensembles de graines (seed sets) disjoints interagit pour atteindre un consensus sur l'usage des étiquettes, mesuré par des seuils d'accord et des métriques de l'information (entropie, information mutuelle).
Contrôles de Falsification : Le cadre inclut des contrôles rigoureux tels que l'assignation d'étiquettes aléatoires, des plongements aléatoires, des liaisons permutées entre images et plongements, des tests de rejet de termes hors vocabulaire (OOV), et des évaluations de pools de candidats homogènes pour exclure les explications triviales.

Contributions Clés

Cadre de Consensus Lexical : Une implémentation empirique contrainte du premier test d'acquisition du langage proposé par Vera et al. (2023), fournissant un protocole mesurable pour évaluer comment les agents acquièrent, récupèrent et stabilisent des correspondances de type linguistique.
Gradient de Cohérence Perceptuelle : La démonstration que l'acquisition lexicale n'est pas un apprentissage de ensembles arbitraires, mais suit un gradient monotone régi par la cohérence perceptuelle.
Dissociation de la Perception et de la Sémantique : Une expérience pré-enregistrée sur CIFAR-100 confirmant que la précision de l'acquisition est pilotée par la distance perceptuelle plutôt que par la proximité sémantique.
Distinction Bidirectionnelle : Preuve que le nommage image-vers-étiquette et la récupération étiquette-vers-image exposent des capacités distinctes (compatibilité géométrie-concept vs fidélité de la mémoire).
Résultat Nul sur la Restructuration Représentationnelle : Résultats indiquant que, bien que les agents puissent converger vers un usage lexical partagé, ce consensus ne restructure pas substantiellement les représentations perceptuelles internes sous l'architecture actuelle.

Résultats

Gradient d'Acquisition : La précision du nommage (C1) suit un gradient de cohérence perceptuelle robuste et monotone. Les catégories natives sont acquises avec une précision quasi parfaite. Les sur-extensions cohérentes restent hautement apprenables. Les concepts moyennement disjonctifs montrent une dégradation partielle, et les concepts fortement disjonctifs se dégradent jusqu'à des niveaux proches du hasard. Ce schéma se maintient à travers les apprenants par centroïde, par exemplaire et linéaires.
Pilotes Perceptuels vs Sémantiques : Dans l'expérience de dissociation, où les distances perceptuelles et sémantiques divergeaient, la précision de l'acquisition suivait le prédicteur perceptuel (partiel $R^2 = 0,245, p < 10^{-7}$ ). Le prédicteur sémantique n'ajoutait aucune puissance explicative significative (partiel $R^2 = 0,002, p = 0,660$ ). Cela confirme que le gradient est une propriété de la géométrie du substrat perceptuel, et non un artefact de mesure.
Dynamique de Récupération : La récupération étiquette-vers-image (C2) révèle une dimension de fidélité de la mémoire. Les mécanismes basés sur les exemplaires surpassent systématiquement les prototypes de centroïdes compressés, particulièrement pour les concepts cohérents mais multimodaux. Les bases discriminantes linéaires récupèrent une structure supplémentaire sous des pools de candidats difficiles.
Consensus et Alignement : Les expériences multi-agents montrent que les agents peuvent converger vers un vocabulaire partagé, et que le feedback améliore l'accord. Cependant, la base de référence sans feedback atteint déjà un haut niveau de précision de consensus, suggérant que la géométrie perceptuelle partagée est la force de stabilisation dominante. Crucialement, le feedback de consensus ne réduit pas significativement les distances entre les centroïdes inter-agents ni ne remodèle les représentations internes.
Falsification : L'effet d'ancrage s'effondre lorsque les plongements sont randomisés ou que les liaisons image-plongement sont permutées, confirmant que l'ancrage correct dépend du substrat perceptuel et de sa liaison avec les étiquettes.

Signification et Revendications
Le document positionne le Consensus Lexical non pas comme une solution à l'acquisition complète du langage artificiel, mais comme un échafaudage empirique contraint pour étudier les limites de l'apprentissage lexical ancré.

La signification primaire est la démonstration que l'acquisition lexicale précoce est contrainte par la cohérence perceptuelle. Les agents apprennent les étiquettes plus fiablement lorsque les concepts enseignés correspondent à des régions cohérentes de l'espace perceptuel. À mesure que les concepts enseignés traversent des régions distantes de cet espace, la performance se dégrade. Cela recadre le rôle du substrat perceptuel : sa structure n'est pas simplement un facteur de confusion à masquer, mais la condition sous laquelle l'acquisition devient mesurable.

En outre, le document affirme que l'accord lexical partagé ne doit pas faire l'objet d'une surinterprétation en tant que transformation représentationnelle. Bien que les agents puissent coordonner des décisions sur une géométrie perceptuelle partagée, l'architecture actuelle montre que le feedback lexical seul ne réorganise pas les plongements perceptuels sous-jacents.

En fin de compte, ce travail plaide pour un changement dans l'évaluation de l'IA, passant de mesures de performance statiques à des tests basés sur l'acquisition qui mesurent comment les agents acquièrent, récupèrent et stabilisent le sens sous des contraintes perceptuelles. Il établit que, bien que les agents puissent acquérir et partager des correspondances lexicales sur une perception gelée, la portée de ce qui peut être appris est strictement délimitée par l'alignement entre le concept enseigné et la géométrie perceptuelle disponible.