💬 NLP

Lexical Consensus: Grounded Word Learning and Shared Meaning in Artificial Agents

Este artículo introduce el marco de Consenso Léxico para demostrar que los agentes artificiales pueden adquirir y estabilizar significados de palabras anclados en la distancia perceptual en lugar de en la relación semántica, revelando un gradiente de aprendizaje robusto donde las categorías nativas son las más fáciles de aprender mientras que los conceptos disyuntivos lejanos se aproximan al azar, y destacando que la denominación bidireccional y la recuperación dependen de mecanismos distintos dentro de geometrías perceptuales congeladas.

Autores originales: Patricio M. Vera

Publicado 2026-06-23

📖 6 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Patricio M. Vera

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que le estás enseñando a hablar a un robot, pero en lugar de darle un diccionario lleno de definiciones, señalas imágenes y dices: "Esto es un slithy", o "Eso es un vorpal". El robot nunca ha escuchado estas palabras antes y no significan nada para él todavía. La gran pregunta que plantea este artículo es: ¿Puede el robot aprender realmente lo que significan estas palabras solo mirando imágenes, y las recordará más tarde?

Los investigadores, liderados por P. M. Vera, construyeron un experimento especial llamado Consenso Léxico para probar esto. Así es como funciona, explicado mediante analogías sencillas.

1. Los "ojos" del robot ya están organizados

Antes de que el robot aprenda cualquier palabra, se le entrega un conjunto de "ojos" (un modelo de visión computacional preentrenado llamado DINOv2). Piensa en estos ojos como una biblioteca altamente organizada.

La biblioteca ya tiene los libros clasificados por género. Todos los libros de "ranas" están en un estante, todos los de "caballos" en otro y todos los de "barcos" en un tercero.
El robot no aprende a ver; simplemente utiliza esta biblioteca preorganizada. Los investigadores querían ver si el robot podía aprender a poner nuevas etiquetas en estos estantes ya existentes.

2. El vocabulario "Carroll"

En lugar de usar palabras normales como "perro" o "coche", los investigadores utilizaron palabras inventadas de Alicia en el país de las maravillas de Lewis Carroll (como slithy, mimsy y vorpal).

¿Por qué? Porque si usas la palabra "perro", es posible que el robot ya sepa qué es un perro gracias a su entrenamiento previo. Al usar palabras sin sentido, los investigadores se aseguran de que el robot aprenda el significado únicamente de las imágenes que se le muestran, no de algo que ya sabía.

3. Los cuatro niveles de dificultad (La "talla de conceptos")

Los investigadores probaron al robot con cuatro tipos diferentes de lecciones para ver qué tan difícil era aprender:

Nivel 1: Conceptos Nativos (Los estantes fáciles).
- La lección: "Esta palabra slithy significa solo ranas".
- El resultado: El robot aprendió esto instantáneamente. Es como poner una nueva etiqueta de nombre en un estante que ya estaba perfectamente organizado.
Nivel 2: Sobreextensiones Coherentes (Los estantes relacionados).
- La lección: "Esta palabra mimsy significa ranas Y sapos" (cosas que se parecen).
- El resultado: El robot aprendió esto muy bien. Es como poner una etiqueta de nombre en dos estantes que están uno al lado del otro.
Nivel 3: Disyuntiva de Rango Medio (Los estantes distantes).
- La lección: "Esta palabra vorpal significa ranas Y barcos" (cosas que son algo diferentes).
- El resultado: El robot empezó a tener dificultades. Se equivocaba en el significado con más frecuencia.
Nivel 4: Disyuntiva Lejana (Los estantes opuestos).
- La lección: "Esta palabra gimble significa ranas Y aviones" (cosas que no tienen relación y están muy alejadas en la biblioteca).
- El resultado: El robot falló. No tuvo un mejor desempeño que si simplemente estuviera adivinando al azar.

El gran descubrimiento: El robot no aprendió las palabras basándose en qué tan "lógico" era el grupo. Aprendió basándose en qué tan parecidas eran las imágenes entre sí en su biblioteca interna. Si las imágenes eran vecinas, el robot aprendía la palabra. Si las imágenes eran extrañas que vivían en partes diferentes de la biblioteca, el robot no podía aprender la palabra.

4. La prueba de "Nombre" vs. "Memoria"

Los investigadores probaron al robot de dos maneras:

Nombrar (Imagen $\to$ Palabra): Mostrar una imagen y preguntar "¿Qué es esto?".
Recuperar (Palabra $\to$ Imagen): Decir "Muéstrame un slithy" y pedirle al robot que elija la imagen correcta de un montón.

Descubrieron que estas son habilidades distintas.

Para Nombrar, una memoria "promedio" simple funcionaba bien.
Para Recuperar, el robot era mucho mejor si recordaba ejemplos específicos (como un álbum de fotos) en lugar de solo un "promedio" de imagen. Es más fácil encontrar a un amigo específico en una multitud si recuerdas su cara, en lugar de solo recordar "cómo es una persona promedio".

5. El chat grupal de los robots (Consenso)

Los investigadores luego pusieron a muchos robots en una habitación y dejaron que hablaran entre ellos para ponerse de acuerdo sobre los significados de las palabras.

El resultado: Los robots se pusieron de acuerdo rápidamente sobre lo que significaban las palabras.
El detalle: Se pusieron de acuerdo porque todos tenían la misma biblioteca preorganizada (los mismos "ojos"). No cambiaron sus bibliotecas internas para coincidir entre sí; simplemente coordinaron sus respuestas basándose en la biblioteca que ya compartían. Las palabras no cambiaron cómo veían el mundo; solo ayudaron a que se pusieran de acuerdo sobre las etiquetas.

6. Las comprobaciones de "Falsificación" (¿Hizo trampa el robot?)

Para asegurarse de que el robot no estaba simplemente adivinando o memorizando patrones, los investigadores intentaron romper el experimento:

Etiquetas aleatorias: Intercambiaron las palabras al azar. El robot falló.
Imágenes aleatorias: Le dieron ruido aleatorio en lugar de imágenes reales. El robot falló.
Fuera de la caja: Le mostraron al robot imágenes que nunca había visto antes. El robot dijo correctamente: "No conozco esta palabra".

La conclusión final

Este artículo demuestra que, para que un agente artificial aprenda una palabra nueva, el concepto debe encajar perfectamente en cómo ve el mundo.

No es magia: No puedes simplemente enseñarle a un robot que "ranas = aviones" y esperar que funcione.
Se trata de la estructura: El aprendizaje ocurre cuando la nueva palabra coincide con los grupos naturales que el robot ya ve.
Es un límite: El robot puede aprender palabras para cosas que se parecen, pero se topa con un muro cuando intentas enseñarle palabras para cosas que no se parecen en nada.

En resumen, el aprendizaje del lenguaje para la IA está limitado por cómo la IA ve el mundo. Si el mundo parece organizado para la IA, las palabras se quedan grabadas. Si el mundo parece un desorden caótico para la IA, las palabras se desmoronan.

Resumen Técnico: Consenso Léxico

Planteamiento del Problema
La evaluación actual de la inteligencia artificial se organiza predominantemente en torno al rendimiento en tareas, la precisión en pruebas de referencia (benchmarks) y la imitación de comportamientos. Si bien esto es valioso, estas métricas no abordan una cuestión más profunda: si un agente artificial puede adquirir, estabilizar y utilizar nuevos significados léxicos derivados de la experiencia fundamentada (grounded experience). Específicamente, no está claro si los agentes pueden aprender nuevos mapeos palabra-concepto a partir de ejemplos visuales limitados, generalizar estos mapeos bidireccionalmente (imagen-a-etiqueta y etiqueta-a-imagen) y estabilizarlos entre agentes. Este artículo aborda la brecha entre la evaluación basada en la imitación y la evaluación basada en la adquisición, preguntándose si los agentes pueden adquirir vocabulario para su entorno sin depender únicamente de etiquetas precargadas o definiciones específicas de tareas.

Metodología
El artículo introduce el Consenso Léxico, un marco experimental reproducible diseñado para evaluar la adquisición léxica sobre un sustrato perceptual estructurado. El marco aísla la adquisición léxica del aprendizaje perceptual utilizando un codificador perceptual congelado (DINOv2-small) para generar incrustaciones (embeddings) visuales. El diseño experimental incluye los siguientes componentes:

Léxico Artificial: El sistema utiliza palabras no de uso común (nonce words) al estilo de Carroll (por ejemplo, slithy, mimsy, vorpal) extraídas del vocabulario de Lewis Carroll. Estas etiquetas son fonotácticamente plausibles pero experimentalmente no fundamentadas, entrando al sistema como identificadores opacos para prevenir la filtración semántica.
Evaluación de Tallado de Conceptos (Concept-Carving): Para probar si la adquisición es simplemente el reetiquetado de clústeres existentes o si depende de la coherencia perceptual, el marco define cuatro niveles de conceptos basados en la relación entre el concepto enseñado y la geometría perceptual congelada:
1. Conceptos nativos: Una etiqueta corresponde a una categoría visual nativa.
2. Conceptos casi disyuntivos: Las etiquetas agrupan categorías perceptualmente coherentes (sobreextensiones).
3. Conceptos de disyunción media: Las etiquetas agrupan categorías con una distancia perceptual intermedia.
4. Conceptos de disyunción lejana: Las etiquetas agrupan categorías perceptualmente distantes (uniones arbitrarias).
Agentes Aprendices: El estudio emplea aprendices léxicos interpretables, incluyendo aprendices basados en centroides (redes prototípicas con codificadores congelados), aprendices de múltiples centroides, k-NN de ejemplares y líneas base lineales (regresión logística, SVM lineal).
Fundamentación Bidireccional: La evaluación ocurre en dos direcciones:
- Condición 1 (C1): Denominación de imagen-a-etiqueta (asignar la etiqueta correcta a una nueva imagen).
- Condición 2 (C2): Recuperación de etiqueta-a-imagen (recuperar una instancia válida de un grupo de candidatos dada una etiqueta).
Consenso Multi-Agente: Una población de agentes entrenados en conjuntos de semillas disjuntos interactúa para alcanzar un consenso en el uso de etiquetas, medido mediante umbrales de acuerdo y métricas de información teórica (entropía, información mutua).
Controles de Falsificación: El marco incluye controles rigurosos como asignación de etiquetas aleatorias, incrustaciones aleatorias, permutación de los vínculos imagen-incrustación y pruebas de rechazo de vocabulario fuera de registro (out-of-vocabulary o OOV), así como evaluaciones de grupos de candidatos homogéneos para descartar explicaciones triviales.

Contribuciones Clave

Marco de Consenso Léxico: Una implementación empírica restringida de la primera prueba de adquisición del lenguaje propuesta por Vera et al. (2023), que proporciona un protocolo medible para evaluar cómo los agentes adquieren, recuperan y estabilizan mapeos similares al lenguaje.
Gradiente de Coherencia Perceptual: La demostración de que la adquisición léxica no es un aprendizaje de conjuntos arbitrarios, sino que sigue un gradiente monotónico gobernado por la coherencia perceptual.
Disociación de Percepción y Semántica: Un experimento pre-registrado sobre CIFAR-100 que confirma que la precisión de la adquisición es impulsada por la distancia perceptual en lugar de la relación semántica.
Distinción Bidireccional: La evidencia de que la denominación de imagen-a-etiqueta y la recuperación de etiqueta-a-imagen exponen capacidades distintas (compatibilidad de geometría-concepto vs. fidelidad de memoria).
Resultado Nulo en Reestructuración Representacional: Hallazgos que indican que, si bien los agentes pueden converger en un uso compartido de vocabulario, este consenso no reorganiza sustancialmente las representaciones perceptuales internas bajo la arquitectura actual.

Resultados

Gradiente de Adquisición: La precisión de denominación (C1) sigue un gradiente de coherencia perceptual robusto y monotónico. Las categorías nativas se adquieren con una precisión casi perfecta. Las sobreextensiones coherentes siguen siendo altamente aprendibles. Los conceptos de disyunción media muestran una degradación parcial, y los conceptos de disyunción lejana se degradan a niveles cercanos al azar. Este patrón se mantiene a través de aprendices de centroide, de ejemplar y lineales.
Impulsores Perceptuales vs. Semánticos: En el experimento de disociación, donde las distancias perceptual y semántica discrepaban, la precisión de la adquisición rastreó el predictor perceptual (parte $R^2 = 0.245, p < 10^{-7}$ ). El predictor semántico no añadió poder explicativo significativo (parte $R^2 = 0.002, p = 0.660$ ). Esto confirma que el gradiente es una propiedad de la geometría del sustrato perceptual, no un artefacto de la medición.
Dinámicas de Recuperación: La recuperación de etiqueta-a-imagen (C2) revela una dimensión de fidelidad de memoria. Los mecanismos basados en ejemplares superan consistentemente a los prototipos de centroide comprimidos, particularmente para conceptos coherentes pero multimodales. Las líneas base discriminativas lineales recuperan estructura adicional bajo grupos de candidatos difíciles.
Consenso y Alineación: Los experimentos multi-agente muestran que los agentes pueden converger en un vocabulario compartido, y que la retroalimentación mejora el acuerdo. Sin embargo, la línea base sin retroalimentación ya logra una alta precisión de consenso, lo que sugiere que la geometría perceptual compartida es la fuerza estabilizadora dominante. Crucialmente, la retroalimentación de consenso no reduce significativamente las distancias de los centroides entre agentes ni reforma las representaciones internas.
Falsificación: El efecto de fundamentación colapsa cuando las incrustaciones son aleatorizadas o los vínculos imagen-incrustación son permutados, confirmando que la fundamentación correcta depende del sustrato perceptual y su vínculo con las etiquetas.

Significado y Reivindicaciones
El artículo posiciona el Consenso Léxico no como una solución para la adquisición completa del lenguaje artificial, sino como un andamio empírico restringido para estudiar los límites del aprendizaje léxico fundamentado.

La significancia principal es la demostración de que la adquisición léxica temprana está restringida por la coherencia perceptual. Los agentes aprenden etiquetas de manera más confiable cuando los conceptos enseñados corresponden a regiones coherentes del espacio perceptual. A medida que los conceptos enseñados atraviesan regiones distantes de ese espacio, el rendimiento decae. Esto redefine el papel del sustrato perceptual: su estructura no es meramente un factor de confusión que debe ocultarse, sino la condición bajo la cual la adquisición se vuelve medible.

Además, el artículo sostiene que el acuerdo léxico compartido no debe sobreinterpretarse como una transformación representacional. Aunque los agentes pueden coordinar decisiones sobre una geometría perceptual compartida, la arquitectura actual muestra que la retroalimentación léxica por sí sola no reorganiza las incrustaciones perceptuales subyacentes.

En última instancia, el trabajo argumenta por un cambio en la evaluación de la IA: de métricas de rendimiento estáticas hacia pruebas basadas en la adquisición que midan cómo los agentes adquieren, recuperan y estabilizan el significado bajo restricciones perceptuales. Establece que, si bien los agentes pueden adquirir y compartir mapeos léxicos sobre una percepción congelada, el alcance de lo que se puede aprender está estrictamente limitado por la alineación entre el concepto enseñado y la geometría perceptual disponible.