Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy avanzado (el Modelo de Lenguaje o LLM) que ha leído millones de recetas y libros de cocina. La pregunta que se hacen los autores de este estudio es: ¿Este chef realmente entiende cómo combinar ingredientes para crear un nuevo plato, o solo está memorizando recetas?

En el mundo de la inteligencia artificial, a esto le llamamos "composicionalidad". Es la capacidad de entender que si juntas "rojo" y "manzana", obtienes una "manzana roja" (algo que es una manzana y que es roja), y no una cosa extraña que no tiene sentido.

Aquí te explico qué hicieron los investigadores y qué descubrieron, usando una analogía sencilla:

1. Los Dos Tipos de Pruebas

Los investigadores decidieron mirar al chef de dos maneras diferentes, como si tuvieras dos lentes distintos:

Lente 1: La Prueba de Sabor (Evaluación Funcional).
Aquí le piden al chef: "Aquí tienes una manzana roja. ¿Es una manzana?". Si el chef dice "Sí", aprueba. Si dice "No", reprueba. Esto mide qué tan bien se comporta el chef en la vida real.
Lente 2: El Escáner de Rayos X (Evaluación Representacional).
Aquí no le preguntamos al chef nada. En su lugar, abrimos su cerebro (sus capas internas) y miramos cómo está organizado. Preguntamos: "¿Tiene el chef una sección en su cerebro donde sabe que 'rojo' y 'manzana' se combinan lógicamente?". Esto mide qué sabe el chef por dentro, aunque no lo diga.

2. El Experimento

Probaron a varios chefs (modelos de IA como LLaMA, Gemma, Qwen) de diferentes tamaños:

Pequeños: Chefs novatos.
Grandes: Chefs con mucha experiencia (más parámetros).
Entrenados: Chefs que han pasado por un curso intensivo de instrucciones (Instruction Tuning).

Les dieron tres tipos de retos culinarios:

Sustitución: Si cambias "manzana" por "fruta", ¿sigue siendo una "manzana roja"?
Sistematicidad: Si sabes que "rojo" funciona con "manzana" y que "manzana" es una "fruta", ¿puedes deducir que "rojo" funciona con "fruta"?
Sobre-generalización: ¿Puede el chef distinguir entre "abrigo de trench" (que es un tipo de abrigo) y "traidor" (que suena a "abrigo" pero no lo es)?

3. El Gran Descubrimiento: ¡La Sorpresa!

Aquí es donde la historia se pone interesante. Los resultados mostraron una divergencia extraña:

Por dentro (Rayos X): ¡El chef SÍ sabe! Cuando miraron dentro del cerebro de los modelos, vieron que tenían una estructura muy clara y organizada para entender cómo se combinan las palabras. Sabían que "rojo" modifica a "manzana". Esto era cierto incluso en los modelos pequeños y en los grandes. El conocimiento estaba ahí.
Por fuera (Prueba de Sabor): ¡El chef a veces NO lo hace! Cuando les pidieron que respondieran a las preguntas, los modelos más grandes o los que habían sido "entrenados" con instrucciones a veces fallaban. A veces decían cosas incorrectas, como si hubieran perdido la confianza o se hubieran confundido por el formato de la pregunta.

La analogía final:
Imagina a un estudiante que ha estudiado todo el libro de matemáticas y entiende perfectamente la teoría (su cerebro está lleno de fórmulas correctas). Pero cuando le ponen un examen con un formato extraño o le preguntan de una manera muy directa, se pone nervioso y falla.

El estudio dice: "El modelo sabe la respuesta (tiene el conocimiento interno), pero no siempre logra expresarla correctamente en la tarea (falla en la conducta externa)."

4. ¿Por qué es importante esto?

Antes, pensábamos que si un modelo era más grande o estaba más entrenado, sería "mejor" en todo. Este estudio nos dice que no es tan simple.

Si solo miramos si el modelo responde bien (la prueba de sabor), podríamos pensar que es tonto o que no entiende la lógica.
Si solo miramos su cerebro (el escáner), podríamos pensar que es un genio.

La lección: Para entender realmente a una Inteligencia Artificial, necesitamos usar ambos lentes. No basta con ver si responde bien; hay que entender qué está pasando dentro de su "cabeza". A veces, el problema no es que la IA no sepa, sino que no sabe cómo decirlo en ese momento específico.

En resumen

Los autores nos dicen que las IAs actuales tienen un conocimiento interno muy sólido sobre cómo funcionan las palabras, pero a veces se les atasca la lengua al intentar demostrarlo en tareas prácticas. Por eso, para evaluarlas bien, no debemos confiar solo en sus respuestas, sino también en cómo piensan.

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

1. Los Dos Tipos de Pruebas

2. El Experimento

3. El Gran Descubrimiento: ¡La Sorpresa!

4. ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología

A. Tareas de Evaluación Funcional (Basadas en Prompts)

B. Configuración Experimental

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

1. Los Dos Tipos de Pruebas

2. El Experimento

3. El Gran Descubrimiento: ¡La Sorpresa!

4. ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología

A. Tareas de Evaluación Funcional (Basadas en Prompts)

B. Configuración Experimental

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models