CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que CLIP es como un traductor muy inteligente que ha estudiado millones de fotos y sus descripciones. Su trabajo es entender qué hay en una foto y encontrar la frase perfecta que la describe, o viceversa.

Sin embargo, los científicos se dieron cuenta de que este traductor tenía un problema grave: parecía un "saco de palabras".

El Problema: El "Saco de Palabras"

Imagina que le muestras a CLIP una foto con un cuadrado naranja y un triángulo azul.
Si le pides que busque la descripción correcta entre dos opciones:

"Un cuadrado naranja y un triángulo azul".
"Un cuadrado azul y un triángulo naranja".

CLIP a menudo falla y elige la opción 2. ¿Por qué? Porque actúa como un niño que solo cuenta las palabras: "Veo 'naranja', veo 'azul', veo 'cuadrado', veo 'triángulo'... ¡Bingo! Todas las palabras están ahí, así que debe ser correcto".

No entiende quién lleva qué. No sabe que el naranja pertenece al cuadrado y el azul al triángulo. Es como si mezclara todos los ingredientes en una bolsa y dijera: "Tengo harina, huevos y azúcar, así que seguro es un pastel", sin importar si mezcló los ingredientes en el orden correcto.

La Gran Descubierta: ¡No es tonto, solo está desalineado!

Los autores de este paper se preguntaron: ¿Es que CLIP es realmente tonto y no puede ver la diferencia entre el cuadrado y el triángulo? ¿O es que simplemente no sabe cómo conectar la foto con la frase?

Para averiguarlo, hicieron una prueba genial:

Miraron solo la foto: Le preguntaron a la parte de la foto de CLIP: "¿Qué color tiene el cuadrado?". ¡CLIP lo sabía perfectamente!
Miraron solo el texto: Le preguntaron a la parte del texto: "¿Qué objeto es el que es azul?". ¡CLIP también lo sabía!

La analogía: Imagina que tienes dos personas en una habitación.

La Persona A (la foto) tiene un mapa detallado de quién lleva qué ropa.
La Persona B (el texto) también tiene un mapa detallado de quién lleva qué ropa.
Pero cuando intentan hablar entre ellas, se están entendiendo mal. La Persona A dice "El rojo está a la izquierda", y la Persona B escucha "El rojo está a la derecha".

El problema no es que les falte información (ambos saben la verdad), el problema es que sus "idiomas" o formas de hablar no están sincronizados.

La Solución: Un "Traductor Rápido" (LABCLIP)

En lugar de volver a enseñarles todo desde cero (lo cual sería costoso y lento, como ir a la escuela de nuevo), los investigadores crearon un pequeño "puente" o un filtro mágico.

Llamaron a esto LABCLIP. Es como poner un pequeño adaptador en el auricular de la Persona B (el texto).

Antes: La Persona B hablaba un poco "desenfoque" y la Persona A no entendía sus matices.
Después del adaptador: La Persona B ajusta ligeramente su tono de voz (mediante una transformación matemática simple) y de repente, ¡la Persona A la entiende perfectamente!

¿Qué logran con esto?

Ahorro de energía: No necesitan reentrenar a todo el sistema gigante. Solo ajustan una pequeña capa lineal (como un pequeño interruptor).
Compatibilidad: Funciona con las bases de datos de fotos y textos que ya existen. No hay que borrar nada y empezar de cero.
Resultados: De repente, CLIP deja de ser un "saco de palabras". Ahora sabe que el cuadrado es naranja y el triángulo es azul, y puede encontrar la foto correcta basándose en esa descripción precisa.

En resumen

Este paper nos dice que CLIP ya sabía todo lo necesario para entender la relación entre objetos y sus colores (como un cuadrado naranja). Solo que, al intentar conectar la imagen con el texto, se confundía un poco.

Con un pequeño "ajuste de afinación" (como afinar una guitarra), logramos que CLIP deje de ser un traductor torpe y se convierta en un experto en entender la composición de las escenas, todo sin tener que volver a estudiar desde cero. ¡Es como darle unas gafas nuevas a alguien que ya tenía buena vista, pero que las usaba mal!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "CLIP BEHAVES LIKE A BAG-OF-WORDS MODEL CROSS-MODALLY BUT NOT UNI-MODALLY", publicado en ICLR 2026.

1. El Problema: La Limitación de Composición en CLIP

Los modelos de lenguaje-visión (VLM) como CLIP (Contrastive Language-Image Pretraining) han logrado un éxito notable en diversas tareas, pero presentan una limitación fundamental conocida como composicionalidad. Específicamente, CLIP tiene dificultades para vincular atributos a sus objetos correspondientes en escenas complejas.

Comportamiento "Bag-of-Words" (BoW): Estudios recientes indican que CLIP a menudo trata las imágenes y el texto como conjuntos desordenados de conceptos. Por ejemplo, ante una imagen de "un cuadrado naranja y un triángulo azul", el modelo puede emparejarla incorrectamente con el texto "un cuadrado azul y un triángulo naranja", fallando en distinguir la estructura y la vinculación específica (atributo-objeto).
La Incógnita: La investigación previa ha demostrado este fallo en el espacio cross-modal (imagen-texto), pero no ha determinado la causa raíz. ¿Es que los codificadores (encoders) individuales de imagen y texto carecen de la información de vinculación, o es simplemente un problema de alineación entre las dos modalidades?

2. Metodología y Enfoque Experimental

Los autores proponen una investigación para distinguir si la falta de composicionalidad reside en la codificación unimodal o en la alineación cross-modal. Su metodología se divide en tres fases principales:

A. Evaluación Unimodal (¿Existe la información dentro de cada modalidad?)

Para determinar si los embeddings individuales contienen la información de vinculación, los autores utilizan sondeos lineales (linear probing):

Probing Lineal: Entrenan clasificadores lineales sobre los embeddings congelados de CLIP (tanto de imagen como de texto) para predecir el atributo de un objeto específico en escenas con múltiples objetos.
Pruebas de Robustez: Aumentan el número de objetos en la escena para ver si la capacidad de vinculación se degrada.
Búsqueda Conjunta (Conjunctive Search): Adaptan un experimento donde el modelo debe identificar un objeto definido por una combinación única de atributos (ej. una esfera roja en medio de cubos rojos y esferas verdes) solo basándose en el embedding visual, sin texto.

B. Propuesta de Solución: LABCLIP

Si la información existe unimodalmente pero falla cross-modalmente, la solución debe ser una mejor alineación. Proponen LABCLIP (Linear Attribute Binding CLIP):

Transformación Lineal: En lugar de reentrenar los pesados codificadores de CLIP, aplican una matriz de transformación lineal ( $A$ ) a los embeddings de texto antes del cálculo de similitud coseno con los embeddings de imagen.
Entrenamiento: La matriz $A$ se entrena de forma contrastiva utilizando pares negativos generados permutando los atributos y objetos en las descripciones de texto (ej. cambiar "cubo rojo" por "cubo azul" manteniendo la imagen igual). Esto fuerza al modelo a aprender a distinguir la vinculación correcta.

C. Conjuntos de Datos

Utilizan una mezcla de benchmarks reales (ARO, SugarCrepe, COCO) y conjuntos de datos sintéticos controlados (CLEVR, PUG:SPAR y una nueva variante PUG:SPARE diseñada para eliminar sesgos posicionales) para evaluar rigurosamente la vinculación.

3. Contribuciones Clave

Descubrimiento Fundamental: Demuestran que CLIP no es un modelo Bag-of-Words a nivel unimodal. Los embeddings de imagen y texto individuales ya codican la información de vinculación atributo-objeto de manera linealmente separable.
Diagnóstico de la Causa: Identifican que el fallo de composicionalidad no se debe a la falta de conocimiento en los codificadores, sino a una mala alineación cross-modal. El entrenamiento original de CLIP no incentiva suficientemente la alineación de estas señales de vinculación específicas.
Método Eficiente (LABCLIP): Introducen una capa lineal ligera que recupera la capacidad de vinculación sin necesidad de reentrenar los codificadores de CLIP ni extraer nuevamente las características. Esto ofrece una solución modular y eficiente.

4. Resultados Principales

Evidencia Unimodal:
- Los sondeos lineales alcanzan una precisión cercana al 100% en embeddings de texto y muy alta en embeddings de imagen (ej. 0.96 en CLEVR) para predecir atributos de objetos específicos.
- La capacidad de vinculación se mantiene robusta incluso con un aumento en el número de objetos, especialmente en texto.
- En la búsqueda conjunta, los embeddings visuales permiten distinguir objetos con atributos únicos, algo que un modelo BoW puro no podría hacer.
Mejora Cross-Modal con LABCLIP:
- Rendimiento: LABCLIP mejora drásticamente la precisión en la recuperación de pares imagen-texto correctos frente a permutaciones. En CLEVR, la precisión pasa de ~0.58 (CLIP base) a 0.95 (LABCLIP), acercándose al límite superior de un CLIP totalmente ajustado (fine-tuned).
- Benchmarks Reales: En datasets reales como ARO y SugarCrepe, LABCLIP supera significativamente a CLIP base y compite favorablemente con modelos ajustados (NegCLIP), pero con una fracción de los parámetros aprendibles (solo ~262K parámetros vs. 151M en el ajuste completo).
- Eficiencia: El entrenamiento de la capa lineal es más de 100 veces más rápido que el ajuste fino completo y es compatible con bases de datos de vectores CLIP existentes.
Análisis de Alineación:
- Tras aplicar la transformación, la similitud coseno entre los coeficientes de los sondeos de imagen y texto aumenta significativamente (de ~0.20 a ~0.75), confirmando que la transformación alinea las señales de vinculación.
- La transformación también reduce la "brecha de modalidad" (modality gap) en la mayoría de los conjuntos de datos.

5. Significado e Impacto

Este trabajo cambia la comprensión de las limitaciones de CLIP:

Reevaluación de la Composicionalidad: Sugiere que los modelos preentrenados ya poseen el conocimiento necesario para la composición, pero el mecanismo de alineación actual es insuficiente para explotarlo.
Eficiencia Operativa: Proporciona una vía práctica para mejorar sistemas VLM desplegados. En lugar de costosos reentrenamientos, se puede añadir una capa lineal ligera para mejorar la comprensión composicional.
Dirección Futura: Abre la puerta a investigar estrategias de alineación más sofisticadas que no requieran modificar los codificadores base, enfocándose en cómo mapear las estructuras internas de las modalidades para preservar la información semántica compleja.

En resumen, el paper demuestra que CLIP "sabe" vincular atributos y objetos, pero "olvida" cómo hacerlo al cruzar entre imagen y texto, y que una simple transformación lineal es suficiente para recuperar esa capacidad perdida.

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

El Problema: El "Saco de Palabras"

La Gran Descubierta: ¡No es tonto, solo está desalineado!

La Solución: Un "Traductor Rápido" (LABCLIP)

En resumen

1. El Problema: La Limitación de Composición en CLIP

2. Metodología y Enfoque Experimental

A. Evaluación Unimodal (¿Existe la información dentro de cada modalidad?)

B. Propuesta de Solución: LABCLIP

C. Conjuntos de Datos

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions