Large Multimodal Models as General In-Context Classifiers

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el mundo de la inteligencia artificial es como una gran escuela de arte y reconocimiento. Hasta ahora, teníamos dos tipos de "estudiantes" muy diferentes para la tarea de identificar qué hay en una foto.

Aquí te explico de qué trata este paper usando una analogía sencilla: El Detective vs. El Polímata.

1. Los dos personajes principales

El Detective (Los modelos CLIP):
Imagina a un detective muy estricto. Si le muestras una foto de un gato, él solo puede decirte: "Es un gato, un perro o un pájaro". No puede inventar cosas nuevas. Es muy bueno si ya tiene una lista cerrada de sospechosos (clases predefinidas). Es rápido, preciso y no se equivoca mucho en lo básico.
El Polímata (Los Grandes Modelos Multimodales o LMMs):
Imagina a un genio creativo que puede escribir poemas, contar chistes y describir escenas con mucho detalle. Si le muestras una foto, te puede escribir un párrafo hermoso sobre ella. Pero, cuando le pedías que simplemente dijera "¿Qué es esto?", a veces se perdía en sus pensamientos y daba respuestas vagas o incorrectas. Los expertos decían: "El Polímata es genial para cosas complejas, pero el Detective es mejor para clasificar cosas".

2. El gran descubrimiento: ¡El poder de la "conversación"!

Los autores de este paper se preguntaron: ¿Y si le damos al Polímata un poco de ayuda antes de que responda?

Imagina que le das al Polímata una "hoja de trucos" o le cuentas un par de ejemplos antes de la pregunta final.

En el mundo cerrado (Sabemos las opciones): Si le muestras al Polímata 16 ejemplos de "gatos" y 16 de "perros" antes de mostrarle la foto final, ¡de repente se vuelve tan bueno como el Detective! De hecho, con la ayuda correcta, el Polímata puede superar al Detective.
- La analogía: Es como si le dieras al genio una lista de palabras clave antes de un examen. De repente, deja de divagar y se enfoca.

3. El problema del "Mundo Abierto" (Cuando no hay lista de opciones)

Aquí es donde se pone interesante. A veces, no tenemos una lista de opciones. La foto podría ser de algo que nunca hemos visto antes, o alguien nos pregunta: "¿Qué ves aquí?" sin darnos opciones.

El problema: Si le das al Polímata ejemplos al azar (o con etiquetas falsas) en este escenario, se confunde más. Es como si le dieras al genio ejemplos de "manzanas" cuando la foto es de un "coche". Se vuelve loco y empieza a alucinar.
La solución: CIRCLE (El método de auto-corrección).
Los autores crearon un método llamado CIRCLE. Imagina que el Polímata tiene un grupo de amigos (los ejemplos) y todos están en una mesa redonda.
1. El Polímata mira a sus amigos y les dice: "Creo que tú eres un gato".
2. Pero luego, mira a todos los demás amigos y les pregunta: "¿Estáis de acuerdo con que él es un gato?".
3. Si los demás dicen "No, parece más un perro", el Polímata corrige su etiqueta: "¡Ah, tienes razón, es un perro!".
4. Repite este proceso varias veces, refinando las etiquetas de sus amigos hasta que todos estén de acuerdo y tengan sentido entre sí.

CIRCLE es como un equipo de detectives que se revisan mutuamente el trabajo. En lugar de confiar ciegamente en una primera impresión, el modelo usa el contexto de los otros ejemplos para corregirse a sí mismo y encontrar la respuesta más precisa, incluso si no tenía una lista de opciones al principio.

4. ¿Qué nos dicen los resultados?

Antes: Pensábamos que los modelos generativos (los Polímatas) eran malos para clasificar imágenes.
Ahora: Hemos descubierto que no eran malos, solo estaban "mal condicionados". Sin ayuda, fallaban. Pero con CIRCLE, se convierten en los mejores clasificadores, superando incluso a los modelos diseñados específicamente para eso.
La ventaja: CIRCLE no necesita que un humano etiquete nada. El modelo se "auto-entrena" usando solo las imágenes que tiene a mano, refinando sus propias ideas hasta llegar a la verdad.

En resumen

Este paper nos enseña que no necesitamos elegir entre un modelo "rápido y estricto" y uno "creativo y flexible". Si le damos al modelo creativo la herramienta correcta (CIRCLE) para organizarse y corregirse a sí mismo usando ejemplos, puede hacer de todo: desde clasificar fotos simples hasta entender escenas complejas del mundo real, todo sin necesidad de reentrenarlo ni gastar dinero en etiquetadores humanos.

Es como descubrir que el genio creativo no necesitaba ser reemplazado por un detective; solo necesitaba un buen sistema de revisión de pares para brillar en todo.

Large Multimodal Models as General In-Context Classifiers

1. Los dos personajes principales

2. El gran descubrimiento: ¡El poder de la "conversación"!

3. El problema del "Mundo Abierto" (Cuando no hay lista de opciones)

4. ¿Qué nos dicen los resultados?

En resumen

Resumen Técnico: Modelos Multimodales Grandes como Clasificadores Generales

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Large Multimodal Models as General In-Context Classifiers

1. Los dos personajes principales

2. El gran descubrimiento: ¡El poder de la "conversación"!

3. El problema del "Mundo Abierto" (Cuando no hay lista de opciones)

4. ¿Qué nos dicen los resultados?

En resumen

Resumen Técnico: Modelos Multimodales Grandes como Clasificadores Generales

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation