Large Multimodal Models as General In-Context Classifiers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem dois tipos de "super-heróis" da inteligência artificial para ajudar a identificar coisas em fotos:

O "Especialista em Listas" (CLIP/VLMs): Ele é como um bibliotecário muito rápido. Se você lhe der uma lista de opções (ex: "cachorro", "gato", "carro"), ele olha a foto e diz: "Isso parece mais com um cachorro". Ele é ótimo quando você já sabe o que procurar, mas ele trava se você não der a lista.
O "Contador de Histórias" (LMMs): Ele é como um artista criativo que adora conversar. Se você mostrar uma foto, ele pode descrever a cena, contar uma história ou responder a perguntas complexas. O problema é que, quando você pede apenas para "classificar" (dizer o nome exato), ele às vezes se perde, inventa coisas ou dá respostas muito vagas.

O Grande Problema

Até agora, os cientistas achavam que o "Especialista em Listas" era sempre melhor para classificar fotos. O "Contador de Histórias" era visto como bom para conversas, mas ruim para tarefas de precisão.

Mas este artigo diz: "Esperem aí! Ninguém está usando o "Contador de Histórias" da maneira certa!"

A Solução: O Poder do "Contexto" (A Aula Particular)

Os autores descobriram que o "Contador de Histórias" fica incrível se você der a ele alguns exemplos antes de fazer a pergunta. É como dar uma aula particular antes de um teste.

Sem exemplos: Você mostra uma foto de um "MD-80" (um avião) e o modelo diz apenas "um avião".
Com exemplos: Você mostra 16 fotos de aviões diferentes com seus nomes corretos e diz: "Olha como eu quero que você responda".
Resultado: O modelo entende o padrão e diz: "Ah, é um MD-80!". Ele aprende na hora, sem precisar ser reprogramado.

O Desafio do Mundo Real (O "Mundo Aberto")

Agora, imagine um cenário mais difícil: você não tem uma lista de nomes. Você tem uma caixa cheia de fotos de coisas desconhecidas e precisa dizer o que são.

Se você pedir para o modelo "adivinhar" os nomes das fotos de exemplo (para usá-los como aula), ele pode errar. Se ele errar o exemplo, ele ensina errado para a próxima foto. É como tentar aprender matemática com um professor que está bêbado: você vai aprender errado.

A Estrela do Show: O CIRCLE

Para resolver isso, os autores criaram um método chamado CIRCLE. Pense no CIRCLE como um professor particular que se auto-corrigiu.

Primeira Tentativa: O modelo olha para as fotos de exemplo e dá um "chute" (rótulo falso) para cada uma.
A Roda Gira (Iteração): O modelo olha para todas as outras fotos de exemplo (menos a que está analisando) e diz: "Olha, se eu olhar para o conjunto de todas essas outras fotos, o que essa foto aqui realmente é?".
Refinamento: Ele usa o contexto das outras fotos para corrigir o próprio "chute". Se a maioria das fotos ao redor são de "barcos", e ele achou que aquela era um "carro", ele muda a resposta para "barco".
Repetição: Ele faz isso várias vezes, polindo os rótulos até que todos façam sentido juntos.

O Resultado Final

Com o CIRCLE, o "Contador de Histórias" (LMM) se torna tão bom quanto, ou até melhor que o "Especialista em Listas" (CLIP).

No mundo fechado (lista de opções): Ele aprende rápido com poucos exemplos e bate o recorde.
No mundo aberto (sem lista): Ele consegue entender nuances e detalhes que os outros modelos perdem, porque ele usa o contexto para "conversar" consigo mesmo e chegar à resposta mais precisa.

Resumo em uma Analogia

Imagine que você precisa identificar frutas em um mercado:

O CLIP é um funcionário que só funciona se você tiver um catálogo com fotos de todas as frutas. Se a fruta não estiver no catálogo, ele não sabe o que é.
O LMM sem ajuda é um turista que nunca foi ao mercado. Ele vê uma fruta e diz "é uma coisa redonda e vermelha".
O LMM com CIRCLE é um turista que, antes de entrar, olhou para uma cesta de frutas, pediu para um amigo (o próprio modelo) tentar adivinhar o nome de cada uma, e depois revisou a lista juntos: "Espera, essa aqui parece mais com uma maçã do que com um tomate, vamos mudar". No final, ele entra no mercado e identifica tudo perfeitamente, mesmo sem um catálogo oficial.

Conclusão: O artigo prova que os modelos generativos (que conversam) podem ser os melhores classificadores de imagens do mundo, desde que a gente saiba usar o "poder do contexto" e dê a eles uma chance de se corrigirem antes de responder.

Large Multimodal Models as General In-Context Classifiers

O Grande Problema

A Solução: O Poder do "Contexto" (A Aula Particular)

O Desafio do Mundo Real (O "Mundo Aberto")

A Estrela do Show: O CIRCLE

O Resultado Final

Resumo em uma Analogia

1. O Problema

2. Metodologia

A. Classificação de Mundo Fechado (Closed-World Classification)

B. Classificação de Mundo Aberto (Open-World Classification)

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Conclusão

Large Multimodal Models as General In-Context Classifiers

O Grande Problema

A Solução: O Poder do "Contexto" (A Aula Particular)

O Desafio do Mundo Real (O "Mundo Aberto")

A Estrela do Show: O CIRCLE

O Resultado Final

Resumo em uma Analogia

1. O Problema

2. Metodologia

A. Classificação de Mundo Fechado (Closed-World Classification)

B. Classificação de Mundo Aberto (Open-World Classification)

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation