Learning to Select Visual In-Context Demonstrations

O artigo apresenta o "Learning to Select Demonstrations" (LSD), um método baseado em aprendizado por reforço que supera a busca por vizinhos mais próximos (kNN) na seleção de exemplos para modelos multimodais em tarefas de regressão factual, ao aprender a equilibrar relevância visual e diversidade para maximizar o desempenho downstream.

Eugene Lee, Yu-Chi Lin, Jiajie Diao

Publicado 2026-03-31
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente (chamado de Modelo de Linguagem Multimodal) a fazer uma tarefa difícil, como estimar a idade de alguém em uma foto ou julgar a qualidade de uma imagem. O robô nunca viu essa foto específica antes, mas você pode ajudá-lo mostrando alguns exemplos de como resolver o problema. Isso é chamado de Aprendizado em Contexto.

O grande segredo aqui não é quais exemplos você mostra, mas quais exemplos você escolhe para mostrar.

Aqui está a explicação do trabalho "Learning to Select Visual In-Context Demonstrations" (Aprendendo a Selecionar Demonstrações Visuais), traduzida para uma linguagem simples e com analogias do dia a dia:

1. O Problema: O "Amigo que Só Fala do Mesmo Assunto"

Até agora, a maneira mais comum de escolher esses exemplos era usar um método chamado kNN (Vizinho Mais Próximo).

  • A Analogia: Imagine que você precisa explicar o que é "verão" para alguém. O método kNN seria como pegar 10 fotos de praias ensolaradas que são quase idênticas à sua foto original.
  • O Erro: Se você mostrar 10 fotos de praias iguais, o robô fica confuso. Ele não entende a variação do verão. Ele não sabe o que acontece se o dia estiver nublado, ou se for um pôr do sol, ou se for uma piscina. Ele vê apenas repetição. Isso funciona bem para coisas subjetivas (como "essa foto é bonita?"), mas falha feio em tarefas precisas (como "quantos anos essa pessoa tem?").

2. A Solução: O "Mestre de Cerimônias" (LSD)

Os autores criaram um novo sistema chamado LSD (Learning to Select Demonstrations). Em vez de apenas procurar fotos parecidas, eles criaram um "agente" (um pequeno cérebro de Inteligência Artificial) que aprende a escolher os melhores exemplos, como se fosse um Mestre de Cerimônias organizando uma mesa de debate.

  • Como funciona:
    • O agente não quer apenas fotos parecidas. Ele quer uma equipe diversificada.
    • Se a pergunta é sobre a idade de uma criança de 8 anos, o agente não escolhe 8 outras crianças de 8 anos. Ele escolhe: um bebê, um adolescente, um adulto de 40 anos e um idoso.
    • A Analogia: É como se você estivesse tentando adivinhar o preço de uma casa. Em vez de mostrar apenas 5 casas idênticas na mesma rua (o que não ajuda a entender o mercado), você mostra uma casa pequena, uma mansão, uma casa em ruínas e uma nova. Isso ajuda o robô a entender os limites e a escala do problema.

3. A Descoberta Surpreendente: "Um Tamanho Não Serve para Todos"

A parte mais legal do artigo é que eles descobriram que a estratégia certa depende do tipo de pergunta:

  • Para Tarefas Subjetivas (Gosto Pessoal):

    • Exemplo: "Essa foto de um pôr do sol é bonita?"
    • Veredito: O método antigo (kNN) ainda é o melhor! Quando se trata de gosto, você quer ver coisas parecidas com a original para ter um ponto de referência claro.
    • Analogia: Se você quer saber se um sorvete de morango é bom, você quer provar outros sorvetes de morango, não um de chocolate ou de pimenta.
  • Para Tarefas Objetivas (Fatos e Números):

    • Exemplo: "Quantos anos essa pessoa tem?" ou "Qual a qualidade técnica desta foto?"
    • Veredito: O novo método (LSD) é muito superior. Aqui, a diversidade é a chave. O robô precisa ver os extremos (muito jovem, muito velho; foto perfeita, foto ruim) para conseguir calibrar sua resposta.
    • Analogia: Para aprender a dirigir, você não quer ver apenas carros parados no mesmo lugar. Você precisa ver carros em alta velocidade, em chuva, em estrada de terra e em trânsito lento para entender os limites da direção.

4. Como o Agente Aprende? (O Treinamento)

O agente do LSD usa uma técnica chamada Reinforcement Learning (Aprendizado por Reforço).

  • A Analogia: Imagine um jogador de videogame.
    1. Ele escolhe um conjunto de exemplos.
    2. O robô tenta responder a pergunta.
    3. Se o robô errar muito, o agente recebe uma "punição". Se acertar, recebe um "ponto".
    4. Com o tempo, o agente aprende sozinho que, para acertar em tarefas de números, ele precisa escolher exemplos variados e não repetitivos. Ele descobre o padrão sem que ninguém tenha dito explicitamente "seja diverso".

Resumo Final

Este artigo nos ensina que, ao ensinar uma IA, não devemos apenas jogar informações aleatórias ou apenas informações iguais.

  • Se a tarefa é sobre sentimento ou beleza, mostre coisas iguais para reforçar o estilo.
  • Se a tarefa é sobre fatos, números ou medições, mostre coisas diferentes e variadas para ajudar a IA a entender o "mundo inteiro" ao redor da pergunta.

O LSD é, essencialmente, um professor inteligente que sabe exatamente quais livros mostrar ao aluno para que ele tire a nota máxima, dependendo se a prova é de "gosto pessoal" ou de "matemática".