Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

O Problema: A "Festa" de Imagens Confusa

Imagine que você é um artista muito talentoso (o Modelo de Visão e Linguagem) que adora analisar fotos. Quando você recebe uma foto, você a observa com atenção total, descrevendo cada detalhe perfeitamente.

Mas, o que acontece quando você recebe quatro fotos ao mesmo tempo e precisa responder perguntas sobre elas?

O artigo diz que, atualmente, esses modelos de IA têm um problema grave: eles ficam confusos. É como se você estivesse em uma sala com quatro pessoas conversando ao mesmo tempo. Em vez de ouvir a pessoa 1 e depois a pessoa 2, o cérebro da IA começa a misturar as vozes. Ela ouve a pessoa 1 dizendo "azul" e a pessoa 2 dizendo "vermelho", e acaba respondendo "azul e vermelho" para a pergunta sobre a pessoa 1.

Isso é chamado de "Vazamento de Informação". A IA não consegue separar onde uma imagem termina e a outra começa, misturando os detalhes de todas elas.

A Solução Atual (e por que falha)

Para tentar resolver isso, os criadores das IAs colocam "etiquetas invisíveis" (chamadas de tokens delimitadores) entre as imagens. É como se houvesse um guarda de trânsito entre as pessoas na sala, dizendo: "Pare! A conversa da Pessoa 1 acabou, agora é a vez da Pessoa 2".

O problema é que, na prática, esses guardas são muito fracos. Eles tentam segurar a multidão, mas as pessoas (os dados da imagem) ainda conseguem pular a cerca e conversar com as outras. A IA continua misturando as informações.

A Solução Proposta: O "Megafone" Mágico

Os autores deste artigo descobriram algo interessante: esses "guardas de trânsito" (os tokens delimitadores) existem, mas eles são muito tímidos. Eles não têm força suficiente para impedir a confusão.

A solução deles é incrivelmente simples e genial: Eles aumentam o volume desses guardas.

Imagine que você pega o microfone do guarda de trânsito e o conecta a um megafone (ou aumenta o volume dele). Agora, quando ele diz "PARE!", a voz é tão alta e clara que ninguém consegue ignorar.

Na linguagem técnica, eles chamam isso de "Escalonamento de Estados Ocultos". Basicamente, eles pegam a "voz" interna que a IA usa para marcar o fim de uma imagem e a amplificam.

O Resultado: Uma Sala Organizada

Com esse "megafone":

A IA ouve melhor: Ela consegue distinguir perfeitamente onde a Imagem 1 termina e a Imagem 2 começa.
Menos confusão: Ela para de misturar os detalhes. Se a pergunta é sobre o gato na foto 1, ela não vai mencionar o cachorro da foto 2.
Mais inteligência: Como ela não se perde, ela consegue raciocinar melhor, comparando as imagens com precisão.

Por que isso é incrível?

O mais legal de tudo é que essa solução é grátis e instantânea.

Não precisa de treino: Não é necessário gastar meses e milhões de dólares ensinando a IA de novo.
Não gasta bateria: Não deixa o computador mais lento ou gasta mais energia.
Funciona em tudo: Funciona para ver fotos, ler vários documentos de uma vez ou analisar várias tabelas.

Resumo da Ópera:
A IA estava se perdendo em uma multidão de imagens. Os autores descobriram que os sinais que separavam as imagens estavam muito fracos. Eles apenas "aumentaram o volume" desses sinais, e pronto: a IA voltou a ser organizada, precisa e inteligente, sem custar nada extra. É como se eles tivessem ensinado a IA a usar fones de ouvido com cancelamento de ruído para focar em uma imagem de cada vez.

Each language version is independently generated for its own context, not a direct translation.

Título: Aprimorando a Compreensão de Múltiplas Imagens Através da Escalonamento de Tokens Delimitadores

1. Problema Identificado

Os Grandes Modelos Visuais-Linguísticos (LVLMs) demonstram desempenho robusto em tarefas de imagem única. No entanto, sua performance degrada-se significativamente quando recebem múltiplas imagens como entrada. A principal causa identificada é o vazamento de informações entre imagens (cross-image information leakage).

Neste fenômeno, o modelo falha em distinguir claramente os contextos visuais de diferentes imagens, resultando em uma mistura indesejada de informações na saída gerada. Embora os LVLMs existentes já utilizem tokens delimitadores especiais (como <|vision start|> e <|vision end|>) para marcar o início e o fim de cada imagem, a análise dos autores revela que esses tokens, por si só, não conseguem bloquear efetivamente as interações indesejadas entre as imagens.

2. Metodologia Proposta

Os autores propõem um método simples, mas eficaz, chamado Escalonamento de Tokens Delimitadores (Delimiter Token Scaling). A abordagem baseia-se em duas propriedades fundamentais descobertas na análise dos tokens delimitadores:

Absorção de Atenção: O token delimitador da $i$ -ésima imagem recebe forte atenção dos tokens dessa mesma imagem.
Reforço de Interação Intra-imagem: A forte atenção do delimitador atua como uma "tag" (etiqueta) específica da imagem, reforçando a interação entre os tokens dentro da mesma imagem.

O Mecanismo:
O método consiste em escalar (amplificar) os estados ocultos (hidden states) dos tokens delimitadores antes de serem processados pelas camadas de atenção do modelo.

Seja $h_t^{(l)}$ o estado oculto do token $t$ na camada $l$ .
Para tokens delimitadores ( $t \in D$ ), o estado é multiplicado por um fator $\lambda > 1$ :
$h_t^{(l)*} = \lambda \cdot h_t^{(l)}$
Para todos os outros tokens, o estado permanece inalterado.

Como funciona:
Ao aumentar a magnitude dos estados ocultos dos delimitadores, o método reforça a propriedade de "tagging" (etiquetagem). Isso faz com que os tokens de uma imagem específica direcionem ainda mais atenção para o seu próprio delimitador. Devido ao efeito de normalização da função softmax, isso reduz a atenção a tokens de outras imagens (reduzindo o vazamento), enquanto preserva e até reforça a interação dentro da mesma imagem (interação intra-imagem).

3. Contribuições Principais

Análise de Mecanismo: O trabalho oferece uma análise detalhada de como os tokens delimitadores funcionam nos LVLMs, identificando que eles atuam como "bias terms" localizados (semelhantes a sink tokens, mas específicos por imagem) e não globais.
Método sem Treinamento (Training-Free): A solução não requer fine-tuning do modelo, nem coleta de novos dados de instrução. É uma modificação puramente inferencial.
Eficiência Computacional: O método é compatível com kernels de atenção otimizados (como FlashAttention). Diferente de métodos que modificam diretamente as matrizes de atenção (o que aumentaria drasticamente o uso de memória e tempo de inferência), o escalonamento de estados ocultos não adiciona custo computacional significativo.
Generalização: O método foi validado não apenas em múltiplas imagens, mas também em cenários puramente textuais que exigem distinção clara, como compreensão de múltiplos documentos e múltiplas tabelas.

4. Resultados Experimentais

Os autores avaliaram o método em diversos benchmarks e famílias de modelos (Qwen2.5-VL, InternVL3, LLaVA-OneVision):

Benchmarks de Múltiplas Imagens: Houve ganhos consistentes de desempenho em Mantis, MuirBench, MIRB e QBench2.
- Exemplo: No MuirBench, o modelo Qwen2.5-VL-3B melhorou de 37.31 para 42.42.
- O método funcionou bem em modelos de diferentes tamanhos (de 0.5B a 78B parâmetros).
Benchmarks de Texto (Múltiplos Documentos/Tabelas): O método também melhorou a precisão em tarefas como sumarização de múltiplos documentos (MultiNews, WCEP-10) e perguntas sobre múltiplas tabelas (TQABench), demonstrando que a técnica de separação de contextos é aplicável além da visão.
Qualidade e Vazamento: Análise qualitativa mostrou que o modelo corrigiu erros de "vazamento" (ex: atribuir características de uma imagem a outra incorretamente).
Custo: Não houve aumento no tempo de inferência ou no uso de memória (VRAM) em comparação com a linha de base.

5. Significância e Conclusão

Este trabalho é significativo porque resolve um problema fundamental na arquitetura de LVLMs (vazamento de contexto em entradas múltiplas) sem os custos proibitivos de treinamento ou inferência associados a outras soluções (como métodos de decodificação contrastiva que exigem múltiplas passagens forward).

A descoberta de que simplesmente amplificar os estados ocultos dos delimitadores pode "limpar" a atenção entre diferentes contextos visuais oferece uma nova perspectiva sobre o design de prompts e a arquitetura de modelos multimodais. A abordagem é prática, fácil de integrar e escalável, tornando-se uma solução viável para melhorar a capacidade de raciocínio de modelos em cenários complexos com múltiplas fontes de informação.

Limitação: O método atual requer acesso aos estados ocultos do modelo, o que o torna aplicável principalmente a modelos de código aberto, embora a lógica possa ser integrada por desenvolvedores de modelos proprietários.

Enhancing Multi-Image Understanding through Delimiter Token Scaling

O Problema: A "Festa" de Imagens Confusa

A Solução Atual (e por que falha)

A Solução Proposta: O "Megafone" Mágico

O Resultado: Uma Sala Organizada

Por que isso é incrível?

Título: Aprimorando a Compreensão de Múltiplas Imagens Através da Escalonamento de Tokens Delimitadores

1. Problema Identificado

2. Metodologia Proposta

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation