Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô superinteligente a resolver um problema complexo, como "O que está acontecendo nesta foto de uma partida de beisebol?".

Para responder, o robô precisa fazer duas coisas ao mesmo tempo:

Olhar para a foto e identificar detalhes (percepção): "Vejo dois times, uniformes com a palavra 'All-Star', um campo de grama...".
Pensar e raciocinar sobre esses detalhes (raciocínio): "Ah, se são uniformes de 'All-Star' e estão em formação, deve ser o jogo das estrelas da MLB".

O problema que os autores deste artigo descobriram é que, ao treinar esses robôs (chamados de Modelos de Linguagem Multimodais), os métodos tradicionais tratavam essas duas habilidades como se fossem alunos separados em salas diferentes.

O Problema: Treinar um lado e ignorar o outro

Os pesquisadores fizeram um experimento curioso. Eles tentaram treinar o robô de duas formas extremas:

Cenário A (Só Raciocínio): Eles disseram: "Ei, robô, esqueça de olhar para a foto. Foque apenas em montar a lógica da frase".
- Resultado: O robô ficava muito bom em escrever frases lógicas, mas inventava coisas sobre a foto. Ele dizia "Vejo um time de futebol" mesmo que a foto fosse de beisebol. A lógica era perfeita, mas a base estava errada.
Cenário B (Só Percepção): Eles disseram: "Robô, esqueça a lógica. Apenas descreva o que você vê com precisão".
- Resultado: O robô descrevia a foto perfeitamente ("Vejo jogadores, gramado, céu azul"), mas não conseguia conectar os pontos para responder à pergunta. Ele não entendia por que aquilo era importante.

A conclusão foi clara: Você não pode ter um bom raciocínio sem uma boa percepção, e não pode ter uma percepção útil sem um raciocínio que a organize. Eles são como as duas pernas de uma pessoa; se você tentar correr usando apenas uma, você cai.

A Solução: O "Reequilíbrio de Peso" (Token Reweighting)

Aqui entra a inovação do artigo, chamada ToR (Token Reweighting).

Imagine que o robô está escrevendo a resposta palavra por palavra (cada palavra é um "token"). Durante o treinamento, o método ToR funciona como um professor muito atento que usa uma caneta mágica para marcar quais palavras são mais importantes naquele momento:

Identifica os "Momentos de Dúvida" (Raciocínio): Quando o robô está prestes a tomar uma decisão lógica difícil (ex: "Isso é um jogo regular ou um All-Star?"), o professor dá um peso extra a essa palavra. Ele diz: "Ei, preste atenção aqui! A lógica é crucial agora".
Identifica os "Momentos de Visualização" (Percepção): Quando o robô está descrevendo algo visual (ex: "A camisa tem a palavra 'American'"), o professor dá um peso extra a essa palavra também. Ele diz: "Não ignore a imagem! Essa palavra depende do que você vê".

Em vez de tratar todas as palavras da mesma forma (o que faz o robô se perder) ou focar apenas em um tipo, o ToR equilibra a balança. Ele garante que o robô aprenda a usar a imagem para guiar a lógica e a lógica para interpretar a imagem, ao mesmo tempo.

A Analogia do Orquestra

Pense no treinamento do robô como uma orquestra:

O Raciocínio são os violinos (a melodia, a estrutura).
A Percepção são os tambores (o ritmo, a base visual).

Os métodos antigos tentavam treinar apenas os violinos ou apenas os tambores. O resultado era um som estridente ou sem ritmo.
O método ToR é como um maestro que, durante o ensaio, olha para a partitura e diz: "Neste compasso, os violinos precisam tocar mais forte porque é a parte da lógica. No próximo, os tambores precisam destacar porque é a parte visual".

O Resultado

Ao aplicar essa técnica de "reequilíbrio de peso" (ToR) em modelos existentes, os autores conseguiram que os robôs:

Não alucinavam (não inventavam coisas que não estavam na foto).
Raciocinavam de forma coerente e correta.
Superaram todos os outros métodos de ponta em testes de matemática visual e lógica.

Em resumo: O papel nos ensina que, para um robô inteligente entender o mundo, ele não pode separar "ver" de "pensar". Eles precisam ser treinados juntos, dando a atenção certa para cada momento da conversa, como um maestro equilibrando uma orquestra perfeita.

Each language version is independently generated for its own context, not a direct translation.

Título: Ponte entre Percepção e Raciocínio: Reponderação de Tokens para RLVR em LLMs Multimodais

1. Problema Identificado

A extensão do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para Modelos de Linguagem Grandes Multimodais (MLLMs) enfrenta um desafio fundamental: a natureza intercalada dos tokens gerados nas respostas.

Dualidade de Tokens: As respostas dos MLLMs misturam tokens relacionados à percepção (que ancoram o conteúdo visual, ex: descrever objetos na imagem) e tokens relacionados ao raciocínio (que constroem cadeias de inferência lógica).
Otimização Isolada Insuficiente: Métodos existentes tendem a otimizar essas capacidades de forma isolada (focando apenas em Chain-of-Thought para raciocínio ou apenas em aumentos de percepção). O artigo demonstra empiricamente que otimizar apenas um tipo de token (percepção ou raciocínio) leva a desempenho inferior em comparação com a otimização de todos os tokens.
Interdependência: Existe uma acoplamento intrínseco entre percepção e raciocínio no nível do token. Ignorar essa interdependência resulta em modelos que podem ter raciocínio coerente mas falham na compreensão visual (alucinações), ou que têm boa ancoragem visual mas não conseguem integrar isso em um raciocínio lógico coerente.

2. Metodologia: Token Reweighting (ToR)

Os autores propõem uma estratégia leve e plug-and-play chamada Token Reweighting (ToR). Em vez de tratar todos os tokens igualmente ou mascarar gradientes em subconjuntos específicos, o ToR identifica dinamicamente os tokens críticos e ajusta seus pesos durante o cálculo do gradiente de política.

A. Identificação de Tokens Críticos

O método utiliza sinais intrínsecos do modelo para classificar os tokens em duas categorias:

Tokens Relacionados ao Raciocínio: Identificados com base na alta entropia preditiva (incerteza do modelo) durante a geração. Tokens com alta entropia representam pontos de decisão críticos onde a cadeia de raciocínio se ramifica.
Tokens Relacionados à Percepção: Identificados com base na sensibilidade visual. Isso é medido pela diferença no log-probabilidade de um token quando o modelo é condicionado à imagem versus quando é condicionado apenas ao texto (sem imagem). Uma grande diferença indica que o token depende fortemente do conteúdo visual.

B. Mecanismo de Reponderação

Durante o treinamento (baseado em algoritmos como GRPO ou DAPO), o ToR aplica pesos específicos ( $\gamma_r$ e $\gamma_p$ ) aos tokens identificados:

Fórmula de Objetivo: O objetivo de RLVR é modificado para incluir um termo de ponderação que multiplica a vantagem (advantage) de cada token por seu peso correspondente.
- Tokens de raciocínio recebem peso $\gamma_r$ .
- Tokens de percepção recebem peso $\gamma_p$ .
- Tokens fora dessas categorias críticas podem ter peso zero ou reduzido, focando o aprendizado nos pontos mais importantes.
Equilíbrio: A estratégia busca um regime balanceado onde a redução da incerteza do raciocínio e o fortalecimento da ancoragem visual ocorrem simultaneamente.

3. Contribuições Principais

Análise Empírica da Interdependência: O trabalho fornece evidências concretas de que a otimização isolada de percepção ou raciocínio é subótima. Experimentos de "otimização seletiva" mostram que modelos treinados apenas em tokens de raciocínio falham na compreensão visual, e vice-versa.
Estratégia ToR (Plug-and-Play): Introdução de um módulo leve que pode ser integrado a qualquer algoritmo existente de RLVR (como GRPO e DAPO) sem exigir mudanças na arquitetura do modelo ou no pipeline de dados.
Identificação Automática de Tokens: O método não requer anotações externas ou priors; ele deriva a importância dos tokens diretamente da incerteza do modelo e da sensibilidade visual durante o processo de rollout.
Desempenho SOTA: Demonstra ganhos consistentes em múltiplos benchmarks, alcançando o estado da arte com uma ancoragem visual precisa e raciocínio coerente.

4. Resultados Experimentais

Os experimentos foram conduzidos utilizando o modelo Qwen2.5-VL-7B treinado no conjunto de dados Geometry3K e avaliados em cinco benchmarks: MathVerse, MathVision, MathVista, WeMath e HalluBench.

Comparação com Baselines:
- O ToR-GRPO superou o GRPO padrão, melhorando o MathVerse de 50.8 para 53.0 e o HalluBench de 69.8 para 72.4.
- O ToR-DAPO também superou o DAPO padrão em todos os benchmarks, com ganhos notáveis em WeMath e MathVista.
Ablação de Otimização Isolada:
- Otimizar apenas tokens de raciocínio ( $\alpha_r$ ) ou apenas de percepção ( $\alpha_p$ ) resultou consistentemente em desempenho inferior ao treinamento com todos os tokens, confirmando a necessidade de otimização conjunta.
Generalização:
- O método demonstrou robustez ao ser aplicado em diferentes escalas de dados (de 2.1K para 39K amostras) e em modelos menores (Qwen-2.5-VL-3B), mantendo ganhos consistentes.
Configuração Ideal: A ponderação de tokens de percepção ( $\gamma_p$ ) em torno de 0.5 (com $\gamma_r = 1.0$ ) mostrou-se o ponto de equilíbrio ideal para a maioria dos benchmarks.

5. Significado e Impacto

Este trabalho é significativo porque resolve uma lacuna fundamental na aplicação de RLVR a modelos multimodais. Ao reconhecer e tratar a interdependência entre percepção e raciocínio no nível do token, o ToR permite que os MLLMs aprendam de forma mais eficiente, evitando o colapso de uma capacidade em favor da outra.

Eficiência de Treinamento: Foca os gradientes nos tokens que realmente importam para a tarefa, melhorando a eficiência do aprendizado.
Robustez: Modelos treinados com ToR são menos propensos a alucinações visuais e mais capazes de integrar informações visuais em raciocínios complexos.
Futuro: Abre caminho para pesquisas sobre reponderação dinâmica baseada em gradientes e a extensão dessa interdependência para contextos mais amplos além de tokens individuais.

Em resumo, o artigo estabelece que, para MLLMs, percepção e raciocínio não são módulos separados, mas capacidades acopladas que exigem otimização conjunta e balanceada, e o ToR é a ferramenta prática para alcançar esse equilíbrio.