Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô superinteligente a resolver um quebra-cabeça complexo que envolve tanto ver uma imagem quanto pensar logicamente sobre ela. Esse robô é um "Modelo de Linguagem Visão-Linguagem" (LVLM).

O problema é que, até agora, os métodos para treinar esses robôs eram um pouco "toscos". Eles olhavam para a resposta final do robô e diziam: "Isso está certo, parabéns!" ou "Isso está errado, tente de novo". Eles tratavam cada palavra (ou "token") da resposta como se tivesse a mesma importância, sem entender que algumas palavras são baseadas em ver a imagem, enquanto outras são apenas o robô "chutando" ou explorando ideias.

Aqui entra o PEPO (Otimização de Política de Percepção e Exploração), a solução apresentada neste artigo. Vamos explicar como funciona usando uma analogia simples:

A Analogia do Detetive e o Explorador

Imagine que o raciocínio do robô é como um detetive investigando um crime em uma cena de crime (a imagem).

O Detetive (Percepção): Ele precisa olhar atentamente para as provas físicas (a imagem). Se ele ignora a foto e só inventa coisas, ele falha. No PEPO, o sistema identifica quais palavras do robô estão "coladas" na imagem (como "o triângulo vermelho" ou "a linha pontilhada"). Essas são as palavras de Percepção.
O Explorador (Exploração): Às vezes, o detetive precisa pensar em várias possibilidades: "E se o suspeito tivesse saído pela janela? E se ele tivesse usado uma chave?". Ele precisa explorar caminhos incertos. No PEPO, o sistema identifica as palavras onde o robô está "duvidando" ou tentando várias opções. Essas são as palavras de Exploração (alta incerteza/entropia).

O Que o PEPO Faz de Diferente?

Os métodos antigos tratavam o detetive e o explorador da mesma forma. O PEPO, no entanto, usa um sistema de pontuação inteligente para cada palavra que o robô escreve:

Se a palavra é uma prova visual forte: O PEPO diz: "Ei, essa palavra é crucial! Ela está baseada na imagem real. Vamos dar mais pontos para o robô aprender a prestar mais atenção nisso."
Se a palavra é um momento de dúvida criativa: O PEPO diz: "Essa palavra mostra que o robô está pensando em alternativas. Isso é bom! Vamos dar pontos para ele continuar explorando, mas sem perder o foco na imagem."
Se a palavra é apenas "gabarro" (ruído): O PEPO diz: "Isso não ajudou nem a ver a imagem, nem a pensar. Vamos ignorar."

Como Funciona na Prática?

O PEPO funciona como um maestro de orquestra que ajusta o volume de cada músico (cada palavra) em tempo real:

Olhando para o "Cérebro" do Robô: O sistema verifica o que o robô está "pensando" (seus estados ocultos) em relação à imagem. Se a palavra "triângulo" faz o cérebro do robô lembrar muito da imagem, é um sinal de Percepção.
Medindo a Dúvida: O sistema verifica o quão confuso o robô está ao escolher a próxima palavra. Se ele está dividido entre várias opções, é um sinal de Exploração.
A "Porta Lógica" (Gating): O PEPO usa uma fórmula matemática suave para combinar esses dois sinais. Ele garante que a exploração (dúvida) só seja valorizada se estiver ancorada na percepção (imagem). É como dizer: "Explore ideias, mas não saia voando para o espaço; mantenha os pés no chão da imagem."

Por Que Isso é Importante?

Sem o PEPO, o robô pode aprender a "chutar" respostas corretas sem realmente entender a imagem, ou pode ficar tão focado na imagem que não consegue raciocinar logicamente.

Com o PEPO, os experimentos mostraram que:

O robô resolve problemas de geometria e lógica com muito mais precisão.
Ele consegue apontar exatamente onde está um objeto na imagem (como um detetivo apontando para a prova).
Ele aprende mais rápido e com menos dados, mesmo em tarefas difíceis onde precisa aprender com poucos exemplos.

Resumo em Uma Frase

O PEPO ensina o robô a equilibrar a arte de olhar atentamente para a imagem com a arte de pensar criativamente, dando recompensas específicas para cada tipo de pensamento, em vez de apenas julgar a resposta final. É como transformar um aluno que apenas memoriza a resposta em um verdadeiro detetive que entende o caso.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os Grandes Modelos de Visão e Linguagem (LVLMs) têm avançado significativamente em tarefas de raciocínio multimodal, frequentemente utilizando Reinforcement Learning com Recompensas Verificáveis (RLVR), como o GRPO (Group Relative Policy Optimization). No entanto, os métodos existentes enfrentam limitações críticas:

Granularidade Coarse (Grossa): A maioria das abordagens de RLVR otimiza o raciocínio em nível de sequência inteira. Isso trata todos os tokens de uma resposta de forma uniforme, ignorando que alguns tokens são cruciais para o "alinhamento perceptivo" (baseados na imagem) e outros para a "exploração lógica" (inferência textual).
Falha em Distinguir Grounding Visual: Métodos baseados apenas em recompensas de resultado (acurácia) ou entropia textual não conseguem capturar a dependência específica entre tokens de texto e evidências visuais.
Ineficiência de Métodos Anteriores: Abordagens anteriores que tentam incorporar percepção visual frequentemente exigem ramos auxiliares de mascaramento ou medidas de atenção que aumentam a sobrecarga computacional e são incompatíveis com frameworks de aceleração eficientes.

O artigo propõe que o raciocínio multimodal bem-sucedido é caracterizado por uma dinâmica de tokens estruturada, onde a percepção visual (ancoragem na imagem) e a exploração (incerteza e busca de caminhos alternativos) desempenham papéis complementares.

2. Metodologia: PEPO (Perception-Exploration Policy Optimization)

Os autores propõem o PEPO, um framework de otimização de política em nível de token que integra percepção visual e exploração sem necessidade de supervisão adicional ou ramos auxiliares.

Análise de Nível de Token

Antes de propor a solução, os autores realizaram uma análise empírica mostrando que:

Tokens de Alta Similaridade Visual: Estão fortemente associados a passos de raciocínio corretos que dependem de evidências visuais (grounding). A remoção da imagem causa grandes deslocamentos nas representações ocultas desses tokens.
Tokens de Alta Entropia: Correspondem a pontos de transição no raciocínio, onde o modelo explora múltiplos caminhos ou está incerto. Eles refletem incerteza linguística, mas não necessariamente sensibilidade visual.

Arquitetura do PEPO

O PEPO refina o cálculo de vantagem (advantage) no RLVR, transformando uma vantagem de nível de sequência em vantagens ponderadas em nível de token. O processo envolve três etapas principais:

Modelagem de Percepção (Perception Prior):
- Calcula a similaridade visual ( $VS_t$ ) para cada token de resposta comparando seu estado oculto com os estados ocultos dos tokens visuais em todas as camadas do modelo.
- Isso gera um "prior de percepção" que indica o quanto um token está ancorado na imagem.
Modelagem de Exploração (Exploration Score):
- Utiliza a entropia ( $H_t$ ) dos logits de saída do modelo para identificar tokens onde o modelo está explorando ou incerto.
Fusão por Mecanismo de Portão Suave (Smooth Gating Mechanism):
- As pontuações de similaridade visual e entropia são normalizadas e fundidas.
- Um operador de portão suave combina esses sinais para gerar um peso adaptativo $w_t$ para cada token.
- Inovação Chave: O mecanismo mantém a percepção como dominante (multiplicando a entropia pela similaridade visual), evitando que tokens de alta entropia, mas irrelevantes visualmente, sejam amplificados indiscriminadamente.
Cálculo da Vantagem em Nível de Token:
- A vantagem original do GRPO ( $A^{(i)}$ ) é reponderada:
  $A^{(i)}_t = [(1 - \lambda) + \lambda w^{(i)}_t] A^{(i)}$
- Onde $\lambda$ aumenta gradualmente durante o treinamento, permitindo uma transição suave da otimização global para a granularidade token-level.

O PEPO é projetado para ser plug-and-play, integrando-se perfeitamente a frameworks existentes como GRPO (criando PEPOG) e DAPO (criando PEPOD).

3. Contribuições Principais

Descoberta Conceitual: É o primeiro trabalho a explorar explicitamente o papel complementar de tokens "ancorados visualmente" (percepção) e tokens de "alta entropia" (exploração) no raciocínio de LVLMs.
Novo Framework (PEPO): Propõe um método de otimização que deriva um prior de percepção da similaridade de estados ocultos e integra a entropia via um mecanismo de portão suave, refinando a estimativa de vantagem sem sobrecarga significativa.
Validação Abrangente: Demonstra ganhos consistentes em diversas tarefas (raciocínio geométrico, puzzles visuais, grounding visual e classificação few-shot) com diferentes arquiteturas de modelos (Qwen2.5-VL e InternVL), mantendo a estabilidade do treinamento.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks diversificados, incluindo Geometry3K, MathVista, LogicVista, RefCOCO, LISA-Grounding e conjuntos de puzzles visuais.

Desempenho Geral: O PEPO superou consistentemente as linhas de base GRPO e DAPO.
- No modelo Qwen2.5-VL-3B, houve um ganho de +3.67 pontos sobre o GRPO e +0.45 pontos sobre o DAPO em benchmarks de raciocínio geométrico e lógico.
- No modelo InternVL3-2B, os ganhos foram ainda mais expressivos: +3.51 pontos sobre o GRPO e +5.15 pontos sobre o DAPO.
Grounding Visual: No RefCOCO e LISA, o PEPO melhorou a IoU@50 em +0.86, evitando o colapso observado em métodos baseados apenas em entropia.
Classificação Few-Shot: Em tarefas com poucos exemplos (1-shot a 4-shot), o PEPO demonstrou melhor eficiência de dados, com ganhos de até +5.32 pontos em FGVC Aircraft.
Eficiência Computacional: A sobrecarga computacional introduzida pelo PEPO é negligenciável (menos de 1% do tempo total de passo de treinamento), pois não requer ramos auxiliares complexos. O throughput de treinamento permanece comparável ao do GRPO.
Análise de Escala: Em conjuntos de dados maiores (ViRL39K), o PEPO manteve ganhos consistentes, indicando boa generalização e estabilidade de otimização.

5. Significado e Impacto

O trabalho PEPO representa um avanço significativo na otimização de LVLMs ao:

Superar a Limitação de Sequência: Demonstra que tratar o raciocínio multimodal como um processo uniforme é subótimo; a distinção entre "o que o modelo vê" e "o que o modelo pensa" em nível de token é crucial.
Alinhamento Percepção-Raciocínio: Oferece um mecanismo principled para alinhar a geração de texto com evidências visuais, corrigindo falhas onde modelos geram raciocínios coerentes textualmente, mas desconectados da imagem.
Eficiência e Adoção: Por não exigir alterações na arquitetura do modelo ou supervisão extra, o PEPO é facilmente adotável pela comunidade de pesquisa e indústria para melhorar a capacidade de raciocínio de modelos multimodais existentes.

Em resumo, o PEPO estabelece que o raciocínio multimodal robusto exige um equilíbrio dinâmico entre a ancoragem perceptiva (garantir que o raciocínio se baseie na imagem) e a exploração cognitiva (permitir a busca de soluções), otimizados de forma granular a cada token.