Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas um pouco distraído, a resolver um problema de matemática complexo usando um desenho. O aluno é rápido, escreve as fórmulas corretas e parece entender tudo. No entanto, ele comete um erro bobo no início: ele olha para o desenho e diz "Este é um círculo", quando na verdade é um quadrado.

Como consequência, ele resolve toda a equação baseada na ideia de que é um círculo. O resultado final está errado, mas o raciocínio dentro da lógica dele parece perfeito.

Aqui entra o problema que este artigo resolve: Como julgar se o aluno está pensando certo, se ele começou com uma mentira sobre a imagem?

O Problema: O Juiz Cego

Antes, existiam "juízes" (chamados de Modelos de Recompensa de Processo) que olhavam para cada passo da solução do aluno e davam uma nota. O problema é que esses juízes eram como juízes cegos.

Se o aluno dizia "é um círculo" e o juiz também achava que era um círculo (ou não conseguia ver direito), o juiz dava uma nota alta para aquele passo, mesmo que a premissa estivesse errada. Se o aluno estava certo, mas o juiz achava que era um círculo, o juiz punia o aluno injustamente.

Isso criava uma confusão: a nota baixa podia significar que o aluno errou a lógica, ou que o juiz não viu a imagem direito. Era como tentar julgar um jogo de futebol onde o árbitro às vezes não vê o gol e às vezes vê um gol que não existe.

A Solução: O "Checador de Premissas Visuais" (EVPV)

Os autores criaram uma nova ferramenta chamada EVPV (Verificação Explícita de Premissas Visuais). Eles transformaram o juiz cego em um juiz com óculos de aumento e uma lista de verificação.

Aqui está como funciona, usando uma analogia de uma construção de casa:

O Aluno (A IA) faz uma lista de materiais:
Antes de começar a construir a parede (resolver o passo), o aluno é obrigado a dizer: "Para fazer este passo, eu preciso que esta parede seja de tijolo vermelho e que a janela esteja à esquerda". Isso é a Lista de Verificação Visual.
O Inspetor Independente (O Extrator de Restrições):
Enquanto o aluno fala, um inspetor independente olha para a foto da obra (a imagem original) e anota os fatos reais em uma lista estruturada: "A parede é de tijolo branco e a janela está à direita".
O Comparador (A Verificação):
O sistema compara a lista do aluno com a lista do inspetor.
- Cenário A (Tudo bate): O aluno disse "tijolo vermelho" e o inspetor confirmou. O sistema diz: "Ok, a premissa é confiável. Agora, vamos julgar se a lógica de construir a parede está certa."
- Cenário B (Não bate): O aluno disse "tijolo vermelho" mas o inspetor disse "branco". O sistema imediatamente levanta uma bandeira vermelha: "PARE! A base está errada!".
O Filtro de Nota (O Portão de Confiabilidade):
Aqui está a mágica. Se a base (a premissa visual) estiver errada, o sistema anula ou reduz drasticamente a nota daquele passo, não importa quão inteligente seja a matemática que vem depois. É como dizer: "Você pode ter feito uma equação genial, mas como você começou medindo o terreno errado, essa parte da construção não vale nada."

Isso evita que o sistema dê pontos para "alucinações" (imagens que não existem) e evita punir alunos que estão certos, mas que o juiz original não conseguiu ver.

Por que isso é importante?

Imagine que você está escolhendo a melhor solução entre 8 tentativas diferentes de um problema (como escolher o melhor caminho em um GPS).

Sem o EVPV: O sistema pode escolher um caminho que parece fluído e bonito, mas que começa com um erro de visão (ex: "o rio está seco" quando está cheio). O carro entra no rio e afunda.
Com o EVPV: O sistema descarta imediatamente qualquer caminho que comece com uma premissa visual errada. Ele só avalia a lógica dos caminhos que realmente fazem sentido com a realidade da imagem.

O Resultado

Os testes mostraram que, ao usar esse método de "checar a lista antes de julgar a lógica":

Os modelos de IA acertam muito mais problemas de matemática visual.
Eles não são enganados por descrições bonitas, mas falsas.
O sistema se torna mais confiável, como um juiz que não apenas ouve o argumento, mas verifica as provas físicas antes de dar o veredito.

Em resumo: EVPV separa "o que a IA vê" de "o que a IA pensa". Se o que ela vê está errado, o sistema avisa antes de julgar o pensamento, garantindo que a inteligência artificial seja não apenas rápida, mas também aterrada na realidade.

Each language version is independently generated for its own context, not a direct translation.

Título: Grounding the Score: Verificação Explícita de Premissas Visuais para Modelos de Recompensa de Processo (PRM) Confiáveis em VLMs

1. O Problema: A Ambiguidade entre Percepção e Raciocínio

Os Modelos de Linguagem Multimodal (VLMs) enfrentam um desafio fundamental no raciocínio matemático: a distinção entre percepção visual (ler gráficos, extrair valores de tabelas, OCR, relações geométricas) e raciocínio simbólico (derivação lógica e cálculo).

Falha Atual: Os Modelos de Recompensa de Processo (PRMs) existentes, usados para avaliar passos intermediários e reordenar candidatos (ex: Best-of-N), funcionam frequentemente como "caixas pretas".
O Dilema: Uma baixa pontuação em um passo pode indicar um erro lógico real ou apenas uma mispercepção do verificador sobre a imagem.
Consequências:
- Falsos Positivos: O PRM recompensa passos fluentes que dependem de premissas visuais alucinadas (ex: assumir um "buraco cilíndrico" que não existe).
- Falsos Negativos: O PRM penaliza declarações corretas porque o verificador não conseguiu "ver" a imagem corretamente.
Impacto: Essa entrelaçamento entre percepção e raciocínio mina a localização de erros e a eficácia do reranking (reordenamento) durante a escala de tempo de teste (test-time scaling).

2. Metodologia: Verificação Explícita de Premissas Visuais (EVPV)

Os autores propõem o EVPV, uma interface de verificação leve que condiciona a pontuação de um passo à confiabilidade das premissas visuais das quais ele depende. O fluxo de trabalho divide-se em três componentes principais:

A. Lista de Verificação Visual (Visual Checklist)

O modelo de política (o VLM que gera a solução) é instruído a produzir, para cada passo de raciocínio, uma declaração explícita de premissa visual (se houver dependência).
Exemplo: "O raio é 2" ou "O segmento AB é perpendicular a CD".
Isso transforma suposições visuais implícitas em reivindicações explícitas verificáveis.

B. Extração de Evidências Visuais Estruturadas (Constraints)

Um extrator de restrições ( $E_\phi$ ) processa a imagem uma única vez por instância (não por passo) para gerar um conjunto estruturado de fatos visuais ( $C$ ).
Esses fatos são formatados em JSON e incluem:
- Leituras numéricas: Comprimentos, ângulos, valores de tabelas.
- Relações: Paralelismo, perpendicularidade, igualdade, incidência.
- Estrutura Composicional: Partes de um todo, anexos, adjacência.

C. Calibração de Recompensas via Portão de Confiabilidade (Reliability Gating)

Verificação de Consistência: As reivindicações da lista de verificação são comparadas com as restrições extraídas da imagem para calcular um escore de suporte ( $p_j$ ).
Sinal de Confiabilidade ( $r$ ): Um agregador robusto (média geométrica) combina os escores de suporte. Se uma premissa for fortemente contraditada, $r$ cai drasticamente.
Portão de Recompensa: A recompensa base do passo ( $R_{base}$ $R_{ba se}$ ) é ajustada pelo fator de confiabilidade $\alpha(r)$ $α (r)$ :
- Se a premissa visual é confiável ( $r$ alto): A recompensa lógica é preservada.
- Se a premissa visual é inconfiável ( $r$ baixo): A recompensa é atenuada (aproximada de neutra), evitando que erros de percepção gerem sinais negativos ou positivos excessivamente confiantes que desestabilizem o reranking.

3. Principais Contribuições

Decoupling (Desacoplamento): Separa explicitamente a incerteza perceptiva da avaliação lógica. O verificador não precisa "adivinhar" se a imagem foi lida corretamente; ele verifica isso primeiro.
Leveza Computacional: Diferente de métodos baseados em ferramentas que chamam APIs de verificação a cada passo (caro e lento), o EVPV extrai as restrições uma vez e as usa para validar todo o processo, tornando-o viável para escalas Best-of-N.
Interface de Verificação: Introduz um mecanismo onde o modelo de política deve justificar suas premissas visuais, criando um ciclo de feedback mais robusto.
Evidência Causal: Demonstra que os ganhos de desempenho provêm diretamente da fidelidade das restrições extraídas e da verificação de premissas, e não de efeitos acidentais de prompting.

4. Resultados Experimentais

Os experimentos foram conduzidos no VisualProcessBench e em seis benchmarks de raciocínio multimodal (incluindo MathVista, MMMU, LogicVista).

Verificação em Nível de Passo:
- O EVPV-PRM alcançou o melhor Macro-F1 geral no VisualProcessBench (67.46%), superando PRMs multimodais de ponta como VisualPRM (62.00%) e TIM-PRM (61.70%).
- A adição de restrições estruturadas melhorou significativamente a precisão de modelos de julgamento (judges) que não foram re-treinados.
Ganhos em Best-of-N (Reranking):
- Ao reordenar 8 candidatos gerados por modelos InternVL2.5 (8B, 26B, 38B), o EVPV-PRM mostrou ganhos consistentes e superiores aos baselines.
- Exemplo: No modelo 38B, o ganho ( $\Delta_8 = \text{BoN@8} - \text{Pass@1}$ ) foi de +9.78 pontos, superando o VisualPRM (+6.30).
- Os ganhos foram mais pronunciados em benchmarks visualmente intensos, onde erros de percepção inicial são a principal causa de falha.
Análise de Causalidade e Ablação:
- Corrupção Controlada: A introdução de ruído nas restrições extraídas resultou em uma degradação monótona do desempenho, provando que a fidelidade da evidência visual é a causa direta da melhoria.
- Ablação: Remover as restrições estruturadas ou a visão direta causou quedas drásticas de desempenho (-12.53% a -31.69%), confirmando que o método depende da combinação de evidência estruturada e acesso visual.

5. Significado e Impacto

O trabalho EVPV representa um avanço crucial para a confiabilidade de VLMs em tarefas de raciocínio complexo. Ao tratar a "verificação visual" como um pré-requisito para a "avaliação lógica", o método:

Reduz a alucinação de premissas visuais em cadeias de raciocínio.
Permite uma seleção mais robusta de soluções durante a inferência (test-time scaling) sem o custo proibitivo de chamadas de ferramentas a cada passo.
Oferece uma solução prática para o problema de "caixa preta" dos PRMs, tornando explícito por que um passo foi penalizado (falha de percepção vs. falha de lógica).

O código e os dados foram disponibilizados publicamente, facilitando a adoção e reprodução dos resultados pela comunidade de IA.

Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

O Problema: O Juiz Cego

A Solução: O "Checador de Premissas Visuais" (EVPV)

Por que isso é importante?

O Resultado

Título: Grounding the Score: Verificação Explícita de Premissas Visuais para Modelos de Recompensa de Processo (PRM) Confiáveis em VLMs

1. O Problema: A Ambiguidade entre Percepção e Raciocínio

2. Metodologia: Verificação Explícita de Premissas Visuais (EVPV)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents