Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa resolver um quebra-cabeça muito complexo, como ler um contrato cheio de letras miúdas, interpretar um gráfico financeiro confuso ou responder a uma pergunta sobre várias fotos de uma viagem.

Normalmente, os "cérebros" de inteligência artificial (os modelos de linguagem) tentam fazer isso de uma só vez: olham para a imagem e, de imediato, "chutam" a resposta. O problema é que, se eles errarem a primeira letra de um número ou confundirem uma cor no gráfico, todo o resto da resposta sai errado, e eles ainda têm a audácia de dizer a resposta com total confiança. É como tentar dirigir um carro olhando apenas pelo retrovisor e achando que está tudo perfeito.

O artigo "Proof-of-Perception" (Prova de Percepção) apresenta uma nova maneira de fazer isso, que chamaremos de "O Método do Detetive Cético".

Aqui está como funciona, explicado de forma simples:

1. Em vez de um "Chute Único", eles usam uma "Rede de Segurança"

No método antigo, a IA dizia: "Acho que esse número é 50".
No novo método (PoP), a IA não dá apenas um número. Ela diz: "Estou 90% segura de que o número está entre 48 e 52".

A Analogia: Imagine que você está tentando adivinhar o preço de um carro usado.
- IA Velha: "É R$ 50.000." (E pronto, ponto final).
- IA PoP: "Baseado no que vejo, o preço pode ser R $48k, R$ 49k ou R $50k. Mas se eu olhar mais de perto, posso reduzir para R$ 49k."
  Isso cria uma "certidão de confiança". A IA sabe onde está insegura.

2. O "Gerente de Orçamento" (O Controlador)

A IA agora tem um gerente que vigia o dinheiro (o poder de processamento).

Se a "certidão de confiança" diz que a IA está muito segura (o intervalo é pequeno e preciso), o gerente diz: "Ok, podemos parar aqui e dar a resposta."
Se a certidão diz: "Ei, estamos inseguros, o intervalo é gigante!", o gerente diz: "Pare! Não responda ainda. Vamos gastar um pouco mais de energia para chamar um especialista (uma ferramenta extra) para verificar melhor."
A Analogia: Pense em um detetive investigando um crime.
- Se a pista é clara (uma impressão digital perfeita), ele fecha o caso.
- Se a pista é borrada, ele não inventa uma história. Ele pede para o laboratório fazer um teste de DNA mais caro e demorado. Ele só gasta o orçamento extra quando realmente precisa.

3. O "Gráfico de Confiança" (A Estrutura)

O sistema não faz tudo de uma vez. Ele quebra o problema em etapas, como um fluxo de trabalho:

Passo 1 (OCR): Ler o texto. Se estiver confuso, gera uma lista de possibilidades.
Passo 2 (Detecção): Olhar para o gráfico. Se a cor estiver estranha, gera várias opções de interpretação.
Passo 3 (Lógica): Juntar tudo.

Cada passo tem seu próprio "selo de garantia". Se um passo falha, o sistema sabe exatamente onde o problema está, em vez de culpar a resposta final inteira.

4. O Treinamento "Jogo de Papéis" (Self-Play)

Para ficar esperto, o sistema treina contra uma versão "má" de si mesmo.

A Analogia: Imagine um aluno estudando para uma prova. O professor (a IA treinada) cria provas com letras borradas, gráficos tortos e textos confusos (como se alguém tivesse jogado tinta na folha). O aluno pratica nessas condições difíceis. Quando chega a prova real, ele não se assusta com a sujeira; ele sabe exatamente como lidar com ela.

Por que isso é importante?

Menos Alucinações: A IA para de inventar fatos. Se ela não tem certeza, ela pede ajuda ou admite que não sabe, em vez de mentir com confiança.
Economia: Ela não gasta energia calculando coisas óbvias. Só gasta quando é necessário. É como usar um carro elétrico: você não acelera a fundo na subida se o motor já está no limite; você usa a energia de forma inteligente.
Verificável: Você pode olhar para o "rastro de papel" e ver exatamente em qual passo a IA teve dúvida e qual ferramenta ela usou para resolver.

Resumo da Ópera:
O Proof-of-Perception transforma a IA de um "adivinho confiante" em um "trabalhador cuidadoso e certificado". Ele não apenas dá a resposta, mas entrega o recibo de como chegou lá, garantindo que, se a resposta estiver errada, você saberá exatamente onde o processo falhou e que a IA tentou corrigir isso antes de entregar o resultado. É uma IA que sabe quando parar, quando pedir ajuda e quando confiar em si mesma.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Linguagem Multimodal (MLLMs) avançaram significativamente em tarefas visão-linguagem, mas enfrentam desafios críticos em cenários complexos como compreensão de documentos, raciocínio em gráficos e perguntas sobre múltiplas imagens. As abordagens atuais (como Chain-of-Thought, ReAct e Program-of-Thought) apresentam três falhas principais:

Intermediários de Valor Único: Elas cometem a decisão de um único valor em cada etapa (ex: uma única string de OCR, uma única caixa delimitadora). Se um erro perceptivo ocorre cedo, ele se propaga e é racionalizado nas etapas subsequentes, levando a respostas confiantes, mas incorretas (alucinações).
Controle de Computação Heurístico: O uso de ferramentas e a repetição de tentativas são governados por regras fixas ou heurísticas não calibradas, sem uma métrica confiável para decidir quando parar ou expandir o esforço computacional.
Falta de Confiabilidade Composta: A calibração de incerteza, quando existe, é aplicada apenas à resposta final. Não há garantias de confiabilidade para as etapas intermediárias de percepção e lógica, tornando o sistema frágil a erros em cascata.

2. Metodologia: Proof-of-Perception (PoP)

O PoP propõe um novo paradigma que trata o raciocínio multimodal como a execução de um Grafo Acíclico Direcionado (DAG), onde cada nó (percepção ou lógica) é equipado com garantias conformais.

A. Representação do Grafo de Raciocínio

O sistema gera um programa em uma Linguagem Específica de Domínio (DSL) que define um DAG:

Nós de Ferramenta: Chamam ferramentas externas (OCR, detecção de objetos, análise de gráficos).
Nós de Fusão: Operam dentro do MLLM, combinando a consulta com os resultados das etapas anteriores.
Nó de Resposta: Gera a resposta final.

B. Previsão Conformal por Nó

Em vez de retornar um único valor, cada nó $t$ com entrada $x$ produz um conjunto calibrado $\Gamma^{(t)}_\delta(x)$ .

Mecanismo: Utiliza Split Conformal Prediction (CP). Um modelo aprende uma função de não-conformidade $s^{(t)}(x, z)$ que mede o quão "estranho" um candidato $z$ é.
Limiar: Um limiar $\tau^{(t)}_\delta$ é calculado em um conjunto de calibração para garantir que a probabilidade de a resposta verdadeira estar no conjunto seja $\geq 1-\delta$ (ex: 90% de cobertura).
Saída: O nó retorna o conjunto de todos os candidatos $z$ onde $s^{(t)}(x, z) \leq \tau^{(t)}_\delta$ . Isso permite reter múltiplas hipóteses plausíveis até que evidências resolvam a ambiguidade.

C. Controlador Adaptativo

Um controlador leve ( $\pi_\phi$ ) observa os conjuntos conformais de cada nó e um orçamento global de computação para tomar decisões dinâmicas:

ACEITAR: Se o conjunto for pequeno e confiável, prossegue.
RETRY: Se a incerteza for alta, reexecuta a tarefa com maior fidelidade (ex: crop de imagem em maior resolução).
EXPAND: Adiciona novos nós/ferramentas para refinar a evidência.
ABORT: Para antecipadamente se o orçamento for excedido sem resolução.

D. Mineração de Contraexemplos (Self-Play)

Para robustez, o sistema utiliza um loop de "auto-jogo" onde um adversário (cópia congelada do modelo) gera exemplos perturbados (distorções de fonte, ruído OCR, mudanças de layout). O modelo estudante é treinado para recuperar a resposta correta e manter as garantias de cobertura nessas situações difíceis, enriquecendo as pools de calibração.

3. Contribuições Principais

Raciocínio com Garantias Conformais: Primeira framework a aplicar previsões conformais em nível de nó dentro de um fluxo de raciocínio multimodal, fornecendo garantias de cobertura marginais para cada etapa intermediária.
Política de Computação Baseada em Evidência: Transforma a incerteza em uma política ativa de alocação de recursos, expandindo o esforço apenas quando os certificados de confiança indicam necessidade, evitando chamadas de ferramentas desnecessárias.
Redução de Alucinações: Ao fundamentar respostas em "rastros de percepção verificáveis" (os conjuntos conformais), o sistema reduz drasticamente a geração de respostas não suportadas por evidências visuais.
Trade-off Precisão-Custo: Permite um ajuste principled entre a acurácia desejada e o custo computacional, superando abordagens heurísticas.

4. Resultados Experimentais

O PoP foi avaliado em benchmarks de QA de documentos (DocVQA, TextVQA), gráficos (ChartQA) e múltiplas imagens (MultiDoc2Dial), comparado a Chain-of-Thought, ReAct e Program-of-Thought.

Desempenho: O PoP superou consistentemente as linhas de base mais fortes em métricas de Exata Correspondência (EM) e F1.
- Exemplo: No DocVQA, alcançou 78.6% de EM (vs. 75.0% do melhor baseline).
Redução de Alucinações: Redução de 27% a 45% na taxa de alucinação em comparação com os baselines, demonstrando maior confiabilidade.
Garantias de Cobertura: O sistema atingiu a cobertura alvo de 90% em todos os tipos de nós (OCR, detecção, gráficos, lógica), mesmo sob perturbações sintéticas (troca de fontes, ruído, desordem).
Eficiência Computacional: O PoP atingiu desempenho superior ou igual aos baselines usando menos chamadas de ferramentas. Em muitos casos, alcançou a mesma acurácia com 25% menos orçamento computacional, pois o controlador para a expansão assim que a incerteza é resolvida.
Ablação: A remoção das garantias conformais (No-CP) ou a aplicação apenas na resposta final resultou em queda significativa de desempenho e aumento de alucinações, provando que a calibração em nível de nó é crucial.

5. Significado e Conclusão

O Proof-of-Perception representa um avanço fundamental na confiabilidade de sistemas de IA multimodal. Ao substituir decisões pontuais e heurísticas por certificados de incerteza calibrados e políticas de controle adaptativo, o PoP resolve o problema da propagação de erros em cascata.

Sua principal contribuição é transformar a incerteza de um "score passivo" em um mecanismo ativo de alocação de recursos, permitindo que sistemas de IA:

Sejam verificáveis: As respostas são fundamentadas em evidências perceptivas com limites de erro conhecidos.
Sejam eficientes: Gastam mais computação apenas onde é necessário.
Sejam robustos: Mantêm a confiabilidade mesmo diante de variações na distribuição de dados (shifts).

Este trabalho estabelece um novo padrão para o desenvolvimento de agentes multimodais que precisam operar em ambientes críticos onde a precisão e a justificativa das respostas são tão importantes quanto a resposta em si.