Improving reasoning at inference time via uncertainty minimisation

O artigo propõe uma estratégia de inferência que trata o raciocínio como minimização de incerteza, selecionando em cada passo a continuação que maximiza a autoconfiança interna do modelo, o que resulta em melhor desempenho e eficiência em tarefas matemáticas e de raciocínio em comparação com métodos existentes.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo para um amigo muito inteligente, mas um pouco ansioso, resolver um problema de matemática complexo.

O Problema: O "Amigo" que Pensa Demais (ou de Maneira Errada)
Hoje em dia, temos Inteligências Artificiais (IAs) que são como esse amigo: elas são ótimas em raciocinar, mas às vezes, quando tentam resolver algo difícil, elas começam a "pensar alto" (gerar texto) e acabam se perdendo em caminhos sem saída.

Os métodos atuais para ajudar essas IAs são como pedir para o amigo tentar resolver o mesmo problema 100 vezes e escolher a resposta que apareceu mais vezes. Isso funciona, mas é caríssimo em termos de tempo e energia (computação), como se você tivesse que contratar 100 pessoas para fazer o mesmo trabalho.

A Solução: O "GPS da Confiança"
Os autores deste paper (Nicolas, Kenneth, Márton e Kristoffer) propuseram uma ideia brilhante e mais eficiente. Em vez de fazer a IA tentar 100 vezes do início ao fim, eles ensinaram a IA a confiar no próprio julgamento a cada passo do caminho.

Vamos usar uma analogia de navegação em uma floresta escura:

  1. O Caminho Antigo (Decodificação Gananciosa): A IA entra na floresta e segue o primeiro caminho que vê, sem olhar para trás. Se ela errar no primeiro passo, ela continua errando até o fim.
  2. O Caminho Atual (Consistência Própria): A IA tenta 100 caminhos diferentes na floresta, sai de todos e depois olha qual trilha foi mais usada. É seguro, mas cansativo.
  3. O Novo Método (Maximização da Auto-Certeza): A IA para a cada 10 metros (cada "pensamento" ou etapa do raciocínio). Ela olha para as 3 ou 4 trilhas possíveis à frente e pergunta a si mesma: "Qual dessas trilhas eu sinto que é a mais certa? Onde eu me sinto mais seguro?". Ela escolhe a trilha onde sua "bússola interna" (a auto-certeza) aponta com mais força.

Como Funciona na Prática?
A IA não olha apenas para a próxima palavra que vai escrever (o que é como olhar apenas para o próximo passo). Ela olha para o bloco inteiro de pensamento (a "ideia" completa).

  • A Regra de Ouro: A IA gera algumas opções de "próximo pensamento". Ela calcula qual delas a deixa mais "confiante" internamente (menos incerta). Ela escolhe essa e segue em frente.
  • O Segredo: Eles descobriram que, quando a IA está no caminho certo, ela se torna confiante muito rápido, logo nos primeiros passos. Se ela está no caminho errado, ela fica confusa e incerta por muito tempo, dando voltas na floresta.

Os Resultados Surpreendentes

  • Eficiência: Em vez de gastar energia em 100 tentativas, a IA precisa de apenas 2 ou 4 tentativas por passo para encontrar o caminho certo. É como ter um GPS que te guia passo a passo em vez de pedir para você tentar todas as ruas da cidade.
  • Funciona em Qualquer Idioma: Eles testaram isso em inglês e também em dinamarquês (uma língua com menos recursos de dados). Funcionou tão bem quanto em inglês! Isso mostra que a "intuição" da IA sobre o que é certo ou errado é universal, não depende apenas do idioma.
  • O Momento Certo: A pesquisa mostrou que o segredo está no início. Se você ajudar a IA a escolher os primeiros passos com mais cuidado (usando esse método de confiança), o resto do caminho se resolve quase sozinho. Se você gastar energia tentando corrigir os últimos passos, é inútil.

Resumo em uma Frase:
Em vez de forçar a IA a tentar milhares de vezes para acertar, os autores ensinaram a IA a ouvir sua própria intuição a cada passo do raciocínio, escolhendo o caminho onde ela se sente mais segura. Isso torna o processo mais rápido, mais barato e tão inteligente quanto os métodos antigos, mas sem o desperdício de energia.

É como ensinar alguém a dirigir não dizendo "tente 100 vezes até acertar a curva", mas sim dizendo: "a cada curva, pare, sinta o carro e escolha a direção onde você sente que o volante está mais firme".