Improving reasoning at inference time via uncertainty minimisation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo para um amigo muito inteligente, mas um pouco ansioso, resolver um problema de matemática complexo.

O Problema: O "Amigo" que Pensa Demais (ou de Maneira Errada)
Hoje em dia, temos Inteligências Artificiais (IAs) que são como esse amigo: elas são ótimas em raciocinar, mas às vezes, quando tentam resolver algo difícil, elas começam a "pensar alto" (gerar texto) e acabam se perdendo em caminhos sem saída.

Os métodos atuais para ajudar essas IAs são como pedir para o amigo tentar resolver o mesmo problema 100 vezes e escolher a resposta que apareceu mais vezes. Isso funciona, mas é caríssimo em termos de tempo e energia (computação), como se você tivesse que contratar 100 pessoas para fazer o mesmo trabalho.

A Solução: O "GPS da Confiança"
Os autores deste paper (Nicolas, Kenneth, Márton e Kristoffer) propuseram uma ideia brilhante e mais eficiente. Em vez de fazer a IA tentar 100 vezes do início ao fim, eles ensinaram a IA a confiar no próprio julgamento a cada passo do caminho.

Vamos usar uma analogia de navegação em uma floresta escura:

O Caminho Antigo (Decodificação Gananciosa): A IA entra na floresta e segue o primeiro caminho que vê, sem olhar para trás. Se ela errar no primeiro passo, ela continua errando até o fim.
O Caminho Atual (Consistência Própria): A IA tenta 100 caminhos diferentes na floresta, sai de todos e depois olha qual trilha foi mais usada. É seguro, mas cansativo.
O Novo Método (Maximização da Auto-Certeza): A IA para a cada 10 metros (cada "pensamento" ou etapa do raciocínio). Ela olha para as 3 ou 4 trilhas possíveis à frente e pergunta a si mesma: "Qual dessas trilhas eu sinto que é a mais certa? Onde eu me sinto mais seguro?". Ela escolhe a trilha onde sua "bússola interna" (a auto-certeza) aponta com mais força.

Como Funciona na Prática?
A IA não olha apenas para a próxima palavra que vai escrever (o que é como olhar apenas para o próximo passo). Ela olha para o bloco inteiro de pensamento (a "ideia" completa).

A Regra de Ouro: A IA gera algumas opções de "próximo pensamento". Ela calcula qual delas a deixa mais "confiante" internamente (menos incerta). Ela escolhe essa e segue em frente.
O Segredo: Eles descobriram que, quando a IA está no caminho certo, ela se torna confiante muito rápido, logo nos primeiros passos. Se ela está no caminho errado, ela fica confusa e incerta por muito tempo, dando voltas na floresta.

Os Resultados Surpreendentes

Eficiência: Em vez de gastar energia em 100 tentativas, a IA precisa de apenas 2 ou 4 tentativas por passo para encontrar o caminho certo. É como ter um GPS que te guia passo a passo em vez de pedir para você tentar todas as ruas da cidade.
Funciona em Qualquer Idioma: Eles testaram isso em inglês e também em dinamarquês (uma língua com menos recursos de dados). Funcionou tão bem quanto em inglês! Isso mostra que a "intuição" da IA sobre o que é certo ou errado é universal, não depende apenas do idioma.
O Momento Certo: A pesquisa mostrou que o segredo está no início. Se você ajudar a IA a escolher os primeiros passos com mais cuidado (usando esse método de confiança), o resto do caminho se resolve quase sozinho. Se você gastar energia tentando corrigir os últimos passos, é inútil.

Resumo em uma Frase:
Em vez de forçar a IA a tentar milhares de vezes para acertar, os autores ensinaram a IA a ouvir sua própria intuição a cada passo do raciocínio, escolhendo o caminho onde ela se sente mais segura. Isso torna o processo mais rápido, mais barato e tão inteligente quanto os métodos antigos, mas sem o desperdício de energia.

É como ensinar alguém a dirigir não dizendo "tente 100 vezes até acertar a curva", mas sim dizendo: "a cada curva, pare, sinta o carro e escolha a direção onde você sente que o volante está mais firme".

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Melhoria do Raciocínio em LLMs via Minimização de Incerteza

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) demonstraram capacidades notáveis em raciocínio multi-etapa, especialmente com técnicas como Chain-of-Thought (CoT). No entanto, os métodos atuais de scaling (escalonamento) no tempo de inferência enfrentam desafios significativos:

Custo Computacional: Métodos existentes, como amostragem extensiva (repeated sampling), Self-Consistency (consistência própria) ou busca baseada em árvores (MCTS), exigem múltiplas gerações completas ou avaliadores externos, tornando-os caros e lentos.
Granulometria Inadequada: A maioria das abordagens opera no nível de tokens (onde a incerteza local pode ser ruidosa e enganosa) ou no nível da geração completa (ignorando a estrutura dinâmica do raciocínio).
Dependência de Sinais Externos: Muitas estratégias dependem de modelos avaliadores externos ou recompensas treinadas, o que aumenta a complexidade e o custo.

O artigo propõe que o raciocínio deve ser tratado como um processo de minimização de incerteza, mas em uma granularidade mais adequada: o nível de "pensamento" (thought-level), ou seja, etapas intermediárias semanticamente coerentes, e não apenas tokens individuais.

2. Metodologia

Os autores propõem uma estratégia de inferência que seleciona, a cada passo de raciocínio, a continuação que maximiza a auto-certeza (self-certainty) do modelo.

Definição de Auto-Certeza ( $C_i$ ):
A auto-certez é definida como a Divergência de Kullback-Leibler (KL) entre a distribuição de probabilidade predita pelo modelo para o próximo token e uma distribuição uniforme (que representa o máximo de incerteza/aleatoriedade).
$C_i = D_{KL}(U \parallel p(\cdot|x, y_{<i}))$
Quanto maior a divergência KL, mais "picada" é a distribuição de probabilidade, indicando que o modelo está mais confiante em sua previsão.
O Algoritmo de Seleção:
1. Em cada etapa de raciocínio (delimitada por marcadores semânticos), o modelo gera $k$ candidatos de continuação (ex: 2, 4 ou 8 amostras).
2. Cada candidato é avaliado pela sua auto-certez média ao longo da sequência gerada.
3. O candidato com a maior pontuação de auto-certez é selecionado e adicionado ao contexto para a próxima etapa.
4. O processo repete-se até que uma resposta válida seja gerada ou um limite de passos seja atingido.
Vantagens Chave:
- Opera exclusivamente com sinais internos do modelo (sem avaliadores externos).
- Funciona em tempo real (online), permitindo paradas antecipadas (early stopping).
- Aplica-se a perguntas abertas, diferentemente de métodos baseados em votação majoritária.

3. Contribuições Principais

Novo Método de Escalonamento: Introdução de uma estratégia de inferência que estende sinais baseados em incerteza para a granularidade de etapas de raciocínio individuais, superando as limitações do nível de token.
Avaliação Abrangente: Testes extensivos nos conjuntos de dados MATH500 e GSM8K (incluindo versões traduzidas para dinamarquês) em múltiplos tamanhos de modelos das famílias Qwen (0.5B a 3B) e Llama (1B e 3B).
Descoberta de Padrões Temporais: Identificação de que trajetórias de raciocínio corretas convergem para caminhos estáveis e de alta certeza muito cedo no processo, sugerindo que decisões iniciais são preditivas da precisão final.
Generalização Cross-Linguística: Demonstração de que o método é robusto e transfere-se eficazmente para idiomas de recursos limitados (como o dinamarquês), atuando como um sinal de inferência agnóstico à língua.

4. Resultados Experimentais

Desempenho Superior: A maximização da auto-certez no nível do pensamento superou consistentemente a decodificação greedy (padrão) e igualou ou superou o método Self-Consistency (votação majoritária) com orçamentos de tokens comparáveis (2, 4 ou 8 amostras).
Eficiência de Amostragem: Apenas duas amostras por passo foram suficientes para observar ganhos significativos, indicando que não são necessárias centenas de rollouts para obter melhorias.
Robustez Linguística: Em tarefas traduzidas para dinamarquês, onde o desempenho base caiu drasticamente, o método recuperou ganhos proporcionais (chegando a melhorar a precisão em até 4x em alguns modelos menores), provando sua eficácia em cenários de baixa recurso.
Dinâmica da Incerteza:
- Trajetórias corretas exibem auto-certez consistentemente mais alta desde os primeiros passos.
- Trajetórias incorretas tendem a exibir ganhos de incerteza contínuos e longas cadeias de pensamento, indicando exploração de hipóteses concorrentes sem resolução.
Alocação Estratégica de Orçamento: Experimentos mostraram que concentrar a amostragem (minimização de incerteza) apenas nos primeiros passos (1 a 5 etapas) explica a maior parte do ganho de desempenho. Continuar a otimização em todas as etapas pode levar a uma "sobre-otimização" e degradação do raciocínio.

5. Significado e Conclusão

Este trabalho oferece uma mudança de paradigma na forma como otimizamos LLMs para raciocínio:

Eficiência: Propõe um método de scaling no tempo de inferência que é computacionalmente leve, não requer treinamento adicional nem modelos de recompensa externos.
Insights Cognitivos: A descoberta de que a resolução de incerteza ocorre precocemente no processo de raciocínio sugere que o "planejamento" (etapas iniciais) é o fator crítico para a precisão final.
Aplicabilidade: O método é particularmente valioso para modelos menores, que possuem informação latente suficiente, mas lutam para recuperá-la de forma confiável durante a decodificação greedy padrão.

Em suma, ao focar na minimização da incerteza em etapas semânticas e não em tokens, os autores demonstram que é possível melhorar drasticamente a precisão do raciocínio com um custo computacional mínimo, especialmente ao priorizar a exploração nas fases iniciais do processo de geração.

Improving reasoning at inference time via uncertainty minimisation

Resumo Técnico: Melhoria do Raciocínio em LLMs via Minimização de Incerteza

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

A convergence theory for differentiable non-monotone schemes for fully nonlinear parabolic equations

Forest structure in epigenetic landscapes

Walking through Doors is Hard, even without Staircases: Universality and PSPACE-hardness of Planar Door Gadgets

A Linear-Time Algorithm for Steady-State Analysis of Electromigration in General Interconnects

Normalization for multimodal type theory