Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Este trabalho demonstra que é possível recuperar propriedades distribucionais e estimar a incerteza de previsões numéricas de Grandes Modelos de Linguagem diretamente de suas representações internas, utilizando sondas de regressão treinadas para prever estatísticas como média e quantis, evitando assim o alto custo computacional do processo de geração autoregressiva.

Julianna Piskorz, Katarzyna Kobalczyk, Mihaela van der Schaar

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o Modelo de Linguagem ou LLM) que é incrivelmente inteligente. Se você pedir a ele para prever o preço de uma ação amanhã ou a temperatura de amanhã, ele consegue fazer isso. Mas, até agora, havia um problema: para dar a resposta, esse gênio precisava "pensar em voz alta", palavra por palavra, como se estivesse escrevendo um poema.

Se o número fosse "123,45", ele tinha que gerar o "1", depois o "2", depois o "3", depois a vírgula, e assim por diante. Para saber quão certo ele estava (a incerteza), ele precisava repetir esse processo de escrita 100 vezes, gerando 100 respostas diferentes para calcular uma média. Isso é lento e gasta muita energia (computação).

O que este paper descobriu?
Os pesquisadores da Universidade de Cambridge descobriram que esse gênio já sabe a resposta antes mesmo de começar a escrever.

Aqui está a explicação simples, usando analogias:

1. O "Rascunho Mental" (O Segredo)

Imagine que você está prestes a jogar uma bola de basquete. Antes de soltar a bola, seu cérebro já calculou a força, o ângulo e a trajetória. Você não precisa jogar a bola 100 vezes para saber para onde ela vai; o cálculo já está no seu "sistema nervoso".

O paper descobriu que os LLMs funcionam da mesma forma. Quando o modelo lê os dados de entrada (o histórico de tempo, por exemplo), ele cria uma representação interna (os "estados ocultos"). Nessa representação, a resposta completa (o número exato) e o quanto ele está inseguro já estão codificados, como um rascunho mental pronto.

O problema é que, até agora, nós só sabíamos "ler" esse rascunho forçando o modelo a escrever a resposta letra por letra (o processo de "autoregressão"), o que é como pedir para o atleta jogar a bola 100 vezes só para ver onde ela cairia.

2. A "Lupa Mágica" (O Probe)

Os pesquisadores criaram uma ferramenta chamada "Probe" (sonda ou lupa). Em vez de pedir para o gênio escrever a resposta, eles usam essa lupa para olhar diretamente para o "rascunho mental" do modelo.

Eles treinaram essa lupa para fazer duas coisas principais:

  • Adivinhar o tamanho: O número será pequeno (como 0,5) ou gigante (como 10.000)? A lupa classifica isso primeiro.
  • Adivinhar o valor exato: Depois de saber o tamanho, a lupa lê o valor exato.

É como se, em vez de pedir para o gênio desenhar um mapa completo do tesouro, você apenas olhasse para os olhos dele e dissesse: "Onde está o X?". E ele aponta instantaneamente, sem precisar desenhar o mapa inteiro.

3. A "Bola de Cristal" (Incerteza)

Além de prever o número, os pesquisadores queriam saber: "O gênio está confiante ou está chutando?".
Normalmente, para saber isso, você teria que pedir 100 previsões diferentes e ver o quão espalhadas elas estão.
Com a nova técnica, a lupa consegue ver a "forma" da incerteza diretamente no cérebro do modelo. Ela consegue dizer: "O modelo prevê 50 graus, mas ele tem uma chance de 90% de estar entre 45 e 55". Tudo isso em um único instante, sem precisar repetir o processo.

Por que isso é importante? (A Analogia do Carro)

  • O jeito antigo (Autoregressivo): É como dirigir um carro de corrida olhando apenas para o chão, passo a passo, e para saber se vai bater, você precisa fazer o trajeto 100 vezes em velocidades diferentes. É seguro, mas demorado e caro.
  • O jeito novo (Probing): É como ter um carro com um GPS e sensores de colisão que calculam a rota e o risco de acidente instantaneamente, antes mesmo de você acelerar. É muito mais rápido, gasta menos combustível e permite que você tome decisões em tempo real.

Resumo da Ópera

Este trabalho mostra que os modelos de IA já "pensam" os números e a incerteza deles antes de falar. Nós não precisamos esperar que eles "falem" (gerem tokens) para saber o que eles pensam. Podemos "ler" a resposta diretamente da mente deles.

Isso abre portas para:

  1. Previsões muito mais rápidas (útil para trading de ações, previsão do tempo em tempo real).
  2. Economia de energia (menos custo computacional).
  3. Segurança: Saber o quão confiante a IA está antes de tomar uma decisão crítica, sem precisar gastar horas calculando.

Em suma: O gênio já sabe a resposta. Nós só precisamos aprender a ler a mente dele sem forçá-lo a escrever um livro inteiro.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →