Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o Modelo de Linguagem ou LLM) que é incrivelmente inteligente. Se você pedir a ele para prever o preço de uma ação amanhã ou a temperatura de amanhã, ele consegue fazer isso. Mas, até agora, havia um problema: para dar a resposta, esse gênio precisava "pensar em voz alta", palavra por palavra, como se estivesse escrevendo um poema.

Se o número fosse "123,45", ele tinha que gerar o "1", depois o "2", depois o "3", depois a vírgula, e assim por diante. Para saber quão certo ele estava (a incerteza), ele precisava repetir esse processo de escrita 100 vezes, gerando 100 respostas diferentes para calcular uma média. Isso é lento e gasta muita energia (computação).

O que este paper descobriu?
Os pesquisadores da Universidade de Cambridge descobriram que esse gênio já sabe a resposta antes mesmo de começar a escrever.

Aqui está a explicação simples, usando analogias:

1. O "Rascunho Mental" (O Segredo)

Imagine que você está prestes a jogar uma bola de basquete. Antes de soltar a bola, seu cérebro já calculou a força, o ângulo e a trajetória. Você não precisa jogar a bola 100 vezes para saber para onde ela vai; o cálculo já está no seu "sistema nervoso".

O paper descobriu que os LLMs funcionam da mesma forma. Quando o modelo lê os dados de entrada (o histórico de tempo, por exemplo), ele cria uma representação interna (os "estados ocultos"). Nessa representação, a resposta completa (o número exato) e o quanto ele está inseguro já estão codificados, como um rascunho mental pronto.

O problema é que, até agora, nós só sabíamos "ler" esse rascunho forçando o modelo a escrever a resposta letra por letra (o processo de "autoregressão"), o que é como pedir para o atleta jogar a bola 100 vezes só para ver onde ela cairia.

2. A "Lupa Mágica" (O Probe)

Os pesquisadores criaram uma ferramenta chamada "Probe" (sonda ou lupa). Em vez de pedir para o gênio escrever a resposta, eles usam essa lupa para olhar diretamente para o "rascunho mental" do modelo.

Eles treinaram essa lupa para fazer duas coisas principais:

Adivinhar o tamanho: O número será pequeno (como 0,5) ou gigante (como 10.000)? A lupa classifica isso primeiro.
Adivinhar o valor exato: Depois de saber o tamanho, a lupa lê o valor exato.

É como se, em vez de pedir para o gênio desenhar um mapa completo do tesouro, você apenas olhasse para os olhos dele e dissesse: "Onde está o X?". E ele aponta instantaneamente, sem precisar desenhar o mapa inteiro.

3. A "Bola de Cristal" (Incerteza)

Além de prever o número, os pesquisadores queriam saber: "O gênio está confiante ou está chutando?".
Normalmente, para saber isso, você teria que pedir 100 previsões diferentes e ver o quão espalhadas elas estão.
Com a nova técnica, a lupa consegue ver a "forma" da incerteza diretamente no cérebro do modelo. Ela consegue dizer: "O modelo prevê 50 graus, mas ele tem uma chance de 90% de estar entre 45 e 55". Tudo isso em um único instante, sem precisar repetir o processo.

Por que isso é importante? (A Analogia do Carro)

O jeito antigo (Autoregressivo): É como dirigir um carro de corrida olhando apenas para o chão, passo a passo, e para saber se vai bater, você precisa fazer o trajeto 100 vezes em velocidades diferentes. É seguro, mas demorado e caro.
O jeito novo (Probing): É como ter um carro com um GPS e sensores de colisão que calculam a rota e o risco de acidente instantaneamente, antes mesmo de você acelerar. É muito mais rápido, gasta menos combustível e permite que você tome decisões em tempo real.

Resumo da Ópera

Este trabalho mostra que os modelos de IA já "pensam" os números e a incerteza deles antes de falar. Nós não precisamos esperar que eles "falem" (gerem tokens) para saber o que eles pensam. Podemos "ler" a resposta diretamente da mente deles.

Isso abre portas para:

Previsões muito mais rápidas (útil para trading de ações, previsão do tempo em tempo real).
Economia de energia (menos custo computacional).
Segurança: Saber o quão confiante a IA está antes de tomar uma decisão crítica, sem precisar gastar horas calculando.

Em suma: O gênio já sabe a resposta. Nós só precisamos aprender a ler a mente dele sem forçá-lo a escrever um livro inteiro.

Each language version is independently generated for its own context, not a direct translation.

Título: Elicitando Distribuições Preditivas Numéricas de LLMs sem Autoregressão

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) têm demonstrado sucesso em tarefas de regressão, como previsão de séries temporais e predição em dados tabulares, aproveitando sua capacidade de in-context learning. No entanto, a geração de saídas numéricas contínuas (valores reais) por LLMs enfrenta desafios significativos:

Custo Computacional e Latência: A geração numérica padrão é autoregressiva. Como um número real pode ser composto por múltiplos tokens (dígitos, ponto decimal, sinal), obter uma única previsão exige múltiplas passagens forward.
Incerteza e Amostragem: Para quantificar a incerteza (obter distribuições preditivas) ou melhorar a precisão, é necessário realizar múltiplas amostragens (ex: 100 ou mais), multiplicando o custo de inferência e o tempo de resposta.
Ineficiência: O processo de decodificação token a token pode ser inadequado para saídas contínuas, onde decisões críticas (como a ordem de grandeza ou a posição do ponto decimal) são tomadas apenas no final da geração, tornando a extração direta da distribuição difícil.

O artigo questiona: É possível recuperar a distribuição preditiva e a incerteza de um LLM sem realizar a geração autoregressiva de tokens?

2. Metodologia

Os autores propõem o uso de probes de regressão (modelos leves treinados para ler representações internas) para extrair estatísticas da distribuição preditiva do LLM diretamente de seus hidden states (estados ocultos), sem gerar tokens.

Abordagem Principal: Probes Fatorizados por Magnitude
Um desafio central é a vasta variação nas ordens de grandeza dos números (ex: de $10^{-3}$ a $10^4$ ). Regressores padrão (como MSE simples) falham em lidar com essa escala. Para resolver isso, os autores introduzem um modelo de regressão fatorizado por magnitude:

Entrada: Estados ocultos concatenados das últimas camadas do LLM (ex: Llama-2-7B).
Componente de Classificação ( $f_{order}$ ): Um classificador que prevê a ordem de grandeza (expoente de base 10) do número alvo.
Componente de Regressão ( $f_{val}$ ): Um regressor que prevê o valor escalado (invariante à escala), condicionado à ordem de grandeza prevista.
Saída Final: O produto da ordem de grandeza prevista e o valor escalado.

Estrutura do Trabalho:

Seção 2 (Pontos de Previsão): Treinam probes para prever estatísticas pontuais da distribuição do LLM: a previsão greedy (mais provável), a média e a mediana.
Seção 3 (Incerteza e Distribuição): Estendem a abordagem para Regressão Quantílica. Utilizam pinball loss para prever múltiplos quantis (ex: 2.5%, 25%, 50%, 75%, 97.5%), permitindo reconstruir a forma da distribuição e calcular Intervalos de Confiança (IC).
Seção 4 e 5 (Eficiência e Generalização): Avaliam o custo computacional e a capacidade de generalização para dados do mundo real e comprimentos de contexto não vistos.

3. Principais Contribuições

Descoberta de Representação Interna: Demonstram que as representações internas de LLMs pré-treinados codificam informações detalhadas sobre suas previsões numéricas (incluindo média, mediana e incerteza) antes mesmo da geração de qualquer token.
Arquitetura de Probe Inovadora: Propõem o modelo de regressão fatorizado por magnitude, que supera as limitações de modelos de regressão padrão ao lidar com dados que abrangem múltiplas ordens de grandeza.
Alternativa Leve à Amostragem: Validam que é possível obter distribuições preditivas e intervalos de confiança calibrados sem o custo de múltiplas passagens autoregressivas.
Análise de Generalização: Investigam a transferência de modelos treinados em dados sintéticos para dados reais e a robustez a diferentes comprimentos de contexto.

4. Resultados Chave

Precisão de Pontos: Os probes conseguem recuperar com alta precisão a média, mediana e previsão greedy do LLM.
- Em dados sintéticos, o probe atinge correlações de Pearson de 0.98 para média e mediana.
- O probe supera baselines simples (como usar o último valor da série) e compete com a precisão da própria amostragem do LLM.
Recuperação de Incerteza:
- Os probes conseguem prever o Intervalo Interquartil (IQR) com forte correlação (Spearman R $\approx$ 0.90) com a variabilidade real das amostras do LLM.
- Os Intervalos de Confiança gerados são bem calibrados: a cobertura empírica (ex: 95%) corresponde quase exatamente ao nível nominal desejado em diversos escalas de dados.
Eficiência Computacional:
- A inferência do probe é drasticamente mais rápida. Enquanto gerar 100 amostras do LLM leva segundos, o probe gera uma estimativa de distribuição em milissegundos.
- O probe supera a amostragem empírica em precisão para até 20-25 amostras do LLM, oferecendo uma alternativa computacionalmente viável.
Generalização:
- Comprimento de Contexto: Modelos treinados em faixas de comprimento específicas generalizam bem para comprimentos não vistos, embora haja uma leve degradação fora da distribuição de treinamento.
- Dados Reais: Modelos treinados em dados sintéticos mostram capacidade de transferência para dados reais (ex: séries temporais de tráfego, clima, energia), embora a generalização seja desafiada por grandes variações de escala e distribuição entre subconjuntos de dados.

5. Significado e Impacto

Este trabalho desafia a noção de que a decodificação autoregressiva é necessária para extrair saídas numéricas e incertezas de LLMs.

Viabilidade Prática: Abre caminho para o uso de LLMs em tarefas de regressão onde a eficiência computacional e a estimativa de incerteza são críticas (ex: controle de processos, tomada de decisão segura, otimização bayesiana), eliminando o gargalo de tempo de inferência.
Interpretabilidade: Sugere que o "raciocínio" numérico do LLM ocorre majoritariamente durante o processamento de entrada (codificação), e a geração autoregressiva serve apenas para "superficializar" essa informação já existente nos estados ocultos.
Futuro: Motiva o desenvolvimento de modelos de sondagem universais que possam ser aplicados "off-the-shelf" em diversos domínios, reduzindo a barreira de entrada para o uso de LLMs em tarefas estruturadas de dados.

Em resumo, o artigo demonstra que é possível elidir distribuições preditivas numéricas ricas e calibradas de LLMs com uma única passagem de inferência, oferecendo uma solução leve e eficiente para um problema anteriormente considerado custoso.

Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

1. O "Rascunho Mental" (O Segredo)

2. A "Lupa Mágica" (O Probe)

3. A "Bola de Cristal" (Incerteza)

Por que isso é importante? (A Analogia do Carro)

Resumo da Ópera

Título: Elicitando Distribuições Preditivas Numéricas de LLMs sem Autoregressão

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems