Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um meteorologista tentando prever o clima para um festival de música ao ar livre.

O Problema Antigo (A Velha Maneira):
Antigamente, os modelos de inteligência artificial (como os "TabPFN" e "TabICL" mencionados no artigo) funcionavam como um amigo que, quando você pergunta "vai chover?", ele responde apenas com um número: "A chance é de 50%". Ou pior, ele te dá uma única previsão de temperatura: "Será 20°C".
Isso é chamado de estimativa pontual. É útil, mas é limitado. Se a previsão for 20°C, mas na realidade chover torrencialmente ou fizer 35°C, o modelo "acertou a média" mas falhou em te proteger do risco real. É como dizer que a temperatura média de um dia é perfeita, ignorando que você pode ter congelado de manhã e queimado à tarde.

A Nova Maneira (A Revolução Distribucional):
Os novos modelos do artigo são mais inteligentes. Em vez de dar apenas um número, eles entregam um histograma (uma distribuição completa). Eles dizem: "Há 10% de chance de chover muito, 20% de fazer calor, 50% de ficar nublado e 20% de nevar". Eles preveem o espectro de possibilidades, não apenas um ponto. Isso é chamado de regressão distribucional.

O Grande Desafio (Como julgar quem está certo?):
Aqui entra o ponto principal do artigo. Como sabemos se um desses modelos de "histograma" é bom?

O jeito antigo: Olhávamos apenas para a média. "O modelo acertou a média de temperatura?" Se sim, ele ganha.
O problema: Isso é como julgar um tiro ao alvo apenas pela distância média dos tiros ao centro, ignorando se alguns tiros foram para fora do alvo ou se todos se agruparam em um lugar errado.

O artigo diz que precisamos de novas regras de avaliação, chamadas Regras de Pontuação Adequadas (Proper Scoring Rules). Pense nelas como diferentes tipos de juízes de competição:

O Juiz "Log Score" (O Perfeccionista): Ele pune muito severamente qualquer erro. Se você disser que vai chover e não chover, ele te dá uma nota terrível. Ele é ótimo para quem quer evitar surpresas, mas pode ser instável se houver dados estranhos (outliers).
O Juiz "CRPS" (O Equilibrado): Este é o favorito dos autores. Ele olha para a forma inteira da sua previsão. Ele pergunta: "Sua previsão de distribuição está próxima da realidade?". Ele é mais robusto e não entra em pânico com dados estranhos. É como um juiz que olha para a consistência geral do atleta, não apenas para um movimento perfeito.

A Descoberta Importante (A "Vieses" do Modelo):
O artigo revela algo fascinante: O modelo que você treina depende de como você o julga.

Se você treinar um modelo para agradar o "Juiz Log Score", ele vai ficar obcecado em prever as caudas extremas (o pior cenário possível).
Se você treinar para o "Juiz CRPS", ele vai focar em acertar a média e a distribuição geral.

É como treinar um atleta:

Se você treiná-lo para correr o mais rápido possível (foco em velocidade), ele será ótimo em sprints.
Se você treiná-lo para ter resistência (foco em maratona), ele será ótimo em longas distâncias.
Ambos são "atletas", mas otimizam coisas diferentes.

O Que os Autores Propõem?

Mudar os Rankings: Os líderes de tabelas (benchmarks) de IA hoje em dia só olham para a média (MSE ou R²). Eles propõem mudar isso para incluir o CRPS. Assim, saberíamos quais modelos são realmente bons em prever riscos e incertezas, não apenas médias.
Ajuste Fino (Fine-Tuning): Eles mostram que, se você pegar um modelo genérico (como o TabPFN) e "afiná-lo" (fine-tuning) usando uma regra de pontuação específica (como o CRPS ou uma versão ponderada para riscos assimétricos), ele se torna muito melhor para aquele propósito específico.
O Futuro: Eles sugerem que, no futuro, os modelos de IA não devem ser "tamanho único". Em vez disso, deveríamos poder dizer ao modelo: "Ei, para este problema de finanças, me dê uma previsão que minimize o risco de perder dinheiro, mesmo que signifique errar um pouco na média".

Resumo em uma Analogia Final:
Imagine que você está tentando prever o preço de uma casa.

O modelo antigo diz: "Vai custar R $500.000". Se a casa vender por R$ 400k ou R$ 600k, ele errou.
O modelo novo diz: "Há uma chance de ser R $400k, outra de ser R$ 500k e outra de ser R$ 600k".
O artigo diz: "Não basta ver se a média de 500k está certa. Precisamos de uma régua (o CRPS) que meça quão bem o modelo descreveu todas essas possibilidades. E, dependendo do que você quer (evitar perder dinheiro ou maximizar lucro), você deve treinar o modelo com uma régua diferente."

Em suma, o artigo é um chamado para a comunidade de Inteligência Artificial parar de olhar apenas para a "média" e começar a olhar para a "história completa" das previsões, usando as ferramentas certas para julgar quem realmente entende o futuro.

Each language version is independently generated for its own context, not a direct translation.

Título: Regressão Distribucional com Modelos Fundacionais Tabulares: Avaliando Previsões Probabilísticas via Regras de Pontuação Adequadas

1. O Problema

O artigo identifica uma lacuna crítica nos benchmarks atuais para aprendizado de máquina em dados tabulares (como TabArena e TALENT), especialmente no contexto de modelos fundacionais como TabPFN e TabICL.

Foco Excessivo em Estimativas Pontuais: As métricas dominantes são baseadas em erro quadrático médio (MSE), raiz do erro quadrático médio (RMSE) e $R^2$ . Essas métricas avaliam apenas a precisão de uma estimativa pontual (geralmente a média condicional).
Limitação da Abordagem Atual: Ao otimizar apenas para a média, os modelos falham em capturar a incerteza aleatória (variabilidade inerente aos dados). Em cenários com distribuições multimodais (ex: bimodais), a média pode cair em regiões de baixa probabilidade ou ser um valor impossível (ex: prever 3,5 para um dado de 6 lados), tornando a previsão inútil para a tomada de decisão.
Necessidade de Avaliação Probabilística: Embora modelos como TabPFN e TabICLv2 já realizem regressão distribucional (prevendo uma densidade de probabilidade discretizada ou histogramas), não há consenso sobre como avaliar a qualidade dessas previsões probabilísticas de forma justa e útil para casos de uso específicos.

2. Metodologia

Os autores propõem uma mudança de paradigma na avaliação, focando em Regras de Pontuação Adequadas (Proper Scoring Rules).

Conceito de Regra de Pontuação Adequada: Uma regra $S$ é "estritamente adequada" se a pontuação esperada for minimizada apenas quando a distribuição prevista corresponde à distribuição verdadeira. Isso garante que o modelo seja incentivado a prever a distribuição completa, e não apenas um ponto.
Métricas Propostas:
- CRPS (Continuous Ranked Probability Score): A métrica principal proposta. Ela mede a distância entre a função de distribuição acumulada (CDF) prevista e a observação real. É robusta e considera a ordem dos dados (ao contrário da Entropia Cruzada pura).
- CRLS (Continuous Ranked Logarithmic Scoring Rule): Uma variação baseada em logaritmo da CDF.
- Beta Energy Score ( $S_\beta$ ): Uma generalização que permite ajustar a sensibilidade a erros. Para $\beta=1$ , equivale ao CRPS (foco na mediana/MAE); para $\beta=2$ , equivale ao MSE (foco na média).
- Interval Score: Focado na qualidade de intervalos de confiança.
Experimentos e Ajuste Fino (Fine-tuning):
- Os autores realizaram fine-tuning do modelo realTabPFNv2.5 utilizando funções de perda personalizadas baseadas nessas regras (Beta Energy Score com $\beta=1.8$ e CRLS).
- Foram utilizados conjuntos de dados do OpenML (3000 amostras, validação cruzada de 5 dobras) para comparar o modelo base, o modelo ajustado e o TabICLv2.
- Um modelo "toy" (juguete) com dados bimodais foi criado para ilustrar como diferentes funções de perda levam a diferentes comportamentos de convergência e viés indutivo em amostras finitas.

3. Principais Contribuições

Advocacia por Métricas Probabilísticas: O artigo defende que benchmarks de regressão tabular devem incluir métricas como CRPS e Interval Score, em vez de focar exclusivamente em RMSE/ $R^2$ .
Demonstração de Viés Indutivo: Mostra que a escolha da regra de pontuação altera o viés indutivo do modelo. Diferentes regras penalizam diferentes tipos de erro (caudas vs. centro, viés vs. variância), resultando em modelos "ótimos" diferentes para o mesmo conjunto de dados.
Avaliação Empírica de Modelos Fundacionais: Fornece as primeiras avaliações comparativas de realTabPFNv2.5 e TabICLv2 usando regras de pontuação adequadas.
Viabilidade de Fine-tuning: Demonstra que ajustar modelos fundacionais pré-treinados com regras de pontuação específicas (como Beta Energy Score ou CRLS) melhora o desempenho em métricas probabilísticas e, frequentemente, em métricas pontuais também.
Discussão sobre Adaptação ao Caso de Uso: Argumenta que, para aplicações de alto risco (finanças, saúde), o modelo deve ser adaptado à função de utilidade específica do usuário, possivelmente via fine-tuning ou prompting com tokens de tarefa.

4. Resultados

Desempenho do Fine-tuning:
- O ajuste fino do realTabPFNv2.5 com Beta Energy Score ( $\beta=1.8$ ) e CRLS resultou em melhorias consistentes na maioria dos conjuntos de dados em métricas como CRPS, Interval Score e, frequentemente, em RMSE e $R^2$ .
- As melhorias medianas foram modestas (geralmente < 2%), mas estatisticamente significativas em muitos casos, com ganhos maiores em datasets específicos (ex: Mercedes Benz, Pol, Digits).
Comparação TabICLv2 vs. realTabPFNv2.5:
- O TabICLv2 demonstrou superioridade geral sobre o realTabPFNv2.5 base quando avaliado por métricas probabilísticas (CRPS, CRLS, Interval Score), vencendo a maioria dos datasets.
- Isso sugere que o TabICLv2 possui uma melhor calibração distribucional nativa.
Efeitos de Amostra Finita:
- No modelo toy bimodal, foi observado que a escolha da função de perda (CRPS vs. Log-Score/Cross-Entropy) altera drasticamente a convergência e a eficiência da amostra. O CRPS mostrou-se mais robusto a outliers e focado na massa global de probabilidade, enquanto o Log-Score é extremamente sensível às caudas.
Dependência da Regra de Pontuação:
- A análise teórica e empírica confirmou que o "melhor modelo" muda dependendo da regra de pontuação escolhida. Um modelo que minimiza o MSE pode ser inferior a um que minimiza o CRPS para um caso de uso específico que valoriza a cobertura de intervalos.

5. Significância e Conclusão

O artigo é fundamental para a evolução do aprendizado de máquina em dados tabulares porque:

Sinaliza o Fim da Era das Estimativas Pontuais: Reforça que, para modelos fundacionais modernos que já geram distribuições, avaliar apenas a média é insuficiente e potencialmente enganoso.
Orienta a Tomada de Decisão: Demonstra que a "melhor" previsão depende do custo do erro no mundo real. Em finanças, subestimar o risco (cauda esquerda) pode ser mais catastrófico do que superestimar. Regras de pontuação adequadas permitem alinhar o treinamento do modelo a esses custos.
Define o Futuro dos Benchmarks: Propõe que futuras competições e avaliações de modelos (como TabArena) devem incorporar métricas como CRPS para garantir que os modelos aprendam a incerteza corretamente.
Desafio Aberto: Levanta a questão de como generalizar modelos fundacionais para atender a infinitas regras de pontuação possíveis. Sugere que o fine-tuning ou o uso de task-tokens condicionais são caminhos necessários para adaptar modelos gerais a casos de uso específicos de alto risco.

Em resumo, o trabalho argumenta que a comunidade de ML deve abandonar a obsessão exclusiva por $R^2$ e MSE em favor de uma avaliação baseada em regras de pontuação adequadas, reconhecendo que a escolha da métrica define o comportamento e a utilidade prática do modelo.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Título: Regressão Distribucional com Modelos Fundacionais Tabulares: Avaliando Previsões Probabilísticas via Regras de Pontuação Adequadas

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significância e Conclusão

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions