Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una charla entre expertos que han descubierto un secreto importante sobre cómo predecir el futuro usando datos. Aquí te lo explico de forma sencilla, con analogías cotidianas.

🌟 El Problema: "El Pronóstico del Tiempo" vs. "La Realidad"

Imagina que eres un agricultor y necesitas saber si mañana lloverá.

El método antiguo (Punto único): Un meteorólogo te dice: "Mañana lloverá exactamente 5 milímetros". Si llueve 4 o 6, te sientes decepcionado. Si llueve 0, te enfadas. Si llueve 20, te arruinas. El modelo solo te da un número fijo, como si el mundo fuera una línea recta perfecta.
El nuevo método (Distribución): Un meteorólogo moderno te dice: "Mañana hay un 30% de probabilidad de que no llueva nada, un 50% de que lluevan entre 2 y 8 mm, y un 20% de que sea una tormenta de 20 mm". Te entrega un "abanico" de posibilidades, como un mapa de colores.

Los modelos de Inteligencia Artificial recientes (llamados TabPFN y TabICL) son como esos meteorólogos modernos. Pueden predecir ese "abanico" de posibilidades en lugar de solo un número. ¡Es un gran avance!

🚨 El Error en la Prueba: "El Juez Malvado"

Aquí es donde entra el problema que detectan los autores. Imagina que tenemos una competencia de meteorólogos y un Juez que decide quién gana.

El Juez actual: Solo mira si el número que predijeron está cerca del número real. Si el modelo dijo "5 mm" y llovió "6 mm", el Juez le da una buena nota. Si el modelo dijo "5 mm" y llovió "0 mm" (una sequía total), el Juez le da una mala nota.
El problema: Este Juez está obsesionado con el promedio. Obliga a los modelos a intentar adivinar el "promedio" de todo, ignorando si esa predicción tiene sentido en la realidad.

La analogía del dado:
Imagina que tienes un dado de 6 caras.

El promedio matemático es 3.5.
Si un modelo te dice que el resultado será 3.5, el Juez antiguo le daría una nota perfecta porque es el promedio exacto.
¡Pero 3.5 nunca puede salir en un dado! Es un número imposible.
Un buen modelo debería decirte: "Hay 1/6 de probabilidad de que salga 1, 1/6 de que salga 2...".

El artículo dice: "¡Dejemos de juzgar a los modelos solo por si aciertan el promedio! Necesitamos juzgarlos por qué tan bien describen todo el abanico de posibilidades."

🎯 La Solución: Nuevas Reglas de Juego (Puntajes Propios)

Para arreglar esto, los autores proponen cambiar las reglas del juego usando lo que llaman "Reglas de Puntuación Propias" (Proper Scoring Rules).

CRPS (La Regla de la Distancia): En lugar de solo mirar si acertaste el número, esta regla mide qué tan lejos está tu predicción de la realidad.
- Analogía: Si predijiste que llovería "entre 2 y 8 mm" y llovió 7 mm, ¡es una buena predicción! Si predijiste "entre 2 y 8 mm" y llovió 50 mm, es un error grande. Esta regla castiga más si te alejas mucho de la realidad, incluso si tu "promedio" era correcto.
El Sesgo del Entrenador:
Los autores descubrieron algo fascinante: La herramienta que usas para entrenar al modelo cambia cómo piensa el modelo.
- Si entrenas a un modelo para que sea perfecto en "acertar el promedio", se volverá un experto en promedios (y perderá la capacidad de ver extremos).
- Si lo entrenas con la regla CRPS, se vuelve un experto en ver la distribución completa.
- Analogía: Es como entrenar a un atleta. Si solo le pides que corra rápido en línea recta, será un buen corredor de 100m planos. Pero si le pides que corra por un terreno rocoso y con curvas, aprenderá a saltar y girar. No puedes pedirle al atleta que haga ambas cosas perfectamente si solo lo entrenaste para una.

💡 ¿Qué nos dicen los resultados?

Los autores probaron sus ideas con datos reales (como precios de casas, ventas de coches, etc.) y descubrieron:

Los modelos nuevos son geniales: Ya pueden predecir distribuciones completas (el "abanico" de posibilidades).
Pero necesitamos mejores métricas: Si seguimos usando las métricas viejas (solo promedios), no estamos viendo todo el potencial de estos modelos.
El entrenamiento importa: Si quieres que el modelo sea útil para un negocio específico (por ejemplo, un banco que quiere evitar pérdidas grandes), debes entrenarlo con una regla de puntuación que castigue específicamente esos errores, no solo el error promedio.

🚀 En Resumen

Este artículo es un llamado a la acción para la comunidad de Inteligencia Artificial:

"Dejen de obsesionarse solo con el promedio. El mundo es caótico y tiene muchas posibilidades. Entrenen a sus modelos para entender esa incertidumbre y juzguen su éxito con reglas que premien la precisión de todo el panorama, no solo de un punto en el mapa."

Es como pasar de pedirle a un chef que solo cocine "la sopa promedio" a pedirle que prepare un menú completo que se adapte a los gustos de cada comensal, y evaluarlo por qué tan rico está el plato completo, no solo por la temperatura de la sopa.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: Regresión Distribucional con Modelos Fundacionales Tabulares

Título: Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
Autores: Jonas Landsgesell y Pascal Knoll
Fecha: Febrero 2026

1. El Problema

Los modelos fundacionales para datos tabulares, como TabPFN y TabICL, han revolucionado el aprendizaje profundo tabular mediante el uso de aprendizaje en contexto (in-context learning). Aunque estos modelos han demostrado un rendimiento excepcional en métricas tradicionales de regresión (como Error Cuadrático Medio - MSE, o $R^2$ ), el artículo identifica una debilidad crítica en los benchmarks actuales:

Enfoque en estimaciones puntuales: Las métricas estándar (MSE, $R^2$ ) evalúan únicamente la precisión de una estimación puntual (generalmente la media condicional). Esto ignora la incertidumbre aleatoria y la estructura completa de la distribución de probabilidad.
Inadecuación para escenarios multimodales: En problemas donde la variable objetivo tiene múltiples modos (distribuciones bimodales o complejas), una estimación de la media puede caer en regiones de baja probabilidad o ser físicamente inviable (ej. predecir 3.5 en un dado de 6 caras), resultando en predicciones inútiles para la toma de decisiones.
Sesgo de las métricas actuales: Los leaderboards actuales incentivan a los investigadores a optimizar pipelines que solo buscan un buen valor medio, descuidando la calidad de las predicciones probabilísticas completas.

2. Metodología

El artículo propone un cambio de paradigma hacia la regresión distribucional, donde el objetivo es predecir la función de densidad de probabilidad (PDF) completa en lugar de un solo valor.

Reglas de Puntuación Propias (Proper Scoring Rules): Se introduce el uso de reglas de puntuación estrictamente propias para evaluar la calidad de las predicciones probabilísticas. Una regla es "propia" si el puntaje esperado se minimiza únicamente cuando la distribución predicha coincide con la distribución real.
Comparación de Reglas de Puntuación:
- Log-Score (Cross-Entropy): Sensible a la cola de la distribución, pero ignora la distancia geométrica entre bins (trata los valores como categorías independientes).
- CRPS (Continuous Ranked Probability Score): Integra las pérdidas de "pinball" sobre todos los cuantiles. Es más robusto ante valores atípicos y considera la estructura ordinal de los datos.
- Beta-Energy Score: Una familia de métricas parametrizable ( $\beta$ ) que permite ajustar el sesgo inductivo (ej. $\beta=1$ favorece la mediana, $\beta=2$ favorece la media).
- CRLS (Continuous Ranked Logarithmic Scoring Rule): Una variante logarítmica del CRPS.
Experimentos de Fine-Tuning: Se toma el modelo base realTabPFNv2.5 y se realiza un fine-tuning utilizando diferentes funciones de pérdida basadas en estas reglas de puntuación (Beta-Energy con $\beta=1.8$ , CRLS, etc.) en un conjunto diverso de datasets de OpenML.
Análisis de Sesgo Inductivo: Se utiliza un modelo juguete (toy model) para demostrar teóricamente y empíricamente que la elección de la regla de puntuación cambia el "óptimo" del modelo entrenado, incluso si todas son reglas propias.

3. Contribuciones Clave

Propuesta de Mejora de Benchmarks: Se aboga por incorporar métricas de regresión probabilística (principalmente CRPS y Beta-Energy Score) en los estándares de evaluación (como TabArena o TALENT) para reflejar mejor la utilidad de los modelos fundacionales.
Evaluación Empírica: Se presentan las primeras evaluaciones de realTabPFNv2.5 y TabICLv2 utilizando reglas de puntuación propias, demostrando que estos modelos ya realizan regresión distribucional (predicen histogramas discretizados).
Evidencia de Fine-Tuning: Se demuestra que ajustar (fine-tuning) modelos fundacionales pre-entrenados con reglas de puntuación específicas (como CRPS o Beta-Energy) mejora significativamente su rendimiento en métricas probabilísticas y, en muchos casos, también en métricas puntuales.
Análisis del Sesgo Inductivo: Se ilustra que diferentes reglas de puntuación inducen diferentes sesgos en el modelo. La elección de la regla determina qué tipo de error se penaliza más, afectando qué modelo se considera "óptimo" para un caso de uso específico.
Discusión sobre Adaptabilidad: Se plantea el conflicto entre tener un modelo fundacional generalista y la necesidad de adaptar la función de utilidad (regla de puntuación) a casos de negocio específicos (ej. finanzas con riesgos asimétricos).

4. Resultados

Los experimentos se realizaron en múltiples datasets de OpenML con validación cruzada de 5 pliegues:

Mejoras con Fine-Tuning:
- El fine-tuning de realTabPFNv2.5 con Beta-Energy Score ( $\beta=1.8$ ) y CRLS mejoró consistentemente el rendimiento en la mayoría de los datasets.
- Se observaron mejoras medianas en CRPS (~~2-3%) y $R^2$ (~~0.25-0.33 puntos porcentuales), con ganancias significativas en datasets específicos (ej. Mercedes Benz, Pol, Digits).
Comparación de Modelos (TabICLv2 vs. realTabPFNv2.5):
- TabICLv2 superó a realTabPFNv2.5 en la mayoría de las métricas probabilísticas (CRPS, CRLS, Interval Score), ganando en la gran mayoría de los datasets evaluados.
- TabICLv2 mostró una mayor capacidad para capturar la estructura de probabilidad completa, especialmente en métricas como el Interval Score al 95%.
Efecto del Sesgo Inductivo (Modelo Juguete):
- En el experimento con funciones objetivo multimodales, se demostró que el modelo "mejor" cambia dependiendo de la regla de puntuación elegida. Un modelo que minimiza el error absoluto (mediana) puede ser inferior a uno que minimiza el error cuadrático (media) según la métrica de evaluación, a pesar de que ambos son "óptimos" bajo sus respectivas reglas.
Robustez: El CRPS demostró ser más robusto frente a valores atípicos en comparación con el Log-Score (Cross-Entropy) durante el entrenamiento con muestras finitas.

5. Significado e Impacto

Este trabajo es fundamental para el futuro del aprendizaje automático tabular por varias razones:

Cambio de Paradigma en Evaluación: Marca la transición de evaluar modelos solo por su capacidad de predecir un valor medio (MSE) a evaluar su capacidad de cuantificar la incertidumbre y predecir distribuciones completas.
Relevancia para la Toma de Decisiones: En aplicaciones del mundo real (finanzas, energía, farmacéutica), el costo de los errores no es simétrico. Una métrica como el MSE puede ser engañosa si no captura el riesgo de la cola de la distribución. El uso de reglas de puntuación propias permite alinear el entrenamiento del modelo con la función de utilidad real del negocio.
Guía para el Desarrollo de Modelos Fundacionales: Sugiere que los modelos fundacionales futuros deberían ser diseñados o fine-tuneados para ser adaptables a diferentes reglas de puntuación (posiblemente mediante prompts o tokens de tarea), permitiendo que un mismo modelo base sirva para múltiples contextos de riesgo sin necesidad de reentrenamiento completo desde cero.
Advertencia sobre la Incertidumbre Epistémica: El artículo advierte que, aunque las reglas de puntuación propias son teóricamente sólidas, los modelos entrenados para optimizar el puntaje esperado pueden tener dificultades con eventos extremos o raros (colas de distribución) si no han visto datos similares durante el entrenamiento.

En conclusión, el artículo establece que la regresión distribucional es el camino correcto para los modelos fundacionales tabulares y que la elección de la regla de puntuación es una decisión crítica que define el comportamiento, el sesgo y la utilidad práctica del modelo.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

🌟 El Problema: "El Pronóstico del Tiempo" vs. "La Realidad"

🚨 El Error en la Prueba: "El Juez Malvado"

🎯 La Solución: Nuevas Reglas de Juego (Puntajes Propios)

💡 ¿Qué nos dicen los resultados?

🚀 En Resumen

Resumen Técnico: Regresión Distribucional con Modelos Fundacionales Tabulares

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions