Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres predecir el clima de tu ciudad.

El problema de los métodos antiguos:
Hasta ahora, la mayoría de los expertos en predicción hacían lo siguiente: tomaban los datos de los últimos 10 años, los dividían en dos partes (una para "entrenar" y otra para "examinar") y decían: "¡Mira! Mi modelo acertó el 90% de las veces en el examen".

El problema es que este "examen" es estático. Es como si te dieran un mapa de 2010 y te pidieran predecir el tráfico de hoy. Si el modelo se "memorizó" el mapa antiguo, podría sacar una buena nota, pero fallaría estrepitosamente si mañana ocurre un accidente nuevo, se construye un puente o cambia el tráfico por una huelga. Además, en el mundo de la Inteligencia Artificial actual, muchos modelos han "leído" los datos de prueba antes de tiempo, como un estudiante que hace trampa copiando las respuestas del examen final antes de entrar al aula.

La solución: Impermanent (El "Banco de Pruebas en Vivo")
Los autores de este paper, un equipo de TimeCopilot y otras instituciones, han creado algo llamado Impermanent.

Piensa en Impermanent no como un examen de papel, sino como un videojuego en vivo y en directo.

El escenario (GitHub): En lugar de usar datos de clima o ventas de tiendas, usaron la actividad de GitHub (donde los programadores crean software). Imagina que GitHub es una ciudad gigante y caótica donde la gente construye cosas, abre puertas (issues), hace cambios (pushes) y da estrellas a proyectos. Esta ciudad cambia cada segundo: a veces hay una explosión de actividad, a veces se duerme, a veces un nuevo evento mundial cambia todo. Es un entorno que nunca se queda quieto.
La regla de oro (Sin trampas): En este "videojuego", los modelos de IA tienen que hacer predicciones antes de que ocurra el evento.
- Ejemplo: El modelo dice: "Mañana habrá 50 nuevos problemas en este proyecto".
- Luego, el tiempo avanza (un día después), y vemos cuántos problemas hubo realmente.
- Se anota la puntuación.
- ¡Y luego el modelo tiene que hacer la predicción para el día siguiente!
- Esto se repite día tras día, semana tras semana. No hay un "examen final" fijo; es una carrera de resistencia.

¿Por qué es genial esto?

Detecta a los tramposos: Si un modelo se basó en memorizar datos pasados, fallará cuando el mundo cambie. Impermanent lo atrapa al instante.
Mide la resistencia: No solo importa quién gana hoy, sino quién aguanta mejor cuando la situación se vuelve loca (como cuando sale una nueva actualización de software que cambia el comportamiento de todos).
Es justo: Nadie puede "ver el futuro" o leer las respuestas antes de tiempo porque los datos se actualizan en tiempo real.

Los resultados (hasta ahora):
En esta primera prueba, los modelos más modernos (llamados "modelos fundacionales", que son como cerebros de IA muy grandes entrenados con mucha información) ganaron a los métodos tradicionales. Pero hubo sorpresas: algunos modelos antiguos y sencillos fueron muy buenos adivinando el número exacto, pero muy malos adivinando la probabilidad de que algo ocurra.

En resumen:
Impermanent es como poner a los modelos de IA en una carrera de obstáculos en vivo en lugar de un examen de memoria. Nos dice quién realmente entiende cómo funciona el mundo cambiante y quién solo se ha aprendido el libro de texto de memoria. Es una herramienta para asegurarnos de que, cuando usemos estas inteligencias artificiales para predecir el futuro, no nos van a fallar cuando las cosas se pongan reales y caóticas.

El proyecto es de código abierto, lo que significa que cualquiera puede entrar a su "pista de carreras" y ver en vivo quién está ganando hoy.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: IMPERMANENT

1. El Problema: Limitaciones de las Evaluaciones Estáticas

El artículo identifica una brecha crítica en la evaluación de los Modelos Fundacionales de Series Temporales (TSFMs). Aunque estos modelos prometen una generalización amplia a través de dominios, frecuencias y datasets, las metodologías de evaluación actuales son insuficientes por las siguientes razones:

División Estática Train-Test: La mayoría de los benchmarks utilizan particiones fijas de datos. Esto no prueba si el rendimiento se mantiene en entornos no estacionarios y dinámicos del mundo real.
Contaminación de Datos: Los modelos pueden inadvertidamente "memorizar" datos de prueba o realizar selección de modelos basándose en puntuaciones de prueba, inflando artificialmente el rendimiento.
Falta de Robustez Temporal: Las evaluaciones estáticas no capturan la degradación del modelo ante cambios de distribución (concept drift), rupturas estructurales o la aparición de nuevas series temporales, que son inherentes a la predicción en producción.

2. Metodología: El Benchmark "Impermanent"

Los autores introducen Impermanent, el primer benchmark en vivo diseñado específicamente para evaluar la generalización temporal.

Concepto Central: En lugar de una evaluación estática, Impermanent utiliza un protocolo de evaluación pre-cuencial (prequential) y en tiempo real. Los modelos generan pronósticos secuencialmente sobre un flujo de datos en constante actualización.
Fuente de Datos: Se instaura sobre la actividad de desarrollo de software en GitHub (utilizando el GH Archive).
- Selección: Los 400 repositorios más populares por número de "estrellas".
- Series Temporales: Se construyen series para cuatro tipos de eventos: issues abiertos, pull requests abiertos, eventos de push y nuevos stargazers.
- Frecuencias: Horaria, diaria, semanal y mensual.
- Características: El dataset es altamente no estacionario, con comportamientos que van desde tendencias suaves hasta picos volátiles y cambios de régimen, influenciados por lanzamientos, cambios en la plataforma y eventos externos.
Protocolo de Evaluación:
- En cada fecha de corte (cutoff), los modelos reciben una ventana de contexto histórica y deben predecir el horizonte $h$ antes de que existan los datos reales.
- Los pronósticos se almacenan y se puntúan únicamente cuando llegan las observaciones reales (ground truth).
- Métricas: Se utilizan dos métricas complementarias escaladas:
  1. MASE (Mean Absolute Scaled Error): Para la precisión de los puntos.
  2. CRPS escalado (Continuous Ranked Probability Score): Para la calidad de la distribución predictiva (basado en 9 niveles de cuantiles).
- Normalización: Las puntuaciones se escalan respecto a un modelo "cero" (que siempre predice cero) para evitar inestabilidades numéricas y permitir comparaciones entre subconjuntos.

3. Contribuciones Clave

Primera Evaluación en Vivo: Impermanent es, según los autores, el primer benchmark diseñado para medir la generalización temporal mediante un protocolo a prueba de fugas (leak-proof) y secuencial.
Análisis de Estabilidad: Permite estudiar no solo la precisión puntual, sino la robustez ante cambios de distribución, la estabilidad de los rankings de modelos a lo largo del tiempo y la capacidad de recuperación ante choques estructurales.
Infraestructura Automatizada y Reproducible: Todo el pipeline (ingesta de datos, ejecución de modelos, evaluación y leaderboard) es de código abierto, automatizado y se ejecuta en la nube (Modal/AWS). Los modelos se ejecutan a través de TimeCopilot, garantizando la reproducibilidad.
Dataset Diverso: Proporciona un entorno naturalmente dinámico que mezcla comportamientos suaves y volátiles, desafiando a los modelos a adaptarse a patrones cambiantes en lugar de sobreajustarse a una distribución fija.

4. Resultados Iniciales (Snapshot hasta febrero de 2026)

El artículo presenta resultados preliminares que ilustran la capacidad del benchmark para revelar matices que las evaluaciones estáticas podrían ocultar:

Dominio de Modelos Fundacionales: Los modelos pre-entrenados (Foundation Models) ocupan los cuatro primeros puestos en el leaderboard general. TimesFM lidera en tres de las cuatro columnas de métricas.
Discrepancias entre Métricas: Se observa que un modelo puede tener un buen rendimiento en precisión puntual (MASE) pero una mala calibración probabilística (CRPS), y viceversa. Por ejemplo, SeasonalNaive tiene un buen rango en MASE pero un pobre en CRPS.
Dinámica de Rankings: Dado que el benchmark es en vivo, los rankings no son estáticos; evolucionan a medida que se acumulan nuevas fechas de corte, permitiendo verificar si las ventajas iniciales de un modelo persisten bajo cambios continuos de distribución.
Comparación de Modelos:
- Baselines: HistoricAverage, SeasonalNaive.
- Estadísticos: AutoARIMA, AutoETS, AutoCES, DynOptTheta, Prophet.
- Fundacionales: Chronos-2, Moirai 2.0, TimesFM 2.5, TiRex.
- Los modelos fundacionales superan consistentemente a los métodos estadísticos tradicionales en este entorno dinámico.

5. Significado e Impacto

El trabajo de Impermanent representa un cambio de paradigma en la evaluación de series temporales:

De la Precisión Estática a la Sostenibilidad: Cambia el foco de "qué tan bien predice en un conjunto de datos congelado" a "qué tan bien se mantiene el rendimiento en un entorno de despliegue real y cambiante".
Validación de la Generalización: Ofrece una prueba rigurosa para validar si la promesa de generalización de los modelos fundacionales es real o si es un artefacto de la contaminación de datos en benchmarks estáticos.
Recurso Común: Sirve como un recurso compartido para la comunidad para investigar la transición del rendimiento en benchmarks estáticos al rendimiento fiable post-despliegue, fomentando el desarrollo de modelos más robustos y adaptativos.

En conclusión, Impermanent establece un nuevo estándar para la evaluación de modelos de predicción, priorizando la robustez temporal y la adaptabilidad en lugar de la mera precisión histórica.

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Resumen Técnico: IMPERMANENT

1. El Problema: Limitaciones de las Evaluaciones Estáticas

2. Metodología: El Benchmark "Impermanent"

3. Contribuciones Clave

4. Resultados Iniciales (Snapshot hasta febrero de 2026)

5. Significado e Impacto

Más como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions