Ergodicity in reinforcement learning

Este artículo examina cómo los procesos de recompensa no ergódicos hacen que la optimización del valor esperado sea inadecuada para el rendimiento individual en el aprendizaje por refuerzo, relacionando este concepto con las cadenas de Markov ergódicas y presentando soluciones para maximizar el rendimiento a largo plazo en trayectorias individuales.

Dominik Baumann, Erfaun Noorani, Arsenii Mustafin, Xinyi Sheng, Bert Verbruggen, Arne Vanhoyweghen, Vincent Ginis, Thomas B. Schön

Publicado 2026-03-12
📖 6 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¿Por qué lo que funciona en promedio, falla en la vida real?

Una explicación sencilla sobre la "Ergodicidad" en la Inteligencia Artificial

Imagina que eres un entrenador de un equipo de fútbol. Tu objetivo es que el equipo gane el campeonato.

En el mundo de la Inteligigencia Artificial (IA) y el Aprendizaje por Refuerzo (donde las máquinas aprenden probando cosas), los científicos suelen usar una regla muy simple: "Elige la acción que, en promedio, te da más puntos".

Parece lógico, ¿verdad? Si lanzas una moneda 100 veces y ganas dinero la mitad de las veces, el promedio dice que es una buena idea. Pero este artículo de Dominik Baumann y su equipo nos dice algo muy importante: A veces, el promedio es una trampa mortal.

1. El problema: La trampa del "Promedio" vs. La realidad de "Tu Vida"

El artículo introduce un concepto llamado Ergodicidad. Suena complicado, pero es muy simple:

  • El escenario ergódico (El promedio funciona): Imagina que tienes 100 amigos. Todos juegan a la lotería. Algunos ganan mucho, otros pierden todo. Si promediamos el dinero de los 100, quizás sale que "ganaron". Aquí, el promedio representa bien lo que le pasa a la gente.
  • El escenario NO ergódico (El promedio es mentira): Imagina que eres el único jugador. Si juegas a la lotería y pierdes, te quedas sin dinero y el juego se acaba para ti. No puedes "repartir" tu pérdida entre tus amigos. Si el juego tiene una pequeña probabilidad de que pierdas todo (tu vida, tu robot, tu empresa), el promedio matemático puede decirte que "vale la pena jugar", pero en la realidad, tú terminarás en la bancarrota.

La analogía de la Ruleta Rusa:
El artículo usa un ejemplo clásico. Imagina un robot repartidor.

  • Ruta A (Peligrosa): Es rápida. Ganas muchos puntos por entrega. Pero hay un 1% de probabilidad de que un peatón lo destruya. Si se destruye, el robot deja de existir y nunca más gana puntos.
  • Ruta B (Segura): Es lenta. Ganas menos puntos por entrega, pero nunca te destruyen.

Si miras el promedio de muchas entregas, la Ruta A parece mejor (ganas más puntos rápidos). Pero si sigues eligiendo la Ruta A una y otra vez, eventualmente (casi con seguridad) el robot se destruirá y su puntuación total será cero. La Ruta B, aunque lenta, te permite jugar para siempre y ganar más a largo plazo.

La lección: En la vida real (y en la IA que se despliega en el mundo), no tenemos infinitos robots para promediar. Tenemos un solo robot. Si ese robot muere, el juego termina. Optimizar solo para el "promedio" puede llevar a la destrucción del agente.

2. El ejemplo de la moneda (El dinero que crece o muere)

Los autores usan un juego de monedas para demostrarlo:

  • Tienes 100 dólares.
  • Lanzas una moneda.
    • Si sale cara: Multiplicas tu dinero por 1.5 (ganas un 50%).
    • Si sale cruz: Multiplicas tu dinero por 0.6 (pierdes un 40%).

La matemática del promedio dice: "¡Juega todo el tiempo! En promedio, ganas un 5% por ronda. ¡Hazlo!".
La realidad dice: Si juegas muchas rondas, la mayoría de la gente termina con cero dólares. ¿Por qué? Porque perder el 40% es más difícil de recuperar que ganar el 50%. Si pierdes dos veces seguidas, tu dinero se reduce drásticamente. La mayoría de las trayectorias individuales van hacia la ruina, aunque el "promedio" de todos los jugadores imaginarios diga que hay riqueza.

Los algoritmos de IA actuales (como los que usan las empresas de tecnología) suelen seguir la lógica del "promedio" y, por eso, en estos juegos, aprenden estrategias que llevan al fracaso.

3. ¿Cómo arreglan esto los científicos?

El artículo no solo señala el problema, sino que ofrece tres formas de arreglarlo para que la IA aprenda a sobrevivir y prosperar a largo plazo:

A. Cambiar la "lupa" (Transformaciones Ergódicas)

En lugar de mirar el dinero directamente, la IA aprende a mirar el dinero a través de un "filtro" matemático especial.

  • Analogía: Es como si, en lugar de medir la temperatura en grados Celsius (que puede ser confusa), midieras la sensación térmica real que siente tu piel.
  • La IA aprende a transformar los puntos de tal manera que el "promedio" de esa nueva medida coincida con lo que le pasa a un solo agente en el tiempo. Así, deja de buscar el "promedio mágico" y empieza a buscar el crecimiento real y seguro.

B. Mirar el "Crecimiento Geométrico" (El promedio de lo que realmente pasa)

En lugar de sumar los puntos y dividirlos (promedio aritmético), la IA aprende a multiplicar los resultados (promedio geométrico).

  • Analogía: Si tienes una bacteria que se duplica cada hora, no sumas las bacterias de ayer con las de hoy; las multiplicas.
  • Este método le dice a la IA: "No te fíes de la posibilidad de ganar mucho una vez; fíjate en cuánto crece tu riqueza de forma constante y segura". Esto evita las apuestas suicidas.

C. Entrenar con "Tiempo Real" (Aprender de la historia)

Normalmente, la IA entrena mirando muchos ejemplos cortos. Este método le obliga a vivir una sola historia muy larga.

  • Analogía: Es la diferencia entre leer 100 resúmenes de un libro (promedio) y leer un solo libro de principio a fin (trayectoria).
  • Al obligar a la IA a repetir el mismo juego una y otra vez en su entrenamiento, aprende que si toma un riesgo hoy, las consecuencias se acumulan mañana. Aprende a ser "conservador" no por miedo, sino porque entiende que el tiempo es su enemigo si comete un error fatal.

Conclusión: ¿Por qué nos importa?

Este artículo es una advertencia para el futuro de la Inteligencia Artificial.

Si queremos que los robots, los coches autónomos o los sistemas financieros de IA funcionen bien en el mundo real, no podemos dejar que optimicen solo para el "promedio estadístico". En la vida real, no tenemos un segundo intento. Si un robot de cirugía comete un error fatal, no podemos "reiniciar" el promedio.

Los autores nos dicen que debemos cambiar la forma en que enseñamos a las máquinas: dejar de buscar el máximo promedio y empezar a buscar la supervivencia y el crecimiento sostenido en el tiempo.

En resumen: No juegues a la ruleta rusa solo porque las matemáticas dicen que, en promedio, ganarás. En la vida real, solo tienes una vida.