Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Este estudio analiza los tiempos de parada totales de la conjetura de Collatz mediante un enfoque de aprendizaje automático bayesiano, demostrando que un modelo de regresión binomial negativa jerárquica supera a los generadores mecánicos basados en descomposición de bloques, aunque la incorporación de la estructura modular baja mejora significativamente el ajuste de estos últimos.

Nicolò Bonacorsi, Matteo Bordoni

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el Conjunto de Collatz es como un juego de mesa matemático muy antiguo y misterioso. La regla es simple: si el número es par, lo divides por 2; si es impar, lo multiplicas por 3 y le sumas 1. Repites esto hasta llegar al número 1.

El gran misterio (la "Conjetura de Collatz") es si todos los números, sin importar cuán grandes sean, eventualmente llegarán al 1. Nadie ha podido probarlo con una fórmula mágica.

Pero en este artículo, los autores (Nicolò y Matteo) dicen: "Olvídate de intentar probarlo matemáticamente por ahora. En su lugar, hagamos de detectives estadísticos". En lugar de preguntar "¿Llegará siempre al 1?", preguntan: "¿Cuántos pasos tarda en llegar?" y "¿Podemos predecir ese tiempo?".

Aquí tienes la explicación de su investigación, traducida a un lenguaje sencillo con analogías:

1. El Problema: Un Viaje Caótico

Imagina que lanzas un dado gigante (el número nn) y tratas de ver cuántos pasos tarda en llegar a la meta (el 1).

  • La sorpresa: No todos los números tardan lo mismo. Algunos llegan rápido, otros tardan muchísimo.
  • El patrón: Si miras los datos, ves que la mayoría tarda un tiempo "normal", pero hay algunos "viajeros extremos" que tardan muchísimo más (una cola larga). Además, el tiempo no es aleatorio al azar; depende de la "personalidad" del número (si es par, impar, o qué resto deja al dividirlo por 8).

Los autores analizaron 10 millones de números para ver este comportamiento.

2. La Primera Solución: El "Oráculo Estadístico" (Modelo de Regresión)

La primera herramienta que construyeron es como un oráculo muy inteligente (un modelo de aprendizaje automático).

  • ¿Cómo funciona? Imagina que le preguntas al oráculo: "Oye, si el número es muy grande (log n) y si al dividirlo por 8 deja un resto específico (n mod 8), ¿cuánto tardará en llegar a 1?".
  • La magia: El oráculo no da una respuesta exacta (porque es imposible), sino que dibuja una nube de probabilidades. Te dice: "Es muy probable que tarde entre 150 y 160 pasos, pero hay una pequeña chance de que tarde 500".
  • El resultado: Este oráculo es increíblemente bueno adivinando el tiempo exacto. Es como tener un mapa de tráfico que te dice exactamente cuánto tardarás en llegar a casa basándose en la hora y el código postal.

3. La Segunda Solución: El "Simulador de Bloques" (Modelo Mecánico)

La segunda herramienta es más como un simulador de videojuego que intenta imitar cómo funciona el juego desde adentro.

  • La idea: El juego tiene un patrón oculto. Cuando un número es impar, se multiplica por 3 y se suma 1, convirtiéndose en un número par. Luego, ese número par se divide por 2 una, dos o tres veces hasta volver a ser impar.
  • El truco: Los autores dicen: "Vamos a tratar esos grupos de divisiones como si fueran 'bloques' aleatorios". En lugar de calcular cada paso, simulan que cada bloque tiene una longitud aleatoria (como lanzar una moneda para ver cuántas veces cae 'cara' antes de 'cruz').
  • El problema inicial: Si simulan esto de forma totalmente aleatoria, el simulador se equivoca mucho. Es como intentar predecir el clima asumiendo que llueve igual todos los días, sin importar la estación.
  • La mejora: Se dieron cuenta de que la "longitud del bloque" depende de si el número es par o impar de una manera específica (módulo 8). Cuando ajustaron el simulador para tener en cuenta este detalle, ¡mejoró mucho! Aunque sigue siendo menos preciso que el oráculo, es más "honesto" porque explica por qué pasa lo que pasa.

4. La Gran Comparación: ¿Quién gana?

Al final, pusieron a los dos modelos a competir contra datos reales que no habían visto antes:

  1. El Oráculo (Regresión Bayesiana): Ganó por goleada. Fue el mejor adivinando los tiempos exactos. Es la herramienta práctica si solo quieres predecir resultados.
  2. El Simulador (Bloques): Perdió en precisión, pero ganó en explicación. Nos ayudó a entender que la "estructura oculta" de los números (esa regla de módulo 8) es la clave de por qué algunos tardan tanto.

La Conclusión en una Frase

El artículo nos dice que, aunque no podemos resolver el misterio matemático de por qué el juego siempre termina en 1, podemos modelar estadísticamente cómo se comporta.

  • Si quieres predecir el futuro, usa un modelo estadístico inteligente (el Oráculo).
  • Si quieres entender la mecánica del juego, usa el simulador de bloques, pero asegúrate de incluir las reglas ocultas (módulo 8).

Es como si intentáramos entender el tráfico en una ciudad:

  • El Oráculo es una app de GPS que te dice: "Llegarás en 20 minutos".
  • El Simulador es un ingeniero de tráfico que dice: "Llegarás en 20 minutos porque hay un semáforo rojo cada 3 calles, pero si cambiamos ese semáforo, el tiempo cambiará".

Ambos son útiles, pero sirven para cosas diferentes. Los autores nos muestran cómo combinar la intuición matemática con la potencia de la inteligencia artificial para estudiar problemas antiguos.