Training Large Language Models To Reason In Parallel With Global Forking Tokens

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un equipo de genios (una Inteligencia Artificial) a los que les pides que resuelvan un problema de matemáticas muy difícil.

El problema de las IAs actuales es que, cuando se les pide que "piensen más" para resolver algo complejo, a menudo se vuelven demasiado obsesivas. Empiezan a dar vueltas en círculos, repitiendo el mismo error una y otra vez, o se pierden en un laberinto de ideas que no llevan a ninguna parte. A esto los autores lo llaman "pensar en exceso" (overthinking).

Además, si intentamos forzarlas a pensar de formas diferentes simplemente cambiando un botón de "aleatoriedad", suelen perder precisión: o piensan mucho pero mal, o piensan poco pero bien.

Esta paper presenta una solución brillante llamada SSFT (Ajuste Fino Supervisado por Conjuntos) y GFPO (Optimización de Políticas de Bifurcación Global). Aquí te lo explico con analogías sencillas:

1. El Problema: El "Árbol de Pensamiento" Atascado

Imagina que el pensamiento de la IA es un árbol. Para llegar a la respuesta correcta, el árbol necesita ramificarse en diferentes direcciones (pensamientos) en algún momento.

Lo malo: En los modelos actuales, esas "ramas" importantes (donde el pensamiento cambia de dirección para ser creativo) suelen estar muy profundas en el árbol. Es como si tuvieras que caminar 100 metros por un bosque oscuro para encontrar la bifurcación correcta. Si te equivocas al principio, el árbol entero crece mal.
El intento fallido: Antes, los investigadores decían: "¡Hazlo más aleatorio!". Pero eso es como ponerle a la IA un sombrero de payaso: se vuelve loca y creativa, pero deja de ser precisa.

2. La Solución: Los "Semáforos de Pensamiento" (Tokens de Bifurcación Global)

Los autores tienen una idea genial: ¿Y si le damos a la IA un panel de control con botones especiales antes de que empiece a pensar?

En lugar de dejar que la IA decida aleatoriamente cuándo cambiar de estrategia, les dan 6 botones especiales (llamados tokens de bifurcación global, como <think 1>, <think 2>, etc.).

Botón 1: "Piensa como un arquitecto: estructura el problema primero".
Botón 2: "Piensa como un detective: busca errores en la lógica".
Botón 3: "Piensa como un artista: usa simetría y patrones".

La magia no está en los botones en sí, sino en cómo se entrenó a la IA para entender qué botón usar.

3. El Entrenamiento: El "Matchmaking" Perfecto (SSFT)

Aquí es donde entra la parte más creativa del papel. Imagina que tienes un grupo de 4 estudiantes geniales (que ya saben resolver el problema de 4 formas diferentes) y 6 botones en el panel de control.

El entrenamiento tradicional (SFT) es como mezclar a todos los estudiantes en una sola pila y decir: "¡Escriban una respuesta!". El resultado es que todos empiezan a pensar igual, perdiendo sus talentos únicos.

El método SSFT hace algo diferente, como un algoritmo de emparejamiento perfecto:

Mira las 4 respuestas geniales de los estudiantes.
Mira los 6 botones disponibles.
Calcula matemáticamente: "¿Qué botón se parece más a la forma de pensar del Estudiante A? ¿Y cuál al Estudiante B?".
Asigna cada botón a la estrategia de pensamiento que mejor encaja con él.

Al hacer esto miles de veces, la IA aprende que si presionas el Botón 1, debe activar el "cerebro de Arquitecto", y si presionas el Botón 2, debe activar el "cerebro de Detective".

El resultado: La IA ya no necesita adivinar cómo pensar. Tú le das el botón, y ella sabe exactamente qué "modo de pensamiento" activar.

4. La Prueba de Fuego: GFPO (El Entrenador)

Una vez que la IA tiene estos botones, los autores usan una técnica llamada GFPO. Imagina que la IA es un atleta y tú eres el entrenador.

Le dices: "Usa el Botón 3 para este problema".
Si acierta, le das una palmada en la espalda (refuerzo positivo).
Si falla, le dices: "Intenta con el Botón 5, este problema requiere otro enfoque".

Con el tiempo, la IA aprende a elegir automáticamente el botón correcto para cada problema nuevo, sin que tú tengas que adivinarlo.

¿Por qué es importante?

Diversidad sin caos: Logran que la IA piense de muchas formas diferentes (diversidad) pero siempre manteniendo la precisión (exactitud).
Evita el "pensar en exceso": Al tener un botón específico para "pensar rápido" y otro para "pensar profundo", la IA no se pierde en laberintos innecesarios.
Mejores resultados: En pruebas de matemáticas y programación, estos modelos con "botones de pensamiento" resolvieron más problemas correctamente que los modelos tradicionales, incluso cuando se les pidió generar muchas respuestas a la vez.

En resumen

Imagina que antes, pedirle a una IA que pensara fuera como lanzar un dado en un bosque oscuro y esperar que aterrice en el camino correcto.
Con este nuevo método, le das a la IA un mapa con 6 caminos marcados de colores. Tú le dices: "Ve por el camino azul", y la IA sabe exactamente cómo caminar por él para llegar a la meta sin perderse. Es una forma de enseñar a la máquina a tener "personalidades" distintas de pensamiento y saber cuándo usarlas.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Training Large Language Models to Reason in Parallel with Global Forking Tokens", publicado en ICLR 2026.

1. El Problema: La Compensación Diversidad-Accuracia en el Escalado Paralelo

Los Grandes Modelos de Lenguaje (LLMs) han mejorado su capacidad de razonamiento mediante el escalado de cómputo en tiempo de prueba (test-time compute). Sin embargo, existen dos enfoques principales con limitaciones:

Escalado Secuencial: Generar cadenas de pensamiento (CoT) más largas a menudo conduce al "sobre-pensamiento" (overthinking), donde el rendimiento disminuye tras cierto umbral de longitud.
Escalado Paralelo: Generar múltiples trayectorias de razonamiento en paralelo y agregarlas (ej. Self-Consistency). El problema central aquí es que, para problemas difíciles, los tokens que desencadenan modos de razonamiento diversos y correctos ("tokens de bifurcación") suelen estar muy profundos en el árbol de muestreo.
- Las estrategias comunes para fomentar la diversidad, como aumentar la temperatura, crean una compensación negativa entre diversidad y precisión: al aumentar la temperatura para obtener más variedad, se sacrifica la precisión de las trayectorias correctas.
- Además, la teoría reciente sugiere que aumentar la temperatura no garantiza diversidad si el modelo no ha sido entrenado explícitamente para cubrir el espacio de soluciones.

El objetivo del trabajo es entrenar modelos que puedan generar trayectorias de razonamiento diversas y precisas en paralelo de manera controlada, sin depender de la aleatoriedad del muestreo o de la temperatura.

2. Metodología: SSFT y Tokens de Bifurcación Global

Los autores proponen tratar el razonamiento paralelo como un problema de predicción de un conjunto de siguientes tokens (set of next-token prediction) y presentan dos componentes clave:

A. Tokens de Bifurcación Global (Global Forking Tokens)

En lugar de dejar que el modelo elija aleatoriamente cómo razonar, se introducen tokens especiales reservados (ej. <think 1>, <think 2>, ..., <think N>) que actúan como "interruptores" o prompts para activar modos de razonamiento específicos y distintos.

B. Set Supervised Fine-Tuning (SSFT)

El núcleo de la propuesta es un nuevo esquema de ajuste fino supervisado que utiliza una pérdida basada en conjuntos (set-based loss).

Problema de Emparejamiento: Dado un conjunto de $M$ trazas de razonamiento correctas (obtenidas de maestros diversos) y un conjunto de $N$ tokens de bifurcación global ( $N \ge M$ ), el modelo debe aprender a asociar cada token único con una traza única.
Emparejamiento Bipartito Óptimo: En lugar de entrenar con una asignación fija y aleatoria, SSFT calcula la matriz de costos (pérdida de predicción de tokens) para todas las combinaciones posibles entre tokens y trazas. Luego, utiliza el Algoritmo Húngaro para encontrar el emparejamiento bipartito óptimo ( $\hat{\sigma}$ ) que minimiza la pérdida total.
Función de Pérdida: Se minimiza la pérdida de verosimilitud negativa (NTP) bajo este emparejamiento óptimo. Esto permite que el modelo aprenda qué token de control (<think i>) es el más adecuado para generar una traza específica, sin penalizar si una traza se genera bien bajo un token diferente, siempre que exista una asignación global óptima.

C. Global Forking Policy Optimization (GFPO)

Una vez que el modelo ha aprendido a asociar tokens con modos de razonamiento mediante SSFT, se aplica un paso adicional de Aprendizaje por Refuerzo (RL) ligero.

GFPO optimiza únicamente la distribución de probabilidad de seleccionar el token de bifurcación correcto ( $g(i)$ ) dado un problema ( $x$ ).
Esto permite que el modelo elija dinámicamente el token de bifurcación más prometedor para un problema específico, mejorando aún más el rendimiento en Pass@1.

3. Contribuciones Clave

Introducción de Tokens de Bifurcación Global: Un mecanismo para controlar explícitamente la diversidad del razonamiento mediante tokens reservados, evitando la dependencia del muestreo estocástico durante la generación.
SSFT (Set Supervised Fine-Tuning): Un nuevo algoritmo de entrenamiento que utiliza emparejamiento bipartito óptimo para aprender a mapear tokens de control a trazas de razonamiento diversas. A diferencia del SFT estándar, SSFT evita el colapso de modos (donde el modelo ignora la diversidad y genera siempre lo mismo) y preserva múltiples estrategias de razonamiento.
GFPO: Un método eficiente de RL que refina la selección de estos tokens, logrando que el modelo elija la estrategia óptima para cada problema.
Evidencia Empírica: Demostración de que SSFT aprende correlaciones únicas entre tokens y estrategias (visualizado mediante la divergencia en la longitud del pensamiento y la precisión entre diferentes tokens), algo que no ocurre con el SFT estándar o emparejamientos aleatorios.

4. Resultados Experimentales

Los modelos fueron evaluados en benchmarks de razonamiento matemático (AIME 2024/2025, MATH-500, GPQA-Diamond) y generación de código (LiveCodeBench), utilizando Qwen2.5-32B como base.

Rendimiento en Pass@1: SSFT-32B superó consistentemente a los modelos base y a los modelos SFT entrenados con múltiples trazas (tratadas como datos independientes).
- En AIME 2024, SSFT alcanzó un 64.06% de Pass@1, superando al mejor SFT de referencia (58.23%) en más de 5 puntos porcentuales.
Rendimiento en Cons@k (Consistencia): Bajo cómputo paralelo (ej. Cons@6 y Cons@32), SSFT mostró una cobertura superior.
- En AIME 2025, SSFT logró un 73.94% en Cons@6 y 86.67% en Cons@32, superando significativamente a las variantes SFT y a los modelos con emparejamiento aleatorio.
Generalización: Los modelos entrenados con SSFT mostraron una mejor generalización fuera de distribución (OOD), especialmente en tareas de generación de código (LiveCodeBench), donde el espacio de búsqueda es más abierto.
Análisis de Diversidad:
- Los modelos SSFT con emparejamiento óptimo mostraron que diferentes tokens (<think 1> a <think 6>) activaban estrategias de razonamiento distintas con diferentes longitudes y niveles de precisión.
- En contraste, los modelos con SFT estándar o emparejamiento aleatorio colapsaron estos modos, mostrando poca diferencia en la longitud o precisión entre los tokens.

5. Significado e Impacto

Este trabajo es significativo porque:

Resuelve el dilema Diversidad-Precisión: Ofrece una solución de entrenamiento (SSFT) que permite obtener tanto diversidad como alta precisión en el razonamiento paralelo, eliminando la necesidad de depender de temperaturas altas que degradan la calidad.
Control Explícito del Razonamiento: Introduce una nueva forma de "dirigir" el comportamiento del modelo mediante tokens de control aprendidos, lo cual es crucial para sistemas de IA autónomos (agentic AI) que necesitan explorar múltiples caminos de solución de manera fiable.
Eficiencia Computacional: A diferencia de métodos de búsqueda complejos como MCTS o Tree of Thoughts que requieren verificación externa y heurísticas costosas, SSFT aprende a generar estas trayectorias de forma nativa y paralela.
Escalabilidad: La metodología es robusta a diferentes tamaños de modelo (probado en 4B, 8B y 32B) y tipos de datos (matemáticas y código), sugiriendo que es una técnica fundamental para el futuro del entrenamiento de modelos de razonamiento.

En resumen, el papel demuestra que el razonamiento paralelo efectivo no depende solo de generar más tokens, sino de entrenar al modelo para reconocer y activar modos de razonamiento distintos mediante una pérdida basada en conjuntos y tokens de control globales.