Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás aprendiendo a tocar el piano. Normalmente, un profesor (el "recompensa externa") te escucha, te dice si tocaste bien o mal, y te da una nota. Si tocaste mal, el profesor te corrige. Esto es como la forma tradicional de entrenar a las Inteligencias Artificiales (IA): necesitan humanos o reglas estrictas para decirles si están bien o mal.

Pero, ¿qué pasa si no tienes profesor? ¿Qué pasa si el piano está en una habitación vacía y nadie puede escucharte?

El paper que presentas, titulado "Aprendiendo a razonar sin recompensas externas" (Learning to Reason Without External Rewards), propone una idea fascinante: que la IA aprenda a escucharse a sí misma.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: La Dependencia del "Profesor"

Actualmente, para que una IA sea muy buena resolviendo problemas de matemáticas o escribiendo código, la entrenamos con Recompensas Verificables (RLVR).

La analogía: Es como si para aprender a cocinar, necesitaras que un chef experto pruebe tu plato y te diga: "Esto está salado, eso está crudo".
El problema: Esto es caro, lento y solo funciona en cocinas donde el chef sabe qué es "salado". Si quieres que la IA aprenda a escribir poesía o a navegar en un mundo nuevo donde no hay reglas claras, no tienes un "chef" que pueda juzgarlo.

2. La Solución: El "Intuitor" (El Músico que se Escucha)

Los autores proponen un nuevo método llamado INTUITOR. En lugar de un profesor externo, la IA usa su propia confianza interna como guía.

La analogía: Imagina que eres un músico tocando una pieza difícil. Al principio, tus dedos se sienten torpes y tu música suena insegura. Pero a medida que practicas, sientes que la música fluye mejor, que las notas encajan perfectamente. Esa sensación de "esto suena bien" es tu confianza interna.
Cómo lo hace la IA: La IA genera varias respuestas a un problema. Luego, se pregunta a sí misma: "¿Qué tan seguro estoy de que esta respuesta es correcta?". Si la respuesta suena "segura" y coherente para la propia IA, le da un "premio" interno. Si suena confusa, no le da premio.

3. El Truco: "Auto-Certeza" (Self-Certainty)

El paper introduce un concepto matemático llamado Auto-Certeza.

La analogía: Piensa en una persona que está adivinando. Si está nerviosa, su voz tiembla y dice muchas cosas sin sentido (baja certeza). Si está segura, su voz es firme, clara y va directo al grano (alta certeza).
El hallazgo: Los autores descubrieron que cuando la IA está "segura" de su respuesta (alta auto-certeza), es mucho más probable que la respuesta sea correcta. Así que, en lugar de buscar la respuesta "correcta" (que no conocen), simplemente les dicen a las IAs: "¡Haz que te sientas más segura!".

4. El Resultado: De "Gorila" a "Genio"

Lo más sorprendente del experimento es lo que pasó cuando entrenaron a modelos pequeños (como Qwen2.5-3B) usando solo esta "confianza interna":

Aprendió a razonar: La IA empezó a escribir pasos detallados antes de dar la respuesta, como si estuviera pensando en voz alta.
Aprendió a seguir instrucciones: Modelos que antes solo balbuceaban o repetían cosas sin sentido, empezaron a seguir órdenes complejas.
Generalización (El superpoder): Esto es lo más increíble. Entrenaron a la IA solo con problemas de matemáticas (usando su propia confianza). Pero luego, la probaron en programación de código.
- La analogía: Es como si entrenaras a un atleta solo haciendo ejercicios de natación, y luego descubrieras que, al salir del agua, es un experto en correr maratones. La IA aprendió a "pensar" mejor en matemáticas y esa habilidad de pensamiento se transfirió automáticamente a escribir código, ¡sin que nadie le enseñara código!

5. ¿Por qué es importante?

Este método es como darle a la IA un superpoder de auto-mejora.

Sin humanos: No necesitas miles de personas corrigiendo tareas.
Sin reglas fijas: Funciona en cualquier tarea, incluso en las que no tienen una respuesta única y correcta.
Escalable: Las IAs pueden mejorar solas, como un estudiante que estudia solo porque siente que está aprendiendo, en lugar de estudiar solo para aprobar un examen.

En resumen

El paper INTUITOR nos dice que las IAs ya tienen dentro de sí mismas la capacidad de saber si están haciendo las cosas bien o mal. No necesitan un maestro externo constante; solo necesitan aprender a confiar en su propia intuición. Al hacerlo, se vuelven más inteligentes, más creativas y capaces de resolver problemas en áreas donde nunca han sido entrenadas específicamente.

Es el paso de la IA de ser un "estudiante que memoriza para el examen" a ser un "aprendiz que entiende y mejora por sí mismo".

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Learning to Reason Without External Rewards" (Aprendiendo a razonar sin recompensas externas), publicado en ICLR 2026.

1. El Problema: Limitaciones de los Paradigmas Actuales de RL

Los modelos de lenguaje grandes (LLMs) han mejorado significativamente sus capacidades de razonamiento mediante el Aprendizaje por Refuerzo (RL). Sin embargo, los enfoques actuales enfrentan barreras fundamentales:

RLHF (Aprendizaje por Refuerzo a partir de Feedback Humano): Requiere anotación humana extensa, costosa y propensa a sesgos.
RLVR (Aprendizaje por Refuerzo con Recompensas Verificables): Aunque elimina la necesidad de modelos de recompensa aprendidos, depende de soluciones "gold" (estándar de oro) o suites de pruebas exhaustivas específicas de un dominio (ej. matemáticas o código). Esto limita su aplicabilidad a tareas abiertas o dominios donde no existen verificadores automáticos confiables.

La pregunta central de la investigación es: ¿Pueden los LLMs mejorar sus capacidades de razonamiento basándose únicamente en señales intrínsecas generadas por sí mismos, sin recurrir a verificadores externos ni a datos etiquetados?

2. Metodología: RLIF y el Método INTUITOR

Paradigma: Aprendizaje por Refuerzo a partir de Retroalimentación Interna (RLIF)

Los autores proponen RLIF, un marco donde el modelo optimiza una señal de recompensa derivada de su propio estado interno o cómputo, en lugar de depender de evaluaciones externas. El objetivo es maximizar una utilidad intrínseca $u(q, o)$ mientras se mantiene la cercanía a una política de referencia mediante una penalización KL.

El Método: INTUITOR

INTUITOR es la implementación concreta de RLIF que utiliza la auto-certidumbre (self-certainty) como única señal de recompensa.

Métrica de Auto-certidumbre: Se define como la divergencia KL promedio entre una distribución uniforme sobre el vocabulario y la distribución de salida del modelo en cada paso de generación.
$\text{Self-certainty}(o|q) := \frac{1}{|o|} \sum_{i=1}^{|o|} KL(U \parallel p_{\pi_\theta}(\cdot|q, o_{<i}))$
- A diferencia de la entropía (que busca cubrir modos), la auto-certidumbre es "buscadora de modos" (mode-seeking).
- Valores más altos indican mayor confianza del modelo en su propia salida.
- Se ha demostrado que es menos propensa a sesgos hacia generaciones largas en comparación con la perplejidad.
Algoritmo de Optimización:
- Se basa en GRPO (Group Relative Policy Optimization), el mismo algoritmo utilizado por modelos como DeepSeek-R1.
- Innovación clave: Sustituye la recompensa verificable externa en el cálculo de la ventaja de GRPO por la puntuación de auto-certidumbre.
- Para una consulta $q$ , se muestrea un grupo de $G$ respuestas. La ventaja $\hat{A}_{i,t}$ para cada token se calcula normalizando la auto-certidumbre de la respuesta completa $u_i$ dentro del grupo:
  $\hat{A}_{i,t} = \frac{u_i - \text{mean}(\{u_1, \dots, u_G\})}{\text{std}(\{u_1, \dots, u_G\})}$
- Esto crea un bucle de aprendizaje auto-reforzado: el modelo aprende a generar respuestas que él mismo considera más convincentes y coherentes.

3. Contribuciones Clave

Introducción de RLIF: Un nuevo paradigma que permite a los LLMs mejorar el razonamiento sin supervisión externa ni datos etiquetados.
Desarrollo de INTUITOR: Un método que utiliza la auto-certidumbre como recompensa intrínseca única, eliminando la necesidad de solucionadores de oro o suites de pruebas.
Evidencia de Generalización Emergente: Demostración de que optimizar la confianza interna no solo mejora el rendimiento en el dominio de entrenamiento, sino que fomenta la generalización a tareas fuera de dominio (como la generación de código) y mejora la adherencia a instrucciones.
Prevención de la Explotación de Recompensas: Se demuestra que el uso de un anotador de auto-certidumbre "en línea" (que evoluciona con la política) previene el colapso del modelo y la explotación de recompensas, problemas comunes en RL con recompensas estáticas.

4. Resultados Experimentales

Los experimentos se realizaron principalmente con modelos de la familia Qwen2.5 (1.5B y 3B) entrenados en el conjunto de datos MATH.

Rendimiento In-Domain (Matemáticas):
- INTUITOR logra un rendimiento comparable al GRPO supervisado (que usa respuestas correctas) en benchmarks como GSM8K y MATH500, a pesar de no tener acceso a las respuestas correctas durante el entrenamiento.
- En el modelo Qwen2.5-1.5B, INTUITOR logra mejoras significativas donde el modelo base fallaba (0% a ~10% en LiveCodeBench).
Generalización Out-of-Domain (Código):
- LiveCodeBench: El entrenamiento en matemáticas con INTUITOR produce una mejora relativa del 65% en tareas de generación de código, mientras que el GRPO supervisado muestra 0% de mejora en esta tarea transferida.
- CRUXEval-O: INTUITOR logra un 76% de mejora, superando al GRPO (44%).
- Esto sugiere que el razonamiento estructurado aprendido en matemáticas se transfiere mejor cuando se guía por señales intrínsecas de coherencia.
Comportamiento Cualitativo:
- Razonamiento Estructurado: Los modelos entrenados con INTUITOR comienzan a generar cadenas de razonamiento largas y coherentes antes de dar la respuesta final, incluso en tareas de código donde no se les exige explícitamente.
- Seguimiento de Instrucciones: Mejora drástica en la capacidad de seguir formatos de salida complejos (como JSON) y reducir alucinaciones o texto sin sentido ("gibberish").
- Aprendizaje Rápido: INTUITOR muestra una curva de aprendizaje inicial más rápida que el GRPO en las primeras etapas del entrenamiento.
Robustez:
- El uso de un evaluador de auto-certidumbre "en línea" evita que el modelo aprenda a inflar artificialmente la recompensa (reward hacking), un fallo observado cuando se usa un evaluador estático (offline).

5. Significado e Impacto

Este trabajo representa un paso significativo hacia la creación de sistemas de IA autónomos capaces de auto-mejorarse.

Escalabilidad: Al eliminar la dependencia de verificadores costosos o anotación humana, RLIF ofrece una ruta escalable para entrenar modelos en dominios abiertos y complejos donde las "respuestas correctas" son difíciles de definir.
Desbloqueo de Potencial Latente: Sugiere que los LLMs preentrenados poseen priores conductuales latentes ricos que pueden ser activados mediante la optimización de señales internas de confianza, sin necesidad de supervisión externa.
Futuro de la IA: Proporciona una base para agentes de IA que pueden adquirir habilidades en nuevos dominios mediante introspección y práctica interna, incluso cuando la supervisión humana directa es imposible o insuficiente.

En resumen, INTUITOR demuestra que la confianza interna del modelo es una señal de recompensa viable y potente, capaz de igualar e incluso superar a los métodos supervisados en tareas de razonamiento y generalización, abriendo nuevas vías para el desarrollo de IA autónoma.