Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de cocina (el modelo de Inteligencia Artificial) que sabe cocinar millones de platos diferentes. Sin embargo, cuando le pides que prepare un plato específico que debe ser perfecto (como un teorema matemático o un código sin errores), el chef suele cometer errores.

Para arreglar esto, los científicos usan un método llamado "Recompensa" (Reinforcement Learning). Básicamente, le dicen al chef: "Si el plato está bien, ¡bien hecho! Si está mal, ¡no lo comas!".

El problema es que, al intentar aprender de esta forma, el chef se vuelve demasiado obsesivo. Empieza a cocinar siempre el mismo plato que cree que es el más seguro, olvidando todas las otras formas creativas y válidas de cocinar ese mismo plato. Se vuelve un "copiador" aburrido y pierde su diversidad.

Aquí es donde entra este nuevo artículo, titulado "Lo que queda debe ser verdad".

La Metáfora del Filtro de Café

Imagina que el chef tiene una canasta gigante llena de recetas (todas las ideas que tiene en su cabeza).

El problema actual (RLVR): Los métodos actuales actúan como un filtro muy estricto que no solo quita las recetas malas, sino que destruye todas las recetas buenas que son un poco diferentes, dejando solo una o dos recetas "perfectas" y repetitivas. El chef se vuelve un robot que solo hace lo mismo una y otra vez.
La solución de este papel (DMVR): Los autores proponen un nuevo filtro. Imagina un filtro mágico que solo deja pasar las recetas correctas, pero respeta la cantidad de cada una. Si había 100 formas de hacer un pastel de manzana y 100 formas de hacer un pastel de chocolate, el filtro deja pasar las 200, manteniendo el equilibrio original. No elimina las opciones válidas, solo tira las que están quemadas.

El Secreto: El "Controlador de Temperatura" (Alpha)

Lo genial de este trabajo es que no tienen que elegir entre "precisión" (que el plato sea perfecto) o "diversidad" (que haya muchos platos diferentes). Tienen un control deslizante (llamado $\alpha$ ) que les permite ajustar el equilibrio:

Si pones el control al máximo (hacia la "precisión"): El modelo se vuelve como un chef experto que busca exactamente la receta más famosa y segura. Es muy preciso, pero aburrido.
Si pones el control al mínimo (hacia la "diversidad"): El modelo se vuelve como un chef creativo que prueba todas las variaciones posibles. Puede que algunas fallen, pero tiene muchas más posibilidades de encontrar una solución nueva y brillante.
El punto medio: Pueden encontrar el equilibrio perfecto donde el chef es creativo pero sigue siendo correcto.

¿Por qué es importante?

En el mundo de las matemáticas y la programación, a veces la solución "obvia" no funciona. Necesitas explorar caminos raros y poco comunes para resolver problemas difíciles.

Los métodos viejos le decían al modelo: "Solo haz lo que sabes que funciona" -> Resultado: El modelo se estanca y olvida otras soluciones.
Este nuevo método le dice: "Mantén todas las soluciones que funcionan, pero asegúrate de que sean correctas" -> Resultado: El modelo explora más, encuentra soluciones que nadie había visto antes y no pierde su creatividad.

En resumen

Este papel nos enseña que para que una Inteligencia Artificial sea realmente inteligente y útil, no debemos forzarla a ser un robot repetitivo. Debemos darle un filtro inteligente que elimine lo incorrecto pero preserve la riqueza de sus ideas.

Es como decirle a un estudiante: "No te preocupes por memorizar una sola respuesta correcta. Intenta encontrar todas las formas posibles de resolver el problema, y luego nosotros te ayudaremos a descartar las que están mal". Así, el estudiante (o la IA) aprende a pensar de verdad, no solo a repetir.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Whatever Remains Must Be True

1. El Problema: La Pérdida de Diversidad en el Aprendizaje por Refuerzo

Los modelos de lenguaje grandes (LLMs) han avanzado significativamente en tareas de razonamiento mediante el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), utilizando algoritmos como PPO o GRPO. Sin embargo, la evidencia reciente indica que estos modelos sufren una pérdida significativa de diversidad en sus salidas (fenómeno conocido como "colapso de modos" o mode collapse).

Causa Raíz: Los autores argumentan que esto se debe a que el RLVR optimiza implícitamente la Divergencia de Kullback-Leibler (KL) Inversa (Reverse KL) hacia una distribución objetivo. La KL Inversa es "buscadora de modos" (mode-seeking): concentra la masa de probabilidad en regiones de alta recompensa (respuestas correctas) y ignora otras regiones válidas, sacrificando la cobertura del espacio de soluciones.
Consecuencia: Aunque los modelos se vuelven precisos en la primera muestra (pass@1), su capacidad para encontrar soluciones correctas al muestrear múltiples veces (pass@k o cobertura) disminuye, lo cual es crítico en dominios como la demostración de teoremas donde las soluciones pueden ser raras.

2. Metodología: DMVR y $\alpha$ -DPG

El artículo propone un nuevo marco llamado Distributional Matching with Verifiable Rewards (DMVR). En lugar de optimizar una recompensa pseudo-aleatoria, el objetivo es aproximar explícitamente una distribución objetivo definida por un filtro (verificador).

Distribución Objetivo ( $p_x$ ): Se define como la distribución base filtrada que conserva solo las respuestas correctas, manteniendo sus probabilidades relativas originales:
$p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$
Donde $v(y,x)$ es el verificador binario (1 si es correcto, 0 si no). Esta distribución garantiza la corrección y preserva la diversidad inherente del modelo base.
La Solución: $\alpha$ -DPG: Para aproximar esta distribución objetivo, los autores utilizan la familia de divergencias $\alpha$ dentro del algoritmo de Gradiente de Política Distribucional ( $f$ -DPG).
- La divergencia $\alpha$ unifica el espectro entre la KL Inversa (cuando $\alpha \to 1$ , busca modos, alta precisión) y la KL Directa (cuando $\alpha \to 0$ , cubre masas, alta diversidad).
- Al ajustar el parámetro $\alpha$ , se puede controlar suavemente la compensación (trade-off) entre precisión (probabilidad de que la primera muestra sea correcta) y cobertura (probabilidad de encontrar al menos una solución correcta en un gran número de muestras).
Implementación: Se utiliza un pseudo-reward derivado de la divergencia $\alpha$ , con técnicas de recorte (clipping) para estabilizar el entrenamiento cuando $\alpha$ es bajo.

3. Contribuciones Clave

Marco DMVR: Se introduce un enfoque que entrena modelos aproximando una distribución objetivo explícita basada en verificadores, en lugar de optimizar recompensas implícitas.
Diagnóstico del RLVR: Se demuestra teóricamente que los métodos RLVR actuales son equivalentes a minimizar la KL Inversa hacia una distribución suavizada, lo que explica su tendencia a reducir la diversidad.
Unificación de Enfoques: Se muestra que métodos como RLVR (KL Inversa), KL-DPG (KL Directa) y Rejection Sampling Fine-Tuning (RS-FT) son casos especiales dentro de la familia de divergencias $\alpha$ .
Control del Compromiso Precisión-Diversidad: La propuesta de $\alpha$ -DPG permite navegar la frontera de Pareto entre precisión y cobertura mediante un solo hiperparámetro ( $\alpha$ ).

4. Resultados Experimentales

Los experimentos se realizaron en el entorno de demostración de teoremas Lean, utilizando el modelo base DeepSeek-Prover-V1.5-SFT.

Frontera de Pareto: Los modelos entrenados con $\alpha$ $α$ -DPG logran un rendimiento que se sitúa en la frontera de Pareto óptima entre pass@1 (precisión) y pass@256 (cobertura).
- Valores altos de $\alpha$ (ej. 0.999) superan o igualan a los métodos RL basados en GRPO en precisión, manteniendo una cobertura superior.
- Valores bajos de $\alpha$ (ej. 0.25) logran la máxima cobertura (pass@256) de todos los métodos evaluados, superando significativamente a las líneas base, aunque con una ligera reducción en la precisión de la primera muestra.
Análisis de Dificultad:
- Los métodos de alta precisión (GRPO, $\alpha \approx 1$ ) tienden a convertir problemas de dificultad media en "fáciles", pero a menudo hacen que problemas difíciles se vuelvan "no resueltos" (pérdida de diversidad en casos complejos).
- Los métodos de baja $\alpha$ (ej. 0.25) son más conservadores: mejoran la eficiencia de muestreo en menos problemas, pero mantienen la solvabilidad de los problemas difíciles, evitando el colapso de modos en casos complejos.
Diversidad de Pruebas: Se observó una correlación positiva entre la diversidad de tácticas y premisas utilizadas en las pruebas y el rendimiento en pass@256. Los modelos con baja $\alpha$ preservan una mayor diversidad de estrategias de prueba.
Análisis de Perplejidad: Las secuencias generadas por los modelos ajustados ya eran altamente probables bajo el modelo base, sugiriendo que el RL no "descubre" nuevas capacidades fundamentales, sino que repondera las existentes.

5. Significado e Impacto

Este trabajo es fundamental para el futuro del razonamiento en IA por varias razones:

Reinterpretación del RL: Cambia la perspectiva de que el RL crea nuevas habilidades, sugiriendo que más bien repondera comportamientos existentes. El problema no es la distribución objetivo (filtrar lo incorrecto), sino la divergencia utilizada para aproximarla.
Escalabilidad en la Búsqueda de Soluciones: En tareas donde la solución correcta es única pero difícil de encontrar (como matemáticas formales o verificación de código), la cobertura es tan importante como la precisión. $\alpha$ -DPG permite optimizar para la cobertura sin sacrificar completamente la precisión, algo que los métodos RL tradicionales no logran.
Flexibilidad: Proporciona a los investigadores y practicantes una herramienta para ajustar el comportamiento del modelo según la necesidad específica: ¿Se necesita la respuesta correcta en el primer intento (alta precisión) o se necesita explorar todas las posibilidades posibles para encontrar una solución rara (alta cobertura)?

En conclusión, el artículo demuestra que filtrar explícitamente las respuestas incorrectas y utilizar divergencias $\alpha$ para aproximar la distribución resultante es una vía superior para entrenar LLMs en tareas de razonamiento, logrando un equilibrio óptimo entre la corrección y la diversidad que los métodos de RL estándar no pueden alcanzar.

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

La Metáfora del Filtro de Café

El Secreto: El "Controlador de Temperatura" (Alpha)

¿Por qué es importante?

En resumen

Resumen Técnico: Whatever Remains Must Be True

1. El Problema: La Pérdida de Diversidad en el Aprendizaje por Refuerzo

2. Metodología: DMVR y α\alphaα-DPG

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

2. Metodología: DMVR y $\alpha$ -DPG