On-Policy Self-Distillation for Reasoning Compression

El artículo presenta OPSDC, un método de auto-distilación en política que entrena a los modelos de razonamiento para generar respuestas más concisas mediante la minimización de la divergencia KL inversa, logrando simultáneamente una reducción significativa de tokens y una mejora en la precisión al eliminar el ruido que compounding errores.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero que tiene un problema: piensa demasiado en voz alta.

Cuando le preguntas algo sencillo como "¿Cuánto es 2+2?", en lugar de decirte "4", tu amigo empieza a dar una conferencia de dos horas. Se pone a dudar, a revisar sus propios cálculos, a pensar en si quizás te refieres a matemáticas binarias, a escribir y borrar, a repetir lo mismo tres veces y, para colmo, al final a veces se equivoca porque se perdió en su propio ruido.

Los modelos de Inteligencia Artificial actuales (como los que resuelven problemas de matemáticas) son así: piensan mucho, pero mucho de ese pensamiento es "basura" o ruido.

Esta paper presenta una solución genial llamada OPSDC. Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: El "Ruido" que nos hace fallar

Imagina que estás resolviendo un rompecabezas.

  • El modelo normal: Empieza a hablar mientras lo hace. "¿Será esta pieza? No, espera, quizás no. Déjame probar otra. Oh, esta parece bien, pero espera, ¿y si la giro? No, mejor la dejo aquí...".
  • El resultado: Al hablar tanto, a veces se confunde, se equivoca de pieza y arruina el trabajo. Además, tarda una eternidad.
  • La paradoja: A veces, pensar menos da mejores resultados. Si eliminas el ruido, la solución es más clara y precisa.

2. La Solución: "El Espejo de la Concisión" (OPSDC)

Los autores no quieren entrenar al modelo con respuestas correctas de humanos (porque eso es lento y costoso). En su lugar, usan una técnica de "Auto-distilación".

Imagina que el modelo es un actor que actúa dos papeles a la vez:

  1. El Estudiante: Es el modelo normal, que piensa y habla sin parar.
  2. El Profesor: Es el mismo modelo, pero con un pequeño "chivato" en la oreja que le susurra: "¡Oye, sé breve! Ve directo al grano, no pierdas el tiempo".

¿Cómo aprende?

  • El "Estudiante" intenta resolver un problema y genera una respuesta larga.
  • El "Profesor" (el mismo modelo, pero con el susurro de "sé breve") mira esa respuesta larga y dice: "Mira, si yo tuviera que resolver esto siendo breve, habría dicho esto otro...".
  • El "Estudiante" escucha al "Profesor" y se corrige: "¡Ah, tienes razón! Me he alargado demasiado. La próxima vez seré más directo".

La magia: No necesitan respuestas correctas de un humano. Solo necesitan que el modelo se enseñe a sí mismo a ser más eficiente. Es como si te miraras al espejo y te dijeras: "Esa forma de caminar es torpe, camina así".

3. ¿Por qué funciona tan bien? (La Analogía del Viaje)

Imagina que quieres llegar a una ciudad lejana.

  • El modelo viejo: Se detiene en cada árbol, cada piedra y cada nube para escribir un diario. Se pierde, se cansa y a veces toma un camino equivocado porque se distrajo con el diario.
  • El modelo nuevo (OPSDC): Aprende a saltar los obstáculos innecesarios. Se concentra solo en el camino principal.
  • Resultado: Llega más rápido (menos palabras) y más seguro (menos errores), porque no se distrajo con el "ruido".

4. Los Resultados Sorprendentes

Lo increíble de este método es que no solo hace al modelo más rápido, sino más inteligente:

  • En problemas fáciles: El modelo aprende a ser muy breve (corta hasta un 60% de lo que dice) porque se da cuenta de que no necesita tanto "pensar" para algo simple.
  • En problemas difíciles: El modelo sabe cuándo es necesario pensar más. No corta lo esencial.
  • La paradoja: Al eliminar el "pensamiento de relleno", el modelo acierta más. En pruebas de matemáticas, mejoraron su puntuación de un 70% a un 86% simplemente dejando de hablar tanto.

En resumen

La idea central es que la inteligencia no es hablar mucho, es saber qué decir.

OPSDC es como darle a un modelo de IA un "entrenador personal" que es el propio modelo, diciéndole: "Deja de divagar, ve al grano, y verás que serás más rápido y acertarás más". Y lo mejor de todo: lo aprende solo, sin que nadie le enseñe las respuestas correctas.

Es un cambio de paradigma: menos ruido, más señal, y mejores resultados.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →