Self-Distillation for Multi-Token Prediction

El artículo presenta MTP-D, un método de auto-distilación que mejora las tasas de aceptación de la predicción de múltiples tokens y permite una extensión eficiente de los cabezales de predicción, logrando así una aceleración significativa en la inferencia de los modelos de lenguaje grandes.

Guoliang Zhao, Ruobing Xie, An Wang, Shuaipeng Li, Huaibing Xie, Xingwu Sun

Publicado 2026-03-26
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un genio de la lámpara (una Inteligencia Artificial) que es increíblemente inteligente y puede escribir historias, resolver problemas de matemáticas o responder preguntas complejas. Sin embargo, tiene un pequeño defecto: habla muy despacio.

El Problema: El "Escriba" que piensa una palabra a la vez

Normalmente, estos genios funcionan como un escriba muy meticuloso:

  1. Piensa en la primera palabra.
  2. La escribe.
  3. Se detiene, respira y piensa en la segunda palabra basándose en la primera.
  4. La escribe.
  5. Se detiene de nuevo... y así sucesivamente.

Si quieres escribir un libro entero, este proceso es lento y costoso. Es como si tuvieras que esperar a que el genio termine una frase completa antes de que pueda empezar la siguiente. A esto los expertos le llaman "predicción de un solo token" (una palabra a la vez).

La Solución Vieja: El "Equipo de Adivinadores"

Para acelerar las cosas, los ingenieros crearon un truco: Predicción de Múltiples Tokens (MTP). Imagina que, en lugar de tener un solo escriba, le das al genio varios ayudantes (cabezas de predicción).

  • El genio principal escribe la palabra 1.
  • El ayudante 1 adivina la palabra 2.
  • El ayudante 2 adivina la palabra 3.
  • El ayudante 3 adivina la palabra 4.

Si todos aciertan, ¡escriben cuatro palabras de golpe! ¡Velocidad x4!

Pero aquí está el problema: Los ayudantes no son tan inteligentes como el genio principal. A menudo, el genio principal dice: "Esa palabra que adivinaste no es la correcta". Entonces, el sistema tiene que borrar la adivinanza, volver a empezar y escribir solo una palabra. Esto hace que el sistema sea lento de nuevo porque los ayudantes fallan mucho.

La Innovación de este Papel: "MTP-D" (El Entrenamiento por Espejo)

Los autores de este paper (de Tencent) dicen: "¡Esperen! Tenemos una mejor manera de entrenar a estos ayudantes".

Presentan MTP-D, que es como un entrenador de espejo o un sistema de auto-imitación.

1. La Técnica del "Espejo Desconectado" (Self-Distillation)

Imagina que el genio principal es un maestro de cocina famoso. Los ayudantes son sus aprendices.

  • Antes: Los aprendices intentaban adivinar el plato por su cuenta y fallaban mucho.
  • Ahora (MTP-D): El maestro cocina el plato perfecto. Pero, en lugar de decirles exactamente qué ingredientes usar (lo cual podría confundirlos o hacer que el maestro se distraiga), el maestro les muestra solo los ingredientes más probables (los "Top N").
  • Les dice: "Miren, la probabilidad de que esto sea sal es muy alta, y la de pimienta también. Intenten imitar mi distribución de probabilidades, no solo el resultado final".

Técnicamente, esto se llama distinción de auto-imitación. El genio principal "enseña" a sus ayudantes a pensar como él, pero de una forma que no distrae al maestro de su propio trabajo.

  • Resultado: Los ayudantes ahora "piensan" casi igual que el maestro. Cuando el maestro escribe una palabra, los ayudantes adivinan las siguientes con mucha más precisión.

2. La Estrategia de "Bucle" (Looped Extension)

Aquí viene la parte más creativa. Imagina que tienes un equipo de 4 ayudantes entrenados. ¿Qué pasa si quieres tener 8, 12 o 16 ayudantes?

  • El problema: Entrenar a 16 ayudantes desde cero es caro y lento.
  • La solución (Bucle): Los autores dicen: "¡Usen a los 4 ayudantes que ya saben trabajar como nuevos maestros!".
    • Toman el grupo de 4 ayudantes entrenados.
    • Los copian y los usan para "iniciar" a un nuevo grupo de 4 ayudantes.
    • Luego, les dan un poco más de práctica (entrenamiento continuo) para que se ajusten.
    • Repiten el proceso.

Es como si un equipo de corredores de élite (los 4 primeros) entrenara a un nuevo equipo de 4 corredores, y luego ese nuevo equipo entrenara a otro. Al hacerlo en "bucle", el sistema escala rápidamente sin perder calidad.

¿Qué logran con esto?

  1. Más Aciertos: Gracias al "entrenamiento por espejo", los ayudantes aciertan mucho más a menudo. En lugar de fallar y tener que empezar de nuevo, el sistema avanza en bloque.
  2. Velocidad Extrema: En sus pruebas, lograron que el sistema fuera más de 2 veces más rápido (y en algunos casos, hasta 3 veces más rápido) que los sistemas anteriores, sin perder inteligencia.
  3. Escalabilidad: Pueden añadir más ayudantes (hasta 16) sin que el sistema se rompa o se vuelva lento.

En Resumen

Imagina que antes tenías un coche que iba a 100 km/h porque el conductor tenía que frenar en cada semáforo para pensar.
Con MTP-D, han puesto un copiloto experto que sabe exactamente qué va a pasar en los próximos 4 semáforos. El conductor ya no frena; el copiloto le dice: "Sigue recto, gira a la derecha, acelera". Y como el copiloto es una copia exacta de la mente del conductor (gracias al entrenamiento por espejo), ¡el coche vuela!

Es una forma inteligente de hacer que las Inteligencias Artificiales hablen más rápido, sin que dejen de ser inteligentes.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →