Autores originales: Avinash Kumar, Sujay Sanghavi, Poulami Das

Publicado 2026-05-12✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Avinash Kumar, Sujay Sanghavi, Poulami Das

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

El Gran Problema: El "Coche que Acelera" que Pierde el Camino

Imagina que estás intentando escribir una historia muy larga (como una novela) con un autor brillante pero de pensamiento lento (el Modelo Objetivo). Para ahorrar tiempo, contratas a un becario rápido y enérgico (el Modelo Borrador) para que adivine las siguientes frases antes de que el autor incluso las lea.

En el mundo de la IA, esto se llama Decodificación Especulativa. El becario adivina un párrafo y el autor lo verifica rápidamente. Si el becario tiene razón, el autor simplemente dice "¡Buen trabajo!" y sigue adelante, saltándose el trabajo duro de escribir esas palabras desde cero. Si el becario se equivoca, el autor tiene que detenerse, corregir el error y empezar de nuevo.

La Trampa:
El artículo descubrió un defecto importante en cómo se entrenan a estos "becarios".

El Entrenamiento: Los becarios se entrenan con historias cortas (como tuits o correos electrónicos breves). Son excelentes para adivinar la siguiente palabra en una oración de 200 palabras.
La Realidad: En el mundo real, la gente le pide a la IA que escriba informes largos, código o historias que tienen miles de palabras.

A medida que la historia se hace más larga, el becario empieza a confundirse. Como solo fueron entrenados en oraciones cortas, pierden el "hilo del pensamiento" a medida que el texto crece. Empiezan a adivinar palabras que no encajan en el contexto largo.

El Resultado: El autor tiene que rechazar casi todas las conjeturas del becario. En lugar de ahorrar tiempo, el proceso se ralentiza porque el autor está constantemente deteniéndose para corregir al becario. El artículo llama a esto que la "Longitud de Aceptación" caiga a casi 1 (lo que significa que el becario es básicamente inútil).

La Solución: "Especulación en Tiempo de Prueba" (TTS)

Los autores proponen una solución inteligente llamada Especulación en Tiempo de Prueba (TTS). En lugar de contratar a un nuevo becario para cada trabajo, enseñan al mismo becario cómo adaptarse mientras trabaja.

La Analogía: La Sesión de Entrenamiento en Vivo
Imagina que el becario está escribiendo la historia y el autor la está revisando.

La Vieja Forma: El becario adivina 10 palabras. El autor las revisa. Si están mal, el autor las corrige y sigue adelante. El becario no aprende nada del error porque nunca se le dice por qué se equivocó de una manera que le ayude con la siguiente oración.
La Forma TTS: Cada vez que el autor revisa el trabajo del becario, el autor no solo dice "Correcto" o "Incorrecto". El autor usa ese momento para dar al becario una mini-lección.
- El autor dice: "Adivinaste 'gato', pero en esta historia larga específica, la palabra debería ser 'perro'. Aquí está la distribución de probabilidad exacta que usé".
- El becario actualiza inmediatamente su cerebro (sus matemáticas internas) basándose en esta lección específica.
- Ahora, cuando el becario adivina el siguiente conjunto de palabras, es ligeramente más inteligente y está mejor alineado con el estado de ánimo actual del autor y la larga historia de la narrativa.

¿Por qué es esto especial?
Por lo general, tienes que detenerte y reentrenar un modelo durante días para mejorarlo. TTS hace esto instantáneamente mientras se escribe la historia. Utiliza el paso de "verificación" (que el autor tiene que hacer de todos modos) como una señal de entrenamiento gratuita. Es como un estudiante aprendiendo un nuevo idioma conversando con un profesor, donde el profesor lo corrige en tiempo real, haciéndolo fluido al final de la conversación.

Los Resultados: Volverse Más Rápido a Medida que Avanzas

El artículo probó esto en varios tipos de "autores" (modelos de IA) y "becarios" (especuladores) en tareas difíciles como resolver problemas matemáticos, escribir código y responder preguntas de ciencia.

La Mejora: Al usar TTS, los "becarios" se volvieron mucho mejores adivinando las palabras correctas a medida que la historia se hacía más larga.
Los Números: En promedio, el sistema aceptó un 41% más de las conjeturas del becario. En algunos casos, fue hasta un 72% mejor que los métodos anteriores más destacados.
La Tendencia: Cuanto más largo es el texto, mejor funciona TTS. Mientras que otros métodos fallan después de unos miles de palabras, TTS en realidad se vuelve más preciso a medida que continúa la generación porque el becario sigue aprendiendo y adaptándose sobre la marcha.

Resumen

Piensa en los métodos anteriores como contratar a un corredor rápido que solo es bueno para una carrera de 100 metros. Cuando le pides que corra un maratón, colapsa.

Especulación en Tiempo de Prueba es como darle a ese corredor un entrenador que corre a su lado, susurrando correcciones y ajustes de estrategia en cada paso del camino. El corredor se cansa menos, se mantiene en el camino correcto y todo el equipo termina el maratón mucho más rápido.

El artículo demuestra que al permitir que la IA "aprenda en el trabajo" durante el proceso de generación, podemos mantener a la IA rápida y eficiente, incluso al escribir documentos muy largos.

Resumen Técnico: Especulación en Tiempo de Prueba (TTS)

1. Declaración del Problema

El artículo identifica una limitación crítica en los métodos actuales de decodificación especulativa más avanzados (como DFlash, EAGLE-3 y PARD) cuando se aplican a tareas de respuestas largas. Si bien la decodificación especulativa acelera la inferencia de Modelos de Lenguaje Grande (LLM) utilizando un modelo "borrador" rápido para generar tokens y un modelo "objetivo" más lento para verificarlos, su eficiencia depende en gran medida de la longitud de aceptación—el número de tokens del borrador consecutivos aceptados por el modelo objetivo por ronda.

Los autores observan que las longitudes de aceptación de los especuladores existentes se degradan significativamente a medida que aumenta la longitud de generación. En apenas unos pocos miles de tokens de salida, las longitudes de aceptación a menudo caen a valores cercanos a 1 (por ejemplo, 1.1), eliminando efectivamente cualquier beneficio de aceleración. Esta degradación ocurre porque los especuladores más avanzados se entrenan fuera de línea en secuencias cortas (típicamente $\le$ 2K tokens), creando una discrepancia de distribución cuando se les obliga a aproximar el modelo objetivo en secuencias mucho más largas (por ejemplo, 20K–32K tokens) durante la inferencia. A medida que avanza la generación, las predicciones del modelo del borrador se desvían de la distribución cada vez más confiable del objetivo, lo que conduce a rechazos frecuentes.

2. Metodología: Especulación en Tiempo de Prueba (TTS)

Para abordar esta discrepancia de distribución, los autores proponen la Especulación en Tiempo de Prueba (TTS), un enfoque de destilación en línea que adapta el modelo del borrador en tiempo real durante el proceso de inferencia.

Idea Central

La realización clave es que el paso estándar de verificación de la decodificación especulativa ya genera la señal de supervisión necesaria para la adaptación sin costo adicional. En cada ronda, el modelo objetivo calcula su distribución de probabilidad completa sobre los tokens del borrador. TTS aprovecha esto tratando:

El Modelo Objetivo como el "Profesor".
El Modelo Borrador como el "Estudiante".
Los Tokens del Borrador Verificados como la muestra de entrenamiento de destilación.

Algoritmo

TTS intercala la generación con actualizaciones del modelo. El proceso para cada ronda de especulación es el siguiente:

Redacción: El modelo del borrador actual ( $q_t$ ) genera un lienzo de $C$ tokens.
Verificación: El modelo objetivo ( $p$ ) evalúa el lienzo en una sola pasada hacia adelante, determinando la longitud de aceptación ( $\tau$ ) mediante muestreo de rechazo estándar.
Pérdida de Destilación: Antes de la siguiente ronda, el modelo del borrador se actualiza utilizando un solo paso de gradiente sobre una función de pérdida de destilación:
$L_t(q) = \tilde{KL}(p \parallel q) + \lambda \tilde{KL}(q_t \parallel q)$
- El primer término aproxima la divergencia Kullback-Leibler (KL) entre la distribución del objetivo y la nueva distribución del borrador sobre el lienzo.
- El segundo término es un componente de regularización que evita que el borrador se desvíe demasiado de su estado anterior ( $q_t$ ).
- Se aplican pesos dependientes de la posición ( $w_k$ ), priorizando los tokens anteriores en el lienzo.
Actualización: Los parámetros del modelo del borrador se actualizan ( $q_{t+\tau} \leftarrow q_t - \eta \nabla L_t$ ).

Optimizaciones del Sistema

Para gestionar la compensación entre la longitud de aceptación mejorada y la sobrecarga de latencia de las actualizaciones de gradiente, TTS emplea:

Actualizaciones Escalonadas: Las actualizaciones de gradiente se realizan cada $S$ rondas en lugar de cada ronda, amortizando el costo computacional.
Encaminamiento Asíncrono: Las actualizaciones se descargan a un flujo CUDA dedicado que se ejecuta en paralelo con las siguientes $S-1$ rondas de generación, ocultando la latencia de la ruta crítica.

3. Contribuciones Clave

Diagnóstico de la Degradación: Los autores demuestran que la eficacia de los especuladores actuales se degrada con la longitud de generación debido a una discrepancia entre la distribución de entrenamiento de secuencias cortas del borrador y la distribución de inferencia de secuencias largas.
Marco TTS: Proponen la Especulación en Tiempo de Prueba, un método de destilación en línea que utiliza el paso de verificación como señal de supervisión para adaptar el modelo del borrador en tiempo de inferencia, sin requerir reentrenamiento fuera de línea.
Evaluación Exhaustiva: El método se evalúa en cinco modelos de última generación (familias Qwen-3, Qwen-3.5, Llama3.1) y ocho benchmarks diversos (incluyendo AIME, LiveCodeBench y GPQA), mostrando mejoras consistentes.
Integración del Sistema: Los autores implementan TTS dentro del marco de inferencia SGLang, abordando desafíos a nivel de sistema como la diferenciación de kernels y la sincronización de gráficos CUDA.

4. Resultados Experimentales

Mejora en la Longitud de Aceptación: TTS mejora las longitudes medias de aceptación hasta un 72% y un promedio de 41% sobre DFlash, y hasta un 67% (promedio 34%) sobre EAGLE-3.
Escalado con la Longitud: Los beneficios de TTS escalan con la longitud de generación. Por ejemplo, en el conjunto de datos AIME 2024, la mejora sobre DFlash crece del 15% en los primeros 0–10K tokens al 183% en el rango de 20–30K tokens.
Rendimiento: Si bien las actualizaciones frecuentes (paso $S=1$ ) maximizan la longitud de aceptación, un paso de $S=5$ logra la mejor aceleración de rendimiento (hasta 1.71 $\times$ sobre DFlash) al equilibrar la frecuencia de adaptación con la sobrecarga de actualización.
Generalización: TTS es efectivo a través de diferentes tamaños de modelo (de 4B a 122B) y arquitecturas (Densa y MoE), compensando particularmente a los especuladores entrenados en contextos cortos (por ejemplo, EAGLE-3 con contexto de 2K) cuando se aplican a objetivos con ventanas de contexto mucho más grandes.

5. Significado y Afirmaciones

El artículo afirma que TTS aborda fundamentalmente la limitación de la decodificación especulativa en escenarios del mundo real de respuestas largas. Al adaptar el modelo del borrador durante el proceso de generación, TTS cierra la brecha entre las distribuciones de entrenamiento e inferencia, asegurando que la decodificación especulativa permanezca efectiva incluso para salidas que abarcan decenas de miles de tokens.

Los autores enfatizan que TTS no requiere suposiciones sobre la estructura del flujo de solicitudes (a diferencia de los métodos en línea anteriores que dependen de búferes específicos del dominio) y opera directamente sobre los especuladores públicos más avanzados existentes. Esto convierte a TTS en una solución práctica para mantener un alto rendimiento de inferencia en entornos de producción donde la generación de formato largo (por ejemplo, código, razonamiento, creación de contenido) es dominante. El trabajo se presenta como una evolución necesaria para mantener viable la decodificación especulativa a medida que las aplicaciones de LLM se desplazan hacia ventanas de contexto más largas.

Test-Time Speculation