Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

El artículo presenta Cactus, un método de muestreo especulativo que acelera la decodificación autoregresiva de modelos de lenguaje mediante una formulación de optimización con restricciones que garantiza un aumento en las tasas de aceptación manteniendo una divergencia controlada respecto a la distribución del modelo verificador.

Yongchang Hao, Lili Mou

Publicado 2026-04-08
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef estrella mundial (el modelo de lenguaje grande o "Verificador") que es increíblemente sabio y escribe textos perfectos, pero es muy lento porque necesita pensar mucho antes de escribir cada palabra. También tienes a un ayudante rápido (el modelo "Borrador") que es menos sabio, pero escribe a toda velocidad.

El problema es que, para obtener un texto perfecto, tienes que esperar a que el chef escriba palabra por palabra. Eso es lento y costoso.

¿Qué es el "Muestreo Especulativo" (SpS)?

Antes de este nuevo método, existía una técnica llamada Muestreo Especulativo. Funcionaba así:

  1. El ayudante rápido escribe un borrador de varias palabras de golpe.
  2. El chef revisa el borrador palabra por palabra.
  3. Si el chef está 100% de acuerdo con el ayudante, ¡acepta todas las palabras! Si el chef dice "no, esa palabra no encaja", descarta todo el borrador y escribe la palabra él mismo.

El problema: El chef era demasiado estricto. A veces, el ayudante escribía una palabra que era correcta y tenía sentido, pero el chef tenía una probabilidad ligeramente diferente de elegirla. Como el chef era un perfeccionista, rechazaba la palabra correcta solo porque no era exactamente la que él habría elegido en ese milisegundo. Esto hacía que el ayudante tuviera que empezar de nuevo a menudo, perdiendo tiempo.

¿Qué es CACTUS?

Los autores de este paper crearon CACTUS (Muestreo Especulativo con Aceptación Restringida).

Imagina que CACTUS es un gerente de proyecto inteligente que se pone entre el chef y el ayudante. Su trabajo es encontrar un equilibrio perfecto:

  1. La regla de oro: El gerente le dice al chef: "No necesitas ser un robot perfecto. Si el ayudante propone una palabra que es casi tan buena como la tuya, y no se aleja demasiado de tu estilo, ¡aceptémosla!".
  2. El límite de seguridad: El gerente tiene una "regla de divergencia" (un límite de tolerancia). Si el ayudante propone algo que es demasiado diferente a lo que el chef haría (como inventar una historia loca), el gerente lo detiene. Pero si es solo una pequeña variación creativa, lo deja pasar.

La analogía de la "Bola de Nieve"

Imagina que el chef está rodando una bola de nieve perfecta.

  • Método antiguo (SpS): Si el ayudante pone una ramita en la bola de nieve y el chef no la hubiera puesto exactamente ahí, el chef tira toda la bola y empieza de cero.
  • Método TAS (el competidor): El chef acepta cualquier cosa que parezca una bola de nieve, incluso si es de barro. Es rápido, pero el resultado final es sucio y feo.
  • Método CACTUS: El chef acepta la ramita del ayudante porque sabe que, aunque no es exactamente la que él hubiera puesto, la bola de nieve sigue siendo hermosa y redonda. El gerente asegura que la bola no se vuelva una bola de lodo.

¿Por qué es genial CACTUS?

  1. Más rápido: Acepta más palabras del ayudante, por lo que el chef tiene que trabajar menos. Es como si el chef pudiera escribir un párrafo entero en el tiempo que antes le tomaba escribir una frase.
  2. Más inteligente: A diferencia de otros métodos que aceptan "basura" para ir rápido, CACTUS mantiene la calidad. El texto final sigue sonando como si lo hubiera escrito el chef estrella, no el ayudante novato.
  3. Matemáticamente seguro: Los autores demostraron con fórmulas que este método no se "desvía" demasiado de la calidad original. Es como tener un freno de mano que asegura que, aunque aceleremos, no salgamos de la carretera.

En resumen

CACTUS es como darle al chef una copa de vino relajante (pero no embriagadora). Le permite ser un poco más flexible con las sugerencias del ayudante rápido, aceptando más ideas sin sacrificar la calidad del plato final. El resultado es que puedes tener textos de alta calidad mucho más rápido y gastando menos energía (computación).

Es una solución elegante que dice: "No necesitamos ser idénticos para ser buenos; necesitamos ser lo suficientemente buenos y mantener la esencia".

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →