SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un restaurante muy popular que ofrece muchos tipos de cocina diferentes: italiana, japonesa, mexicana y vegana.

El Problema: La Cocina Desconectada

En el mundo de las Inteligencias Artificiales (como los LLMs), los servidores funcionan de manera similar. Tienes muchos "modelos" diferentes (uno para matemáticas, otro para escribir código, otro para hablar de leyes).

Actualmente, la forma de servir estos modelos es como tener cocinas separadas para cada plato:

La fase de "Prefill" (Preparación): Es como leer la receta y preparar los ingredientes. Es rápido y requiere mucha fuerza bruta (cálculo).
La fase de "Decode" (Cocción): Es como cocinar el plato paso a paso, agregando un ingrediente a la vez. Esto es lento y requiere mucha memoria (espacio en la nevera).

El problema actual: En los sistemas tradicionales, cada modelo tiene su propia cocina de "cocción" (Decode) dedicada. Si el modelo de "Matemáticas" tiene mucha gente esperando, su cocina está llena. Pero si el modelo de "Leyes" no tiene clientes, su cocina está vacía, con los hornos apagados y la nevera llena de espacio inútil. Es un desperdicio enorme de dinero y energía.

La Solución: SUN (El Chef Compartido)

Los autores de este paper proponen algo llamado SUN (Shared Use of Next-token Prediction, o "Uso Compartido de la Predicción del Siguiente Token").

Imagina que en lugar de tener cocinas separadas, tienes un solo chef maestro (el módulo de Decode) que es experto en cocinar cualquier plato, y varios ayudantes de cocina (los módulos de Prefill) que se especializan en preparar los ingredientes específicos para cada tipo de comida.

¿Cómo funciona SUN?

El Chef Maestro se congela: El "chef maestro" (el modelo de Decode) se entrena una vez y se queda quieto. Es el mismo para todos. No lo cambiamos.
Los Ayudantes se adaptan: Solo entrenamos a los "ayudantes" (el módulo de Prefill) para que sepan cómo preparar los ingredientes exactos que el Chef Maestro necesita para cada tarea específica (matemáticas, código, etc.).
La Magia: Como el Chef Maestro es el mismo para todos, podemos mezclar las órdenes. Si el modelo de Matemáticas tiene 10 pedidos y el de Código tiene 2, el Chef Maestro cocina los 12 platos juntos en una sola olla grande, en lugar de tener 2 ollas pequeñas, una llena y otra vacía.

El resultado: Se aprovecha al máximo el espacio de la cocina (la memoria de la GPU). Se necesita menos personal (menos tarjetas gráficas) para servir la misma cantidad de comida, y todo sale más rápido.

El Toque Extra: QSUN (El Chef con Guantes de Goma)

A veces, el Chef Maestro es tan grande que ocupa toda la cocina. Para ahorrar espacio, los autores proponen QSUN.

Imagina que le ponemos al Chef Maestro guantes de goma (cuantización) para que ocupe menos espacio y sea más rápido moviéndose. Pero, ¡cuidado! Si le ponemos guantes a un chef que está acostumbrado a trabajar con ingredientes frescos (precisión alta), puede que no sepa cómo manejarlos y la comida salga mal.

La solución de QSUN:
En lugar de cambiar los guantes del chef, enseñamos a los ayudantes (Prefill) a preparar los ingredientes de una forma especial que el Chef con guantes pueda entender perfectamente.

Los ingredientes se preparan con precisión total (sin guantes).
El Chef los cocina con guantes (rápido y eficiente).
El resultado: La comida sabe igual de rica (alta precisión) pero se cocina mucho más rápido y ocupa menos espacio.

En Resumen

Antes: Cada modelo tenía su propia cocina vacía o llena, desperdiciando recursos.
Con SUN: Todos comparten un solo chef experto. Los ayudantes se adaptan a lo que el chef necesita. Se ahorra dinero y se sirve más rápido.
Con QSUN: El chef usa herramientas más ligeras (guantes), pero los ayudantes ajustan su trabajo para que la comida salga perfecta.

¿Por qué importa esto?
Porque hace que las aplicaciones de Inteligencia Artificial sean más baratas, más rápidas y más accesibles para todos, permitiendo que muchas IA especializadas trabajen juntas sin colapsar los servidores. Es como pasar de tener 10 restaurantes pequeños y medio vacíos a tener un solo "food truck" gigante y súper eficiente que sirve todo tipo de comida al mismo tiempo.

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

El Problema: La Cocina Desconectada

La Solución: SUN (El Chef Compartido)

El Toque Extra: QSUN (El Chef con Guantes de Goma)

En Resumen

Resumen Técnico: SUN (Shared Use of Next-token Prediction)

1. El Problema: Aislamiento Inter-Modelo en el Servicio Multi-LLM

2. Metodología: SUN (Shared Use of Next-token Prediction)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

El Problema: La Cocina Desconectada

La Solución: SUN (El Chef Compartido)

El Toque Extra: QSUN (El Chef con Guantes de Goma)

En Resumen

Resumen Técnico: SUN (Shared Use of Next-token Prediction)

1. El Problema: Aislamiento Inter-Modelo en el Servicio Multi-LLM

2. Metodología: SUN (Shared Use of Next-token Prediction)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems