Duration Aware Scheduling for ASR Serving Under Workload Drift

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como una historia sobre cómo organizar mejor una fila de personas en un banco o en una cafetería muy popular, pero en lugar de personas, son grabaciones de voz que necesitan ser transcritas por una inteligencia artificial (como el modelo Whisper).

Aquí tienes la explicación en español, usando analogías sencillas:

🎙️ El Problema: La Fila Desordenada (FCFS)

Imagina que tienes un cajero único (la Inteligencia Artificial) que atiende a clientes que llegan con pedidos de diferentes tamaños.

Cliente A: Trae un audio de 30 segundos (una historia larga).
Cliente B: Trae un audio de 2 segundos (un "hola").
Cliente C: Trae un audio de 5 segundos.

Hasta ahora, la mayoría de los sistemas usaban una regla muy simple: "Primero en llegar, primero en ser servido" (FCFS).
El problema es que si el Cliente A (la historia larga) llega primero, el Cajero tarda mucho en atenderlo. Mientras tanto, el Cliente B y el C tienen que esperar 30 minutos solo porque llegaron un segundo antes. Esto se llama "bloqueo de la cabeza de la fila". ¡Es muy frustrante para los que tienen pedidos pequeños!

💡 La Idea Brillante: El "Tamaño" es la Clave

Los autores del paper descubrieron algo genial: La duración del audio es como un "código de barras" que nos dice cuánto tardará el trabajo.

Si el audio es largo, el trabajo será largo.
Si el audio es corto, el trabajo será corto.
¡No hace falta adivinar ni usar magia! Solo miramos el reloj del archivo de audio.

Con esta información, pueden reorganizar la fila inteligentemente.

🚀 Las Dos Estrategias Propuestas

Los autores probaron dos formas de reordenar la fila dentro del sistema (llamado vLLM):

1. El "Cortos Primero" (SJF - Shortest Job First)

Esta es la estrategia agresiva. El cajero ignora quién llegó primero y le dice: "¡Espera! Tú tienes un audio de 2 segundos, tú de 5, y tú de 30. ¡Tú dos van primero!".

El resultado: ¡Es increíblemente rápido para la mayoría! La gente con audios cortos se va casi al instante. El tiempo promedio de espera baja drásticamente (hasta un 73% menos).
El problema: Si llegan muchos audios cortos seguidos, el cliente con el audio de 30 segundos puede quedarse esperando para siempre (se le llama "hambre" o starvation). Es injusto para los que tienen trabajos grandes.

2. El "Equilibrio Justo" (HRRN - Highest Response Ratio Next)

Esta es la estrategia inteligente y amable. El cajero sigue priorizando a los trabajos cortos, PERO también mira cuánto tiempo ha estado esperando cada uno.

Si el cliente con el audio largo ha estado esperando mucho, el cajero le da un "bono" de prioridad.
El resultado: Sigue siendo mucho más rápido que la fila normal (mejora un 28% el tiempo promedio), pero nadie queda esperando para siempre. Los trabajos largos no sufren tanto como con la estrategia anterior.

📊 ¿Qué pasó en la prueba?

Los autores probaron esto con miles de audios reales (como los de libros de audio) y también crearon una fila artificial donde los audios largos y cortos llegaban por igual.

En la fila normal (FCFS): Todo el mundo espera mucho tiempo si llega un audio largo al principio.
Con "Cortos Primero" (SJF): La mayoría se va volando, pero los pocos con audios largos sufren mucho.
Con "Equilibrio Justo" (HRRN): Es el punto dulce. La mayoría se va rápido, y los que tienen audios largos no sufren un retraso excesivo.

🏁 La Conclusión en una Frase

El paper nos dice que no necesitamos adivinar cuánto tardará una tarea de voz. Solo necesitamos mirar cuánto dura el audio. Al usar esa información simple para reorganizar la fila, podemos hacer que las aplicaciones de voz (como asistentes virtuales o subtítulos en vivo) se sientan mucho más rápidas y fluidas, sin necesidad de comprar computadoras más caras.

En resumen: Es como pasar de una fila de supermercado donde todos esperan a que el cliente con el carrito lleno pague, a una fila donde el cajero deja pasar rápido a quien solo tiene una manzana, pero sin dejar que el cliente con el carrito lleno se enfade demasiado. ¡Es una mejora simple, barata y muy efectiva!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español:

Título: Programación Consciente de la Duración para el Servicio de ASR bajo Deriva de Carga

Autores: Darshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba (Sprinklr)
Publicación: Taller CAO en ICLR 2026

1. El Problema

Los sistemas de reconocimiento automático del habla (ASR) a gran escala, como los que utilizan modelos tipo Whisper, dependen críticamente de la latencia de extremo a extremo (E2E) para la experiencia del usuario. Sin embargo, los motores de inferencia populares (como vLLM y Orca) suelen utilizar políticas de programación Primero en Entrar, Primero en Salir (FCFS).

El problema principal de FCFS es que ignora la variabilidad en la duración de las solicitudes. Cuando una solicitud larga se coloca al frente de la cola, bloquea a las solicitudes más cortas que llegan después, un fenómeno conocido como bloqueo de la cabeza de la línea (head-of-line blocking). Esto aumenta significativamente la latencia promedio y degrada la calidad del servicio, especialmente bajo cargas de trabajo pesadas o cuando la distribución de las solicitudes cambia (deriva de carga).

2. Metodología

Los autores proponen una solución basada en la premisa de que la duración del audio es un proxy preciso para el tiempo de procesamiento en modelos ASR de codificador-decodificador.

A. Correlación Duración-Tokens

Análisis: En modelos como Whisper, el tiempo de codificación es constante por segmento, pero el tiempo de decodificación es lineal con el número de tokens generados. Dado que la tasa de habla humana es relativamente estable, la duración del audio se correlaciona fuertemente con el número de tokens de salida.
Hallazgo: Se demostró empíricamente (usando LibriSpeech y FLEURS) una relación lineal: $n \approx d \times \kappa$ , donde $d$ es la duración y $\kappa$ es una constante específica del idioma.
Ventaja: A diferencia de los LLMs de texto donde la longitud de salida es impredecible, en ASR la duración del audio es un dato conocido al momento de la llegada de la solicitud, lo que permite una estimación de longitud de trabajo con cero sobrecarga de predicción.

B. Algoritmos de Programación Implementados

Se integraron dos algoritmos clásicos en el motor vLLM:

Shortest Job First (SJF): Prioriza las solicitudes con audio más corto para minimizar el tiempo de espera promedio.
- Riesgo: Puede causar inanición (starvation) en solicitudes largas si llegan continuamente solicitudes cortas.
Highest Response Ratio Next (HRRN): Un algoritmo híbrido que equilibra el tiempo de espera y la duración estimada del trabajo.
- Mecanismo: Calcula una "Ratio de Respuesta" = $(Tiempo de Espera + Tiempo Estimado) / Tiempo Estimado$ .
- Beneficio: A medida que una solicitud larga espera, su ratio aumenta, ganando prioridad gradualmente y mitigando el problema de inanición del SJF.

3. Contribuciones Clave

Identificación de un Proxy de Cero Costo: Demostraron que la duración del audio es una señal fiable y gratuita para la planificación de tareas en ASR, eliminando la necesidad de modelos auxiliares de predicción de longitud.
Integración en vLLM: Implementación práctica de SJF y HRRN dentro de una infraestructura de servicio de inferencia moderna.
Evaluación bajo Deriva de Carga: Validación de los algoritmos no solo en el conjunto de datos original (LibriSpeech, sesgado a la derecha), sino también en una división sintética con distribución uniforme de duraciones, para probar la robustez ante cambios en la distribución de la carga.

4. Resultados

Los experimentos se realizaron en una GPU NVIDIA A100 con el modelo Whisper-large-v3, variando la tasa de llegada de solicitudes (1 a 25 req/s).

Rendimiento en LibriSpeech (Carga Realista):

SJF: En cargas altas (25 req/s), redujo la latencia E2E mediana (P50) en un 73% y el tiempo hasta el primer token (TTFT) en un 93% comparado con FCFS.
- Trade-off: Aumentó la latencia de la cola (P90) en un 97% debido a la inanición de solicitudes largas.
HRRN: Logró una reducción de la latencia mediana (P50) de hasta un 28%, mientras que limitó la degradación de la latencia de cola (P90) a un máximo de 24%.

Rendimiento en División Sintética (Carga Uniforme):

Las mejoras de SJF persistieron (reducción del 67% en P50), confirmando que las ganancias provienen de la reordenación de la cola y no solo del sesgo natural de los datos.
La penalización de cola de SJF fue menor en la distribución uniforme (29% vs 97%), ya que las solicitudes largas no son tan raras y no se inanecen indefinidamente.

Rendimiento General:

Rendimiento (Throughput): No hubo penalización en el rendimiento total; todas las políticas alcanzaron el mismo límite de saturación.
Sobrecarga: El costo de toma de decisiones de programación es insignificante (< 0.1 ms por solicitud).

5. Significado y Conclusión

El trabajo demuestra que la programación consciente de la duración es una mejora lista para producción y de bajo costo para los sistemas ASR.

Impacto: Permite reducir drásticamente la latencia percibida por el usuario (especialmente la mediana) sin sacrificar el rendimiento del sistema.
Equilibrio: HRRN se presenta como la solución más práctica para entornos de producción, ofreciendo mejoras significativas en la latencia promedio mientras protege a las solicitudes largas de sufrir una degradación excesiva en la latencia de cola.
Futuro: Los autores sugieren mejoras como la integración de detección de actividad de voz (VAD) para ignorar silencios y el cambio dinámico de políticas según la profundidad de la cola.

En resumen, este estudio transforma un problema de planificación de recursos clásico en un contexto moderno de IA, aprovechando una característica intrínseca de los datos de audio (la duración) para optimizar el servicio sin necesidad de complejidad computacional adicional.