Autores originales: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy

Publicado 2026-06-09

📖 1 min de lectura☕ Lectura para el café

Autores originales: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Aún no hay explicación disponible en este idioma.

Prueba: DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Resumen Técnico: FMplex – Virtualización de Modelos para el Servicio de Modelos Fundacionales Extensibles

Declaración del Problema

Los Modelos Fundacionales (FM, por sus siglas en inglés) se han convertido en la columna vertebral de diversas aplicaciones descendentes en los dominios de lenguaje, visión, series temporales y multimodales. Sin embargo, los sistemas de servicio de modelos existentes (por ejemplo, NVIDIA Triton) están diseñados en torno a un paradigma de "instancia por tarea", donde cada tarea personalizada carga una copia separada e independiente del modelo. Este enfoque es ineficiente para los FM debido a que:

Desperdicio de Recursos: Los FM constan de un núcleo (backbone) masivo y compartido (a menudo de gigabytes de tamaño) y extensiones ligeras específicas de la tarea (cabezales, adaptadores). Cargar un núcleo completo para cada tarea replica el componente más pesado, desperdiciando la memoria del acelerador.
Pérdida de Eficiencia: Las instancias independientes impiden la amortización de los costos de procesamiento por lotes (batching) y de carga entre tareas.
Interferencia y Aislamiento: La simple co-ubicación de tareas en una GPU compartida sin separación lógica conduce a la interferencia entre tareas, donde los picos de carga de una tarea degradan el rendimiento de otras.
Rigidez del Ciclo de Vida: Los sistemas actuales vinculan el ciclo de vida de la tarea a la instancia física del modelo, lo que dificulta la adición, eliminación o modificación de tareas sin volver a desplegar todo el núcleo.

El artículo argumenta que el núcleo de un FM debe tratarse como un sustrato de sistema compartido (análogo a una CPU o a la memoria en la virtualización de sistemas operativos) en lugar de un artefacto de despliegue por tarea.

Metodología: FMplex

Los autores presentan FMplex, un sistema de servicio que introduce la Virtualización de Modelos Fundacionales. El concepto central es el Modelo Fundacional Virtual (vFM), una instancia de FM lógicamente privada presentada a cada tarea, la cual está respaldada por una instancia de FM física compartida.

Componentes Arquitectónicos Clave

Abstracción del Modelo Fundacional Virtual (vFM):
- Desacoplamiento: El vFM desacopla la visión lógica de la tarea (personalización, estado, ciclo de vida) del núcleo físico.
- Estructura: Cada vFM incluye una Cola Virtual (para el enrutamiento de solicitudes), Extensiones de Tarea (codificadores, decodificadores y adaptadores PEFT como LoRA) y Estado/Contabilidad (SLOs, prioridades, pesos).
- Mecanismo: Cuando una tarea invoca su vFM, FMplex intercepta la llamada, la enruta a través de la cola virtual y la ejecuta en el núcleo físico compartido, aplicando los adaptadores específicos de la tarea según sea necesario.
Planificador de Cola Justa Sensible al Procesamiento por Lotes (BFQ):
- Desafío: Los planificadores de participación justa estándar (por ejemplo, Start-Time Fair Queueing) operan a nivel de solicitud individual y no tienen en cuenta las ganancias de eficiencia del procesamiento por lotes, lo cual es crítico para el rendimiento de los FM.
- Solución: BFQ es un planificador de trabajo conservador que aproxima la participación justa ponderada mientras optimiza el procesamiento por lotes.
- Operación: Asigna etiquetas de inicio/finalización a las solicitudes basadas en los pesos de las tareas. Forma iterativamente lotes hasta un tamaño máximo ( $B_{max}$ ) o hasta que se viole un plazo de un SLO.
- Manejo de Adaptadores: BFQ gestiona la incompatibilidad de adaptadores agrupando primero las solicitudes sobre el núcleo común y luego procesando secuencialmente las diferencias de adaptadores incompatibles, asegurando la equidad sin sacrificar la eficiencia del procesamiento por lotes.
- Soporte de Tokens: Para los FM basados en tokens (por ejemplo, LLMs), BFQ carga el trabajo a nivel de token en unidades de tiempo de servicio para mantener la consistencia con los tiempos de ejecución a nivel de solicitud.
API de Tarea y Stack de Servicio:
- API de Tarea: Una interfaz de programación que permite a los usuarios construir tuberías (pipelines) de tareas adjuntando codificadores, decodificadores y adaptadores a un vFM. Soporta tanto inferencia como ajuste fino (fine-tuning) utilizando el mismo objeto de tubería.
- Controlador FMplex (FMplex-Controller): Un controlador a nivel de clúster que gestiona el plan de despliegue. Utiliza una heurística de "Máxima Participación" (Max-Share) para vincular tareas a núcleos físicos existentes siempre que sea posible, minimizando la instanciación de nuevos núcleos.
- Adaptación Elástica: Cuando cambia la carga, el sistema puede re-vincular el vFM de una tarea a un núcleo físico existente diferente, moviendo solo el estado ligero de la tarea (colas, adaptadores) en lugar de recargar el pesado núcleo.

Contribuciones Clave

Virtualización de FM para el Compartir de Despliegue: La introducción de la abstracción vFM, que permite que múltiples tareas independientemente personalizadas compartan una única instancia de FM física manteniendo el aislamiento lógico y los ciclos de vida independientes.
Stack de Servicio Basado en el Compartir: Un sistema de extremo a extremo que integra la API de Tarea para la construcción extensible de tareas y el FMplex-Controller para el despliegue de clúster consciente del intercambio.
Prototipo de Implementación: Un prototipo funcional que soporta múltiples modalidades (series temporales, visión, LLMs, VLMs) y entornos de ejecución (PyTorch, vLLM), demostrando flexibilidad a través de FMs heterogéneos.
Evaluación Exhaustiva: Una evaluación rigurosa a través de 7 núcleos de FM (16 variantes) y 92 tareas descendentes.

Resultados Experimentales

La evaluación se realizó en un clúster de 16 nodos AWS (GPUs NVIDIA T4) utilizando trazas sintéticas y del mundo real (Azure Functions).

Reducción de Latencia:
- Comparado con la Partición Espacial (aislar tareas en particiones de GPU), FMplex redujo la latencia hasta en un 80%.
- Comparado con la Co-ubicación de Mejor Esfuerzo (múltiples instancias completas en una sola GPU sin aislamiento), FMplex redujo la latencia hasta en un 33.3%.
- A escala de clúster, FMplex redujo la latencia media en un 15% y la latencia P99 en un 26% en comparación con la co-ubicación de mejor esfuerzo.
Eficiencia de Recursos y Escalabilidad:
- Memoria: FMplex reduce significativamente el uso de memoria GPU. Por ejemplo, la co-ubicación de 10 tareas de series temporales en un núcleo compartido requirió solo 1.17× la memoria de una sola tarea, comparado con 10× para un despliegue independiente.
- Rendimiento (Throughput): FMplex mantuvo hasta 6× más tareas con carga baja (donde la memoria es el cuello de botella) y 8–12% más tareas con carga moderada/alta (donde el cómputo es el cuello de botella) en comparación con la co-ubicación de mejor esfuerzo.
- Equidad (Fairness): Bajo pesos de servicio asimétricos (por ejemplo, 3:1), FMplex mantuvo puntuaciones de equidad de 0.97–0.98 mientras sostenía 84 RPS. En contraste, la participación justa no agrupada logró una equidad similar a solo 37 RPS, y el intercambio no gestionado redujo la equidad a 0.66.
Sobrecarga de Adaptación:
- FMplex demostró una rápida adaptación a las sobrecargas de carga de trabajo. Re-vincular una tarea a un núcleo existente tomó 0.5 segundos, mientras que cargar una nueva instancia de núcleo (como requieren los sistemas de no-compartición) tomó ~58 segundos, causando un pico de latencia de dos órdenes de magnitud.
Sobrecarga (Overhead): La sobrecarga de programación introducida por FMplex (manejo de colas y computación de etiquetas) fue mínima, promediando 0.35 ms por solicitud, lo cual es insignificante comparado con los tiempos de ejecución del núcleo.

Significancia y Reivindicaciones

El artículo afirma que FMplex aborda el desajuste fundamental entre la arquitectura de los Modelos Fundacionales (núcleos pesados compartidos, extensiones ligeras) y los sistemas de servicio actuales (despliegue por instancia). Al tratar el núcleo de un FM como un sustrato de virtualización, FMplex permite:

Compartir el Despliegue: Amortizar los altos costos de memoria y cómputo del núcleo entre múltiples tareas.
Aislamiento de Tareas: Proporcionar garantías de rendimiento y aislamiento por tarea sin la penalización de recursos de la replicación total del modelo.
Flexibilidad Operativa: Permitir que las tareas se añadan, eliminen o modifiquen dinámicamente sin volver a desplegar la infraestructura subyacente.

Los autores posicionan a FMplex no solo como una optimización para modelos específicos, sino como una capa de sistema generalizable que extiende los principios de la virtualización clásica al dominio del servicio de Modelos Fundacionales, permitiendo una infraestructura de IA más eficiente y escalable.

FMplex: Model Virtualization for Serving Extensible Foundation Models