DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Each language version is independently generated for its own context, not a direct translation.

🚀 DOPD : Le Chef d'Orchestre Intelligent des IA Génératives

Imaginez que vous dirigez un grand restaurant très populaire qui sert des plats complexes (les réponses des IA). Pour préparer ces plats, votre cuisine est divisée en deux étapes très différentes :

La Préparation (Prefill) : C'est l'étape où le chef lit la commande du client, analyse les ingrédients et prépare le plan de cuisson. C'est une tâche qui demande beaucoup de force brute et de calcul rapide.
Le Service (Decoding) : C'est l'étape où le serveur apporte le plat, le découpe et le sert bouchée par bouchée au client. C'est une tâche qui demande beaucoup de mémoire (pour se souvenir de ce qui a déjà été servi) et de la patience, mais moins de force brute.

🏗️ Le Problème : La Cuisine Déséquilibrée

Dans les systèmes actuels, on sépare souvent ces deux tâches dans deux cuisines différentes (sur deux types de cartes graphiques/GPU).

La Cuisine A (Préparation) est très rapide mais s'arrête souvent si elle n'a pas de commandes.
La Cuisine B (Service) est très lente mais a besoin d'un flux constant de plats préparés.

Le problème ? Les clients arrivent de manière imprévisible. Parfois, ils commandent des petits plats rapides (courts), parfois des festins interminables (longs).

Si vous avez trop de chefs de préparation et pas assez de serveurs, les plats s'empilent et les serveurs sont débordés.
Si vous avez trop de serveurs et pas assez de chefs, les serveurs attendent en vain, et les clients s'impatientent.
De plus, si vous mélangez des commandes très courtes et très longues dans le même panier, cela crée des embouteillages.

C'est ce que les auteurs appellent le déséquilibre Producteur-Consommateur. Résultat : on gaspille de l'argent (des cartes graphiques coûteuses qui ne font rien) et les clients sont mécontents (l'IA met trop de temps à répondre).

💡 La Solution : DOPD (Le Chef d'Orchestre Dynamique)

Les chercheurs ont créé DOPD (Dynamic Optimal Prefill/Decoding). Imaginez DOPD comme un chef d'orchestre ultra-intelligent qui surveille la salle en temps réel et ajuste la musique (les ressources) instantanément.

Voici comment il fonctionne, étape par étape :

1. La Prévision Météo (L'ARIMA)
Au lieu de deviner, DOPD regarde les tendances passées pour prédire le futur.

Analogie : C'est comme un météorologue qui regarde les nuages pour dire : "Dans 10 minutes, il va pleuvoir des commandes courtes !" ou "Demain, il y aura une tempête de longs textes !".
Grâce à cela, DOPD sait exactement combien de chefs (Préparation) et de serveurs (Service) il faudra dans quelques minutes, et il les prépare à l'avance.

2. L'Équilibre Parfait (Le Ratio P/D)
DOPD calcule le nombre exact de cuisiniers et de serveurs nécessaires pour que personne ne s'ennuie et que personne ne soit en surcharge.

Analogie : Si la cuisine est trop petite, on ajoute une table. Si elle est trop grande, on en retire une. DOPD ajuste ce ratio en permanence pour que chaque carte graphique travaille à 100 % de son efficacité, sans gaspillage.

3. Le Tri Intelligent des Commandes (Le Tri par Longueur)
C'est la partie la plus astucieuse. DOPD ne traite pas toutes les commandes de la même manière.

Les petits plats (Textes courts) : Ils sont si rapides à préparer qu'il est plus rapide de les faire dans la cuisine de service (Decoding) directement, sans les envoyer à la cuisine de préparation. Cela évite de les faire voyager inutilement d'un bout à l'autre du restaurant.
Les grands plats (Textes longs) : Ils sont envoyés directement aux chefs de préparation.
Le regroupement : DOPD regroupe les petits plats similaires pour les cuire ensemble, comme on met plusieurs pizzas dans un four en même temps pour gagner du temps.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à cette approche, DOPD a démontré des résultats impressionnants par rapport aux systèmes actuels (comme vLLM ou DistServe) :

Plus de plats servis : Le système produit jusqu'à 1,5 fois plus de réponses par seconde (Goodput).
Moins d'attente : Le temps pour voir le premier mot apparaître (TTFT) est réduit de 67 %. C'est comme si le serveur arrivait avec le plat presque instantanément après la commande.
Moins de gaspillage : On utilise moins de cartes graphiques pour faire le même travail, ce qui économise de l'énergie et de l'argent.
Fiabilité : Presque 100 % des clients obtiennent une réponse dans le temps promis (SLO), même quand le restaurant est bondé.

En Résumé

DOPD est une intelligence artificielle qui gère une autre intelligence artificielle. Elle agit comme un directeur de trafic dynamique qui ajuste le nombre de voitures (les ressources) sur la route en fonction du trafic réel, évitant ainsi les embouteillages et les routes vides.

Au lieu d'avoir une configuration fixe et rigide, DOPD est fluide, prédictif et adaptatif, garantissant que l'IA répond vite, bien et sans gaspiller de ressources précieuses, peu importe la complexité de la demande.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage de grande taille (LLM) modernes nécessitent des ressources de calcul et de stockage massives. Pour optimiser l'inférence, l'architecture PD-Disaggregation (séparation des étapes de Prefill et de Décodage sur des GPU distincts) a été adoptée pour atténuer les goulots d'étranglement spécifiques à chaque étape :

Prefill (P) : Intense en calcul (Compute-intensive), traite les entrées utilisateur.
Décodage (D) : Intense en mémoire (Memory-intensive), génère les tokens de sortie.

Cependant, cette architecture souffre de trois problèmes majeurs :

Déséquilibre Producteur-Consommateur : La charge de travail des LLM est hétérogène et non stationnaire. Un ratio fixe entre instances P et D entraîne soit un gaspillage de ressources (sur-provisionnement), soit des violations des Objectifs de Niveau de Service (SLO) sous-provisionnement).
Imprévisibilité de la charge : Les longueurs d'entrée et de sortie des requêtes varient considérablement (distributions à queue lourde), rendant la prédiction de charge difficile et les allocations statiques inefficaces.
Hétérogénéité des longueurs de requêtes : Le mélange de requêtes courtes et longues dans une configuration statique crée des goulots d'étranglement. Les requêtes ultra-courtes subissent une latence inutile due au transfert de cache KV entre les instances P et D, tandis que les requêtes longues peuvent saturer les ressources de pré-calcul.

2. Méthodologie : DOPD (Dynamic Optimal Prefill/Decoding)

DOPD est un système d'inférence dynamique qui ajuste en temps réel l'allocation des ressources et le ratio P/D pour maximiser le goodput (débit utile) tout en respectant les SLO.

A. Calcul du Ratio P/D Optimal

Le système modélise l'inférence comme un problème d'optimisation visant à minimiser le nombre total de GPU tout en satisfaisant les contraintes de latence (TTFT, TPOT).

Modélisation de la capacité : Le système calcule la concurrence maximale ( $c_{cd}$ ) qu'une instance de décodage peut supporter en fonction de la capacité mémoire (KV-cache) et de la bande passante mémoire (pour respecter le TPOT SLO).
Équilibre Production/Consommation : Le ratio optimal est déterminé analytiquement pour que la vitesse de production des requêtes pré-calculées par les instances P corresponde exactement à la vitesse de consommation des instances D, minimisant ainsi les temps d'attente et l'inactivité.
Prédiction de charge : DOPD utilise un modèle de série temporelle ARIMA pour prédire la charge future (longueur moyenne des séquences, nombre de requêtes) basée sur les métriques historiques, permettant un ajustement proactif plutôt que réactif.

B. Ordonnancement Intelligent des Requêtes (Request Scheduling)

Pour gérer l'hétérogénéité des longueurs de requêtes, DOPD implémente une politique d'ordonnancement "consciente de la longueur" (length-aware) :

Requêtes longues : Exécutées immédiatement sur les instances P pour éviter les files d'attente.
Requêtes courtes : Sont mises en batch (regroupées) jusqu'à ce qu'un seuil de longueur cumulée ou un délai d'attente maximal soit atteint. Cela permet de mieux utiliser la puissance de calcul des GPU P.
Requêtes ultra-courtes : Pour les requêtes dont le temps de pré-calcul est négligeable, DOPD propose une agrégation PD : le pré-calcul est effectué directement sur l'instance de décodage (D) pour éviter le coût de transfert du cache KV, réduisant ainsi la latence de premier token (TTFT).

C. Architecture du Système

DOPD s'appuie sur cinq composants clés :

Resource Monitor : Collecte les métriques (utilisation GPU, longueur des files d'attente, TTFT/TPOT).
Router : Aiguille les requêtes vers l'instance D la moins chargée avec le meilleur taux de cache hit.
Connector : Gère les transferts de cache KV entre P et D via NIXL (bibliothèque NVIDIA).
PD Manager : Le cerveau du système. Il utilise les prédictions ARIMA et les profils de performance pour recalculer le ratio P/D optimal et déclencher le scaling élastique (ajout/suppression d'instances) sans interruption de service.
Request Scheduler : Implémenté dans les instances, il applique la logique de regroupement et d'exécution immédiate décrite ci-dessus.

3. Contributions Clés

Framework DOPD : Un système d'inférence dynamique qui ajuste continuellement le nombre et la configuration des instances P et D.
Méthode de calcul du ratio P/D optimal : Une approche analytique qui détermine la configuration idéale pour un régime de charge donné, garantissant un équilibre producteur-consommateur.
Ordonnancement adaptatif : Un algorithme de planification intelligent qui atténue les déséquilibres de ressources causés par les mélanges de requêtes de longueurs variées.
Validation expérimentale : Une évaluation exhaustive démontrant l'efficacité de l'approche sur des traces de production réelles.

4. Résultats Expérimentaux

Les évaluations ont été menées sur un cluster de 8 GPU NVIDIA H100 avec des modèles comme LLaMa-3.3-70B, OPT-30B et QWen2.5-72B, comparant DOPD à des solutions de référence (vLLM, DistServe, Dynamo).

Amélioration du Goodput : DOPD améliore le débit global du système d'un facteur allant jusqu'à 1,5x par rapport aux approches agrégées (vLLM) et désagrégées statiques (DistServe).
Réduction de la Latence :
- Réduction du P90 TTFT (Time-to-First-Token) jusqu'à 67,5 %.
- Réduction du P90 TPOT (Time-per-Output-Token) jusqu'à 22,8 %.
Respect des SLO : DOPD atteint un taux de respect des SLO de 99,4 % (contre 80,8 % pour les méthodes de base dynamiques comme DYN-LOAD), même sous des charges variables et des pics de trafic.
Efficacité des Ressources : Le système évite le sur-provisionnement en ajustant dynamiquement le nombre de GPU, réduisant ainsi les coûts d'infrastructure.

5. Signification et Impact

Cet article apporte une solution fondamentale au problème de l'optimisation des ressources dans les architectures de LLM désagrégées.

Passage du Statique au Dynamique : Il démontre qu'une allocation statique des ressources P/D est insuffisante face à la variabilité des charges de travail réelles. L'ajustement dynamique basé sur la prédiction est crucial.
Gestion de l'Hétérogénéité : La proposition de traiter différemment les requêtes courtes et longues (via l'agrégation PD pour les courtes) résout un problème d'efficacité souvent négligé dans les systèmes désagrégés.
Viabilité Industrielle : En permettant de servir plus d'utilisateurs avec moins de GPU tout en garantissant une expérience utilisateur fluide (faible latence, respect des SLO), DOPD rend le déploiement de LLM à grande échelle plus économiquement viable et écologiquement durable.

En conclusion, DOPD établit un nouveau standard pour l'orchestration des ressources dans les services d'inférence LLM, combinant modélisation théorique rigoureuse et implémentation pratique efficace.