Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Le papier présente Helios, un accélérateur de serving pour grands modèles de langage basé sur la co-conception matériel-logiciel et l'hybridation de puces 3D-DRAM, qui surpasse les conceptions existantes en optimisant la gestion dynamique du cache KV et l'exécution distribuée de l'attention pour réduire la latence et améliorer l'efficacité énergétique.

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (comme ceux qui font fonctionner les chatbots intelligents) sont comme des cuisiniers de génie dans un restaurant très fréquenté.

Ces cuisiniers doivent gérer deux types de tâches très différents :

  1. La préparation (Prefill) : C'est le moment où ils lisent la commande du client (le prompt). C'est une tâche qui demande beaucoup de force brute et de calcul rapide.
  2. La cuisson (Decoding) : C'est le moment où ils écrivent la réponse, mot par mot. Ici, le défi n'est pas la force, mais la mémoire. Ils doivent se souvenir de tout ce qui a été dit précédemment pour rester cohérents. Plus la conversation est longue, plus ils doivent se souvenir de beaucoup de choses.

Le Problème : Le "Goulot d'Étranglement" de la Mémoire

Dans les serveurs actuels (comme les puces GPU), il y a un déséquilibre. Le cuisinier est très fort pour calculer, mais sa "mémoire" (le placard où il range les ingrédients) est loin et difficile d'accès.

  • Quand il doit se souvenir de 10 000 mots passés pour écrire le prochain, il passe son temps à courir chercher les ingrédients dans le placard plutôt qu'à cuisiner.
  • De plus, les clients arrivent de manière imprévisible : parfois un seul client, parfois des centaines. Et certains veulent des réponses courtes, d'autres des romans entiers.

Les solutions actuelles tentent de rapprocher la mémoire du cuisinier (c'est ce qu'on appelle le Near-Memory Processing ou NMP), mais elles sont trop rigides. C'est comme si le restaurant avait des placards fixes :

  • Si un client commande un petit plat, on lui donne tout un placard vide (gaspillage).
  • Si un client commande un énorme plat, le placard est trop petit et on ne peut pas l'accepter, même s'il reste de la place ailleurs dans le restaurant.
  • Les cuisiniers sont assignés à des placards spécifiques et ne peuvent pas s'entraider facilement.

La Solution : Helios, le Restaurant du Futur

Les chercheurs de l'Université de Pékin et de leurs partenaires ont inventé Helios. Imaginez Helios comme un restaurant ultra-moderne construit avec une technologie de "collage" 3D (le Hybrid Bonding).

Voici comment Helios change la donne, avec des analogies simples :

1. La Technologie de "Collage" (Hybrid Bonding)

Au lieu d'avoir la mémoire et le processeur séparés sur des étages différents, Helios les colle directement l'un sur l'autre, comme deux étages d'un immeuble reliés par des ascenseurs ultra-rapides et courts.

  • Avantage : La distance entre le cuisinier et les ingrédients est quasi nulle. La vitesse de transfert est énorme, et la consommation d'énergie est faible.

2. La Gestion Dynamique des Placards (KV Cache)

C'est le cœur de l'innovation. Au lieu de donner un placard entier à un client, Helios découpe la mémoire en petits blocs (comme des Lego).

  • L'analogie : Imaginez que vous avez un mur de Lego.
    • Les anciens systèmes : Ils réservent un mur entier pour un client, même s'il n'utilise que quelques briques. Si un autre client arrive avec un gros projet, il n'y a pas de mur libre, même si le total des murs libres suffirait.
    • Helios : Il prend les briques libres un par un. Si un client a besoin de 100 briques, on lui donne 100 briques prises ici et là. Si un client finit sa commande, ses briques retournent immédiatement dans le stock pour être réutilisées.
  • Résultat : Pas de gaspillage, et le restaurant peut accueillir beaucoup plus de clients en même temps, peu importe la taille de leur commande.

3. La Cuisine Collaborative (Attention Distribuée)

Dans les anciens systèmes, un seul cuisinier devait gérer toute la mémoire d'un client. Si la mémoire était trop grande, il s'essoufflait.

  • L'analogie Helios : Quand un client a une très longue conversation, Helios ne donne pas tout le travail à un seul cuisinier. Il répartit les briques de mémoire sur plusieurs cuisiniers qui travaillent ensemble en temps réel.
  • Ils se passent les informations très vite grâce à leurs ascenseurs ultra-rapides. C'est comme une équipe de relais où chaque coureur court une petite distance, mais ensemble, ils vont très vite.

Les Résultats : Pourquoi c'est impressionnant ?

Grâce à cette conception intelligente (co-conception matériel/logiciel), Helios bat les meilleurs serveurs actuels (comme les puces NVIDIA A100) de manière spectaculaire :

  • Vitesse : Il est 3,25 fois plus rapide en moyenne. C'est comme passer d'une voiture de ville à une Formule 1.
  • Économie d'énergie : Il consomme 3,36 fois moins d'énergie pour faire le même travail. C'est comme avoir une voiture qui roule plus vite mais qui consomme moins d'essence.
  • Stabilité : Même quand le restaurant est bondé et que les commandes arrivent en rafale, Helios maintient un service fluide. Les temps d'attente (le temps entre deux mots générés) restent très bas, même pour les clients exigeants.

En Résumé

Helios est une révolution pour l'intelligence artificielle générative. Il résout le problème de la "mémoire" en transformant un système rigide et gaspilleur en un système flexible, collaboratif et ultra-rapide.

C'est comme passer d'un entrepôt où les camions doivent faire de longs détours pour charger des marchandises, à un entrepôt où les robots sont collés aux étagères et peuvent se passer les colis instantanément, peu importe la taille de la commande. Cela permet de servir des millions de conversations complexes, rapidement et à moindre coût.