Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Helios is een hybride-bonding-gebaseerde hardware-software co-design voor 3D-DRAM die de dynamische aard van LLM-servingswerklasten adresseert door geavanceerde KV-cache-beheer- en communicatieprimitieven te introduceren, wat resulteert in aanzienlijke verbeteringen in snelheid en energie-efficiëntie ten opzichte van bestaande GPU- en NMP-ontwerpen.

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, slimme chatbot hebt die continu vragen beantwoordt van miljoenen mensen tegelijk. Soms zijn de vragen kort ("Wat is de hoofdstad van Frankrijk?"), en soms zijn het enorme romans die de bot moet samenvatten. Dit noemen we Large Language Models (LLMs).

Het probleem is dat deze bots vaak vastlopen of erg traag worden als er veel mensen tegelijk vragen stellen, of als de vragen heel lang zijn. De huidige hardware (zoals de krachtige videokaarten in servers) is als een superkrachtige kok die wel snel kan snijden (rekenen), maar een heel trage koelkast heeft om ingrediënten op te slaan (geheugen). Als de kok moet wachten tot de ingrediënten uit de koelkast komen, staat de hele keuken stil.

Hier komt Helios om de hoek kijken. Dit is een nieuwe, slimme manier om deze chatbots te laten werken, ontwikkeld door onderzoekers van onder andere de Universiteit van Peking.

Hier is hoe Helios werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Statische" Koelkast

Stel je voor dat de huidige systemen werken met een statische indeling.

  • Elke vraag krijgt een vaste plek in de koelkast toegewezen, zelfs als de vraag nog maar één zin is.
  • Als er een lange vraag binnenkomt, moet die hele lange rij ingrediënten op één plek passen. Als die plek vol zit, moet je wachten, zelfs als er elders in de koelkast nog ruimte is.
  • Dit zorgt voor verspilling (leeg ruimte die niet gebruikt kan worden) en wachttijden (de kok moet wachten tot de juiste ingrediënten worden opgehaald).

2. De Oplossing: Helios als een Slimme, Dynamische Keuken

Helios is een nieuwe soort "keuken" (een chip) die twee dingen combineert:

  1. Hybrid Bonding: Dit is als het direct vastplakken van de koelkast op het aanrecht. In plaats van dat de ingrediënten (data) via een lange gang naar de kok (rekenkracht) moeten worden gebracht, zitten ze er direct bovenop. Dit maakt het overbrengen van data extreem snel en energiezuinig.
  2. Slimme Indeling (Dynamisch): Helios gebruikt geen vaste plekken meer. Het werkt met kleine blokken.

De Analogie van de Legpuzzel

Stel je voor dat je een enorme legpuzzel moet maken (het antwoord op de vraag).

  • Oude systemen: Je probeert de hele puzzel op één groot bord te leggen. Als de puzzel te groot is, past hij niet. Als je een klein stukje puzzel hebt, moet je toch een heel groot bord gebruiken.
  • Helios: Je hebt een vloer met 16 kleine tafeltjes (deze noemen ze Processing Engines). Helios snijdt de puzzel in kleine, flexibele stukjes.
    • Als er een korte vraag is, gebruikt Helios maar één tafeltje.
    • Als er een lange vraag is, spreidt het de puzzelstukjes over alle 16 tafeltjes uit.
    • Als er een nieuwe vraag binnenkomt, zoekt Helios direct naar de tafeltjes die nog ruimte hebben. Er is geen "wachtlijst" meer omdat één tafeltje vol zit.

3. Waarom is dit zo snel?

Helios lost twee grote problemen op:

  • Geen "Wachtrij" meer: Omdat de data direct op de rekenkracht zit en de puzzelstukjes slim worden verdeeld, hoeft de kok (de processor) nooit te wachten op ingrediënten.
  • Perfecte Verdeling: Als er 100 mensen tegelijk vragen stellen, verdeelt Helios het werk zo dat geen enkele kok te veel werk heeft en geen enkele kok niets doet. Het is alsof een manager die ziet dat de ene kok te veel taartjes bakt en de andere te weinig, en direct de taakjes herschikt.

4. Het Resultaat

De onderzoekers hebben Helios getest tegen de beste huidige systemen (zoals de krachtige NVIDIA A100-chips).

  • Snelheid: Helios is gemiddeld 3,25 keer sneller. Dat is alsof je een reis van 1 uur nu in 20 minuten doet.
  • Energie: Het verbruikt 3,36 keer minder energie voor dezelfde taak. Dit is alsof je dezelfde afstand rijdt met een elektrische auto in plaats van een oude benzineauto die veel brandstof verbruikt.
  • Stabiliteit: Zelfs als er plotseling duizenden mensen tegelijk een vraag stellen, blijft Helios rustig werken, terwijl andere systemen vastlopen.

Samenvattend

Helios is als het bouwen van een supermoderne, slimme fabriek waar de machines (rekenkracht) en de magazijnen (geheugen) perfect op elkaar zijn afgestemd. In plaats van starre regels te volgen, past Helios zich continu aan aan de vraag. Of je nu een korte vraag stelt of een heel boek laat samenvatten, Helios verdeelt het werk slim over alle beschikbare ruimte, waardoor het sneller, goedkoper en stabieler is dan wat we nu hebben.

Het is een stap in de richting van chatbots die niet alleen slimmer zijn, maar ook veel sneller en efficiënter reageren op onze dagelijkse vragen.