Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Deze studie presenteert een uitgebreide benchmark van LLM-inferentie op AMD Instinct MI325X-GPU's, waarbij wordt aangetoond dat architectuurbewuste optimalisaties, zoals het selectief toepassen van de AITER-runtime en het aanpassen van blokgroottes, essentieel zijn voor het maximaliseren van de doorvoer en stabiliteit van diverse modelarchitecturen.

Athos Georgiou

Gepubliceerd Thu, 12 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🚀 De AMD Instinct MI325X: Een Testrit voor de Slimste Computers ter Wereld

Stel je voor dat je een gigantisch, supersnel racepark hebt gebouwd. Dit is de AMD Instinct MI325X, een nieuwe generatie computerchips (GPU's) die speciaal is ontworpen om de slimste kunstmatige intelligentie (AI) ter wereld aan te sturen.

De auteurs van dit rapport hebben een grote test gedaan: ze hebben vier verschillende soorten "super-AI's" op dit racepark gereden om te zien hoe snel ze kunnen gaan en of ze het racepark kunnen verpletteren.

Hier zijn de belangrijkste ontdekkingen, vertaald naar begrijpelijke termen:

1. Niet elke auto heeft dezelfde brandstof (De Architectuur)

De vier AI's die ze testten, lijken allemaal op een auto, maar ze zijn gebouwd volgens heel verschillende ontwerpen:

  • De Dichte AI (Llama-3.1): Een zware, krachtige limousine. Alles werkt tegelijk.
  • De Expert-AI's (DeepSeek & Kimi): Dit zijn als een team van specialisten. Voor elke vraag kiezen ze alleen de experts die nodig zijn (Mixture of Experts). Ze zijn lichter, maar complexer.
  • De Visuele AI's (Qwen & Kimi): Deze kunnen niet alleen tekst lezen, maar ook naar foto's kijken.

De les: Je kunt niet voor elke auto dezelfde brandstoftank of hetzelfde rijgedrag gebruiken. Wat voor de limousine werkt, zorgt ervoor dat de expert-auto's vastlopen. Je moet de instellingen per model aanpassen.

2. De "Snelweg" is het probleem, niet de motor (Geheugenbandbreedte)

Je zou denken dat de snelheid van een AI wordt bepaald door hoe snel de rekenkracht (de motor) is. Maar dit rapport ontdekt iets verrassends: het is de snelheid van de weg (het geheugen) die telt.

Stel je voor dat de AI een kok is die een enorme maaltijd moet koken. De kok (de processor) is supersnel, maar de ingrediënten moeten via een smalle gang (het geheugen) naar de keuken worden gebracht.

  • Als er maar één kok is, is de gang breed genoeg.
  • Maar als je 500 koks tegelijk probeert te voeden (hoge drukte), wordt de gang een knelpunt. De koks staan te wachten op ingrediënten, in plaats van te koken.

De ontdekking: Op de AMD-chips stopt de snelheid van alle AI's ongeveer bij hetzelfde punt (ongeveer 500 gelijktijdige gebruikers), ongeacht hoe slim of groot de AI is. De "gang" is gewoon vol. Het maakt niet uit hoe krachtig de motor is; als de weg vastzit, gaat niemand sneller.

3. De "Sleutel" die niet past (AITER en MLA)

AMD heeft een speciale versneller genaamd AITER. Dit is als een turbo voor de AI.

  • Voor sommige AI's (zoals DeepSeek) is deze turbo verplicht. Zonder turbo rijden ze zo langzaam dat het niet bruikbaar is.
  • Voor andere AI's (zoals Llama) helpt de turbo een beetje, maar maakt het de rit soms onvoorspelbaar (de snelheid schommelt).
  • Voor de grootste AI (Kimi-K2.5) past de turbo helemaal niet. De motorblokken zijn te groot of de vorm is verkeerd. Als je hem probeert te gebruiken, crasht de auto. Je moet hem dan uitschakelen en met de standaard motor rijden.

De les: Je moet altijd eerst kijken welk type auto je hebt voordat je de turbo aanzet. "One size fits all" werkt hier niet.

4. De Grootte van de Auto telt minder dan het Gewicht (Actieve Parameters)

Er is een grote misvatting: "Hoe meer parameters (hersencellen) een AI heeft, hoe trager hij is."
Het rapport laat zien dat dit niet klopt. Wat echt telt, is hoeveel "hersencellen" er actief zijn op het moment dat de AI een woord schrijft.

  • DeepSeek heeft 685 miljard parameters (een gigantische auto), maar gebruikt er per woord maar 37 miljard (hij draagt een lichte rugzak).
  • Llama heeft 405 miljard parameters en gebruikt ze allemaal (hij draagt een zware koffer).

Toch rijden ze even snel! De AI met de lichte rugzak (DeepSeek) haalt het net als de zware limousine. Dit betekent dat slimme architectuur (alleen de juiste experts gebruiken) net zo belangrijk is als pure kracht.

5. De 1 Triljoen-Paradepaard (Kimi-K2.5)

De grootste uitdaging was Kimi-K2.5, een AI met 1 triljoen parameters. Dit is zo groot dat hij normaal gesproken niet op één server past.

  • De onderzoekers hebben hem op de AMD-chips laten draaien door de AI te "verkleinen" (kwantisatie) zonder zijn intelligentie te verliezen.
  • Resultaat: Het werkte! De AI reed stabiel, zelfs onder extreme druk (1000 mensen tegelijk), zonder ooit vast te lopen of fouten te geven. Dit is een wereldprestatie: het is de eerste keer dat zo'n enorme AI succesvol op deze specifieke AMD-chips is getest.

🏁 Conclusie voor de Gemiddelde Gebruiker

Dit rapport vertelt ons drie belangrijke dingen voor de toekomst van AI:

  1. AMD is klaar voor de grote show: De nieuwe chips kunnen de grootste AI's ter wereld aan, zelfs die van 1 triljoen parameters.
  2. Geen standaardoplossingen: Als je AI draait, moet je weten wat voor "soort" AI het is. Je kunt niet zomaar dezelfde instellingen gebruiken voor elke AI. Je moet de "sleutel" (instellingen) precies laten passen.
  3. De weg is de beperking: Zolang we niet snellere "wegen" (geheugenbandbreedte) bouwen, zullen AI's bij een bepaald aantal gebruikers even snel blijven, ongeacht hoe krachtig de chips worden.

Kortom: De technologie is er, de auto's zijn er, maar we moeten leren hoe we ze het beste op de weg moeten rijden.