ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Each language version is independently generated for its own context, not a direct translation.

ARCLIGHT: De Slimme Lichte Lantaarn voor Supercomputers

Stel je voor dat je een enorme, complexe machine hebt die verhalen schrijft, vragen beantwoordt en gedichten maakt. Dit is een LLM (een groot taalmodel), zoals de slimme AI's die je nu kent. Om deze machine aan de praat te krijgen, heb je een "inference engine" nodig: de motor die de berekeningen doet.

Op dit moment draait deze motor het vaakst op dure videokaarten (GPU's). Maar veel grote servers en netwerkapparaten gebruiken in plaats daarvan krachtige CPU's (de standaard processors). Het probleem? De bestaande software voor deze CPU's is als een oude, zware vrachtwagen die niet goed past in een modern, drukke stad.

Hier komt ARCLIGHT om de hoek kijken. Het is een nieuwe, lichtgewicht architectuur die speciaal is gebouwd voor deze moderne, krachtige CPU's. Laten we het uitleggen met een paar leuke vergelijkingen.

1. Het Probleem: De "Gordel van de Gordel" (NUMA)

Stel je een enorm kantoorgebouw voor met 4 verdiepingen (deze verdiepingen zijn de NUMA-nodes). Op elke verdieping zitten 32 werknemers (de CPU-kernen) en een eigen bibliotheek met boeken (het geheugen).

Hoe het nu werkt (oude software): Als een werknemer op verdieping 1 een boek nodig heeft, rent hij niet naar de eigen bibliotheek, maar rent hij soms naar verdieping 3 of 4 om een boek te halen. Dit kost veel tijd en energie. De software ziet dit niet als een probleem en laat de werknemers gewoon willekeurig rondrennen.
Het gevolg: De werknemers staan constant in de rij bij de liften (de "cross-NUMA memory access wall"). De computer is supersterk, maar hij staat constant vast in de file.

2. De Oplossing: ARCLIGHT

ARCLIGHT is als een nieuwe, slimme manager die het kantoor opnieuw inricht. Hij heeft drie grote trucjes:

A. De Slimme Bibliotheek (Geheugenbeheer)

In plaats van één grote, rommelige bibliotheek op de begane grond (zoals de oude software doet), deelt ARCLIGHT de boeken uit over de eigen bibliotheken van elke verdieping.

De analogie: Als een werknemer op verdieping 1 werkt, krijgt hij alle boeken die hij nodig heeft direct uit de kast op verdieping 1. Geen liften meer, geen rennen. Alles blijft lokaal.

B. De Teamindeling (Thread Scheduling)

Stel je voor dat je een puzzel moet maken. De oude software laat alle 128 werknemers samen aan één grote puzzel werken. Ze duwen en trekken allemaal tegelijk, wat chaos veroorzaakt.
ARCLIGHT deelt de puzzel op in 4 kleinere puzzels.

De analogie: Verdip 1 werkt aan puzzel A, verdieping 2 aan puzzel B, enzovoort. Ze werken parallel en hebben geen last van elkaar. Ze hoeven niet constant te overleggen, wat tijd scheelt.

C. De "Scatter & Gather" Magie (Tensor Parallelism)

Dit is de meest creatieve truc. Stel je voor dat je een enorme taart moet versieren.

Oude methode: Iedereen helpt bij het versieren van één taart. Iedereen moet wachten tot de ander klaar is voordat ze verder kunnen.
ARCLIGHT-methode:
1. Scatter (Verspreiden): De taart wordt in 4 stukken gesneden. Elke verdieping krijgt een eigen stuk en versiert dat stuk terwijl de anderen hun eigen stuk versieren.
2. Gather (Verzamelen): Zodra de stukken klaar zijn, worden ze weer samengevoegd tot één hele taart.
- Het geheim: De werknemers op verdieping 1 hoeven niet te wachten op verdieping 2. Als ze klaar zijn met hun stuk, kunnen ze alvast beginnen met de volgende taart, terwijl de anderen nog bezig zijn. Dit noemen ze "asynchrone uitvoering".

3. Het Resultaat: Sneller en Lichter

De onderzoekers hebben ARCLIGHT getest op een machine met 192 kernen (een enorm kantoor).

De uitkomst: ARCLIGHT was tot 46% sneller dan de huidige standaard (llama.cpp).
Waarom? Omdat het de "liften" (de trage verbindingen tussen de verdiepingen) bijna helemaal heeft afgeschaft. De werknemers werken effciënter, minder tijd gaat verloren aan wachten.

Waarom is dit belangrijk?

Vroeger dachten we dat AI alleen op dure videokaarten kon draaien. ARCLIGHT laat zien dat we met slimme software ook de enorme kracht van bestaande servers (die vaak al in datacenters staan) veel beter kunnen benutten. Het is als het ombouwen van een oude, zware auto tot een snelle racewagen, zonder de motor te vervangen, maar wel door de wielen en de aerodynamica perfect af te stemmen.

Kortom: ARCLIGHT is een lichte, flexibele en slimme manier om AI aan de praat te krijgen op gewone computers, zodat ze net zo snel kunnen werken als de dure specialisten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "ARCLIGHT: A LIGHTweight LLM Inference ARChitecture for Many-Core CPUs" in het Nederlands.

Probleemstelling

Hoewel bestaande frameworks voor inferentie van Large Language Models (LLM) op CPU's (zoals llama.cpp) volwassen zijn, slagen ze er niet in om het volledige rekenpotentieel van many-core CPU-platforms (processors met tientallen tot honderden kernen) volledig te benutten. Deze platforms, vaak gebruikt in webserveren en high-end netwerkapparatuur, maken gebruik van een NUMA-architectuur (Non-Uniform Memory Access).

In een NUMA-architectuur zijn kernen en geheugen opgedeeld in meerdere knooppunten (nodes). De toegang tot lokaal geheugen is veel sneller dan toegang tot extern geheugen op een ander knooppunt. Bestaande frameworks negeren deze "cross-NUMA geheugentoegangswand" vaak:

Ze zorgen niet voor een optimale binding van geheugen en threads aan specifieke NUMA-nodes.
Dit leidt tot significante overhead door data-synchronisatie en niet-lokale geheugentoegang.
Het resultaat is dat de inferentie-schaalbaarheid beperkt blijft en het systeem zijn theoretische rekenlimiet niet bereikt.
Het aanpassen van bestaande, monolithische frameworks aan deze eisen vereist ingrijpende refactorings en is complex door de accumulatie van legacy code.

Methodologie: ARCLIGHT Architectuur

ARCLIGHT is een lichtgewicht inferentie-architectuur die van de grond af is ontworpen voor many-core CPU's. De filosofie is minimalisme en modulariteit, met een totaal van ongeveer 10 C++ header- en bronbestanden.

1. Modulaire Ontwerp:
De architectuur bestaat uit een ontkoppelde frontend (decoding) en een backend (inferentie-engine). De backend bevat vijf kernmodules:

Memory Manager: Beheert het geheugencyclus. In plaats van één monolithisch buffer (UMA), alloceert ARCLIGHT aparte buffers in het lokale geheugen van elke NUMA-node. Dit vereenvoudigt de binding van tensors aan specifieke nodes.
Thread Manager: Implementeert een multi-view thread-organisatie. In tegenstelling tot traditionele thread-pools die één taak uitvoeren, kan ARCLIGHT de thread-pool dynamisch opsplitsen in meerdere groepen om onafhankelijke subgrafieken parallel uit te voeren.
Tensor Library: Een objectgeoriënteerde C++-implementatie (in plaats van C-stijl) voor betere modulariteit.
Forward Graph Builder & Scheduler: Bouwt een statische berekeningsgrafiek en voert deze sequentieel uit, met synchronisatiebarrières om interferentie te voorkomen.

2. Cross-NUMA Tensor Parallelism (TP):
Om de geheugenbottleneck te doorbreken, introduceert ARCLIGHT een vorm van tensor parallelisme specifiek voor CPU's:

Gewichtspartitie: Gewichten en activaties worden opgesplitst over verschillende NUMA-nodes. Bijvoorbeeld, in een Transformer-model worden de $W_q, W_k, W_v$ matrices opgesplitst per attention-head.
Scatter en Gather Operatoren:
- Scatter: Splitst de thread-pool op en verdeelt de invoer over meerdere subgrafieken die parallel draaien.
- Gather: Verzamelt de resultaten en voegt ze samen, waarna de thread-pool weer terugkeert naar één groep.
Asynchrone Uitvoering: Subgrafieken worden asynchroon uitgevoerd binnen hun eigen thread-groepen. Alleen aan het begin en einde van een TP-sectie is een globale synchronisatie nodig. Dit minimaliseert wachttijden (idle time) van threads.

3. Geheugenbeheer:

NUMA-bewuste allocatie: Geheugen wordt expliciet toegewezen aan de lokale node van de thread die erop werkt.
Double-buffering: Voor activatiebuffers wordt een double-buffering-mechanisme gebruikt om het geheugenvolume tijdens laag-voor-laag inferentie te verminderen.

Belangrijkste Bijdragen

Een Lichtgewicht Inferentie-architectuur: Een open-source, modulair framework dat LLM-inferentie reduceert tot de essentie. Het biedt een transparante basis voor onderzoekers om CPU-gebaseerde deployments te experimenteren zonder de overhead van traditionele frameworks.
Optimalisatie voor Many-Core CPU's: Een blauwdruk voor multidimensionale optimalisatie die specifiek de "cross-NUMA memory access wall" aanpakt via geavanceerd thread-scheduling en tensor parallelisme.
Compatibiliteit: Het framework is ontworpen om compatibel te blijven met willekeurige CPU-apparaten (hoewel de huidige evaluatie op ARM is gedaan).

Resultaten

De prestaties zijn getest op een 192-kerns machine met 4 NUMA-nodes (Huawei Kunpeng-920, ARMv8.2), gebruikmakend van het Qwen3-4B model (gequantiseerd in Q4_0).

Throughput: ARCLIGHT bereikt tot 46% hogere inferentie-throughput vergeleken met de populaire llama.cpp op many-core platforms.
NUMA-impact:
- Bij gebruik van één NUMA-node presteert ARCLIGHT iets beter dan llama.cpp door lokale geheugenallocatie.
- Bij gebruik van meerdere NUMA-nodes (waarbij threads en geheugen over nodes worden verdeeld) is het verschil groot. llama.cpp lijdt onder frequente niet-lokale geheugentoegang, terwijl ARCLIGHT door TP de lokale bandbreedte maximaliseert.
Asynchrone winst: De introductie van asynchrone subgraaf-uitvoering (Sync B strategie) levert een extra winst van ongeveer 5 tokens per seconde op.

Betekenis en Toekomst

ARCLIGHT toont aan dat het mogelijk is om LLM-inferentie op veelkernige CPU's aanzienlijk te versnellen door de hardware-architectuur (NUMA) actief te omarmen in plaats van te negeren. Het biedt een alternatief voor GPU-afhankelijke systemen, wat cruciaal is voor toepassingen waar GPU's niet beschikbaar of te duur zijn (zoals edge devices en bestaande server-infrastructuur).

Beperkingen:

Huidige evaluatie is beperkt tot ARM-architecturen; ondersteuning voor x86 is toekomstwerk.
De implementatie van de Scatter/Gather operatoren is nog in een vroeg stadium en kan verder geoptimaliseerd worden voor nog minder geheugenoverhead en hogere parallelle efficiëntie.

Het project is open-source beschikbaar gesteld om de ontwikkeling van toegankelijke en praktische toolkits voor CPU-gebaseerde AI te stimuleren.

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

1. Het Probleem: De "Gordel van de Gordel" (NUMA)

2. De Oplossing: ARCLIGHT

A. De Slimme Bibliotheek (Geheugenbeheer)

B. De Teamindeling (Thread Scheduling)

C. De "Scatter & Gather" Magie (Tensor Parallelism)

3. Het Resultaat: Sneller en Lichter

Waarom is dit belangrijk?

Probleemstelling

Methodologie: ARCLIGHT Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomst

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance