Extension of ACETONE C code generator for multi-core architectures

Each language version is independently generated for its own context, not a direct translation.

De ACETONE-uitbreiding: Van eenzame kok naar een goed georganiseerd restaurant

Stel je voor dat je een heel groot, complex recept moet bereiden voor een vliegtuig. Dit recept is een Neuraal Netwerk (een soort slimme computerhersenen die dingen leert te herkennen, zoals een landingsbaan op een foto).

Vroeger deed dit alles één enkele kok (een single-core processor). Die kok deed alles: van het snijden van groenten tot het bakken van de vis. Het probleem? Als het recept te groot wordt, duurt het te lang. En in de luchtvaart is tijd alles; als de computer te lang nadenkt, kan het vliegtuig niet veilig landen.

De auteurs van dit paper hebben een oplossing bedacht voor het ACETONE-systeem. Ze hebben een manier gevonden om dit "recept" niet meer door één kok te laten doen, maar door een team van koks (meerdere processorkernen) die samenwerken.

Hier is hoe ze dat doen, vertaald in alledaags taal:

1. Het probleem: De eenzame kok

Het oude ACETONE-systeem was fantastisch omdat het code schreef die voorspelbaar was. Je wist precies hoe lang het zou duren. Maar het was alsof je één kok in een enorme keuken zette. Als je een complex gerecht (een groot neuraal netwerk) moest maken, zat die kok de hele dag in de keuken. Het vliegtuig kon niet wachten.

2. De oplossing: Een goed georganiseerd team

De auteurs hebben ACETONE uitgebreid zodat het werk opgesplitst kan worden over meerdere koks (meerdere processorkernen). Maar het is niet zo simpel als "iedereen doet maar wat". Je moet het werk heel slim verdelen.

Ze zien het neuraal netwerk als een stroomdiagram (een DAG). Stel je voor dat het een reeks stappen is:

Stap A moet klaar zijn voordat Stap B kan beginnen.
Stap C kan tegelijkertijd met Stap B gebeuren.

De uitdaging is: Wie doet wat, en wanneer?

3. De slimme plannenmaker (De DAG-scheduler)

Om dit te regelen, hebben de auteurs een "plannenmaker" bedacht. Deze kijkt naar het recept en zegt:

"Kok 1, jij doet de eerste drie stappen."
"Kok 2, jij begint pas als Kok 1 klaar is met stap 3, maar jij kunt wel stap 4 doen terwijl Kok 1 stap 5 doet."

Ze hebben twee manieren gebruikt om dit plan te maken:

De snelle methode (ISH): Dit is als een ervaren chef die snel een plan schetst. Het is niet perfect, maar het is snel en werkt goed.
De perfecte methode (DSH & ILP): Dit is als een super-rekenmachine die alle mogelijke combinaties uitprobeert om het beste plan te vinden. Dit duurt langer om te berekenen, maar levert vaak een snellere uitvoering op.

4. De communicatie: Het dienblad en de bel

Nu komt het lastige deel. Als Kok 1 een ingrediënt (data) heeft bereid voor Kok 2, hoe geeft hij dat door?
In een vliegtuigcomputer kunnen de koks niet gewoon tegen elkaar praten. Ze moeten een gemeenschappelijk aanrecht (het gedeelde geheugen) gebruiken.

De auteurs hebben een veilig systeem bedacht:

Het rode vlaggetje (De synchronisatie): Kok 1 legt het bord neer en steekt een rood vlaggetje omhoog.
De wachtende kok: Kok 2 kijkt naar het vlaggetje. Zolang het niet omhoog staat, wacht hij. Zodra het omhoog staat, pakt hij het bord en zet hij het vlaggetje weer neer.

Dit zorgt ervoor dat Kok 2 nooit een bord pakt dat nog niet klaar is, en dat Kok 1 geen nieuw bord legt op een bord dat Kok 2 nog niet heeft opgehaald. Dit klinkt simpel, maar in de wereld van computers is dit cruciaal om te voorkomen dat alles in de war raakt.

5. Het resultaat: Sneller, maar met een kleine prijs

Hoe werkt het in de praktijk?

Ze hebben dit getest op een echte computerchip (een Texas Instruments KeyStone).
Het goede nieuws: Het team van koks was inderdaad sneller dan de eenzame kok. Voor het deel van het werk dat goed verdeeld kon worden, waren ze 31% sneller.
De beperking: Het totale resultaat was slechts 8% sneller. Waarom? Omdat sommige stappen in het recept (zoals het berekenen van convoluties) gewoonweg te groot zijn om te verdelen. Die stappen moeten nog steeds door één kok worden gedaan, en die houden het hele team tegen.

Conclusie

Dit paper laat zien dat we neuraal netwerken in vliegtuigen veiliger en sneller kunnen maken door ze op meerdere processoren te draaien. Ze hebben een systeem gebouwd dat:

Het werk slim verdeelt over meerdere kernen.
Zorgt voor perfecte communicatie tussen die kernen (zonder dat er fouten ontstaan).
Garandeert dat we precies weten hoe lang het duurt (cruciaal voor veiligheid).

Het is alsof je van een solist in een orkest bent gegaan naar een heel orkest. Het klinkt luider en krachtiger, maar je hebt een goede dirigent nodig (de scheduler) en een strakke regie (de synchronisatie) om ervoor te zorgen dat het niet een chaos wordt. Voor de luchtvaart is dit een belangrijke stap om slimme AI-toepassingen veilig in de cockpit te krijgen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Extension of ACETONE C code generator for multi-core architectures", geschreven in het Nederlands.

Titel: Uitbreiding van de ACETONE C-codegenerator voor multi-core architecturen

Auteurs: Yanis Aït-Aïssa, Thomas Carle, Sergeï Chichin, Benjamin Lesage en Claire Pagetti (ONERA, Airbus, Universiteit van Toulouse).

1. Probleemstelling

De integratie van Deep Neural Networks (DNN) in veiligheidskritieke aeronautische systemen (zoals navigatiehulp of baanherkenning) is een grote uitdaging vanwege de strenge certificeringseisen (zoals DO-254/ED-12C en de nieuwe EASA-richtlijnen). Deze systemen vereisen hoge voorspelbaarheid, met name een nauwkeurige schatting van de Worst-Case Execution Time (WCET).

Het bestaande ACETONE-framework genereert al gecertificeerbare, sequentiële C-code voor DNN-inferentie op single-core systemen. Echter, de sector verschuift naar multi-core processoren, maar is nog niet klaar voor het inbouwen van gespecialiseerde versnellers (zoals GPU's of TPUs).

De uitdaging: Het paralleliseren van DNN-inferentie op multi-core CPU's zonder dedicated accelerators.
Beperkingen: Het huidige ACETONE genereert alleen sequentiële code. Het overschakelen naar multi-core vereist het opdelen van de toepassing in onafhankelijke blokken, synchronisatie tussen kernen en het minimaliseren van communicatie-overschrijdingen, terwijl de voorspelbaarheid (WCET) behouden moet blijven.

2. Methodologie

De auteurs stellen een uitbreiding van ACETONE voor die DNN-inferentie omzet in voorspelbare, parallelle C-code. De aanpak bestaat uit drie hoofdstappen:

A. Modellering als DAG-Scheduling Probleem

De DNN-architectuur wordt gemodelleerd als een Directed Acyclic Graph (DAG):

Knooppunten (Nodes): Vertegenwoordigen de lagen van het neurale netwerk.
Randen (Edges): Vertegenwoordigen data-afhankelijkheden en communicatievertragingen tussen lagen.
Doel: Het toewijzen van deze taken aan $m$ identieke kernen in een Unified Memory Architecture (UMA) om de totale uitvoertijd (makespan) te minimaliseren.
Aannames: Taken zijn niet-preemptief (eenmaal gestart, lopen ze af) en de scheduling gebeurt statisch (offline).

B. Oplossingsstrategieën voor Scheduling

De auteurs evalueren en vergelijken verschillende methoden om een optimale planning te vinden:

Geoptimaliseerde Constraint Programming (ILP):
- Ze verbeteren de bestaande Integer Linear Programming (ILP) formulering van Tang et al. door de complexiteit te verminderen (verminderen van beslissingsvariabelen en het elimineren van 4D-tensors voor communicatie).
- Dit maakt het mogelijk om oplossingen te vinden voor grotere grafen binnen een redelijke tijd, hoewel het nog steeds rekenintensief is voor zeer grote netwerken.
Heuristieken:
- ISH (Insertion Scheduling Heuristic): Plaatst taken op de kern die de starttijd minimaliseert en probeert lege tijdslotten ("idle time") te vullen met andere taken.
- DSH (Duplication Scheduling Heuristic): Probeer de communicatievertraging te verminderen door taken (of hun ouders) te dupliceren op de kern waar de volgende taak draait. Dit elimineert wachttijden voor data-overdracht.
- Resultaat: DSH levert vaak betere snelheidswinsten op (dichterbij de optimale oplossing) maar is rekenkundig zwaarder dan ISH.

C. Implementatie in ACETONE

Codegeneratie: De scheduler verdeelt de lagen over de kernen. ACETONE genereert vervolgens aparte inferentiefuncties per kern.
Synchronisatie: Omdat het om een "bare-metal" omgeving gaat (geen OS), wordt synchronisatie geïmplementeerd via gedeeld geheugen (UMA).
- Er worden vlaggen (flags) en arrays gebruikt voor communicatie.
- Een schrijver wacht tot een vlag leesbaar is, schrijft data, en verhoogt de vlag.
- Een lezer wacht tot de vlag is verhoogd, leest de data en verhoogt de vlag opnieuw.
- Dit zorgt voor strikte volgorde en data-integriteit zonder blokkering van andere kernen.

3. Belangrijkste Bijdragen

Formalisatie: Het formuleren van de parallelle scheduling van DNN's als een DAG-probleem met specifieke constraints voor embedded systemen.
Efficiëntieverbetering: Een nieuwe, efficiëntere encoding voor het ILP-probleem die beter schaalt dan eerdere methoden.
ACETONE-extensie: Een werkend framework dat sequentiële DNN-code omzet in parallelle, multi-core C-code met ingebouwde synchronisatieprimitieven.
Validatie: Een uitgebreide evaluatie van zowel de theoretische WCET (via het OTAWA-tool) als de experimentele prestaties op echte hardware.

4. Resultaten en Evaluatie

De auteurs hebben hun methode getest op willekeurig gegenereerde DAG's en op een GoogleNet-achtig netwerk (Inception-modules).

Snelheidswinst (Speedup):
- De heuristieken (ISH en DSH) tonen een duidelijke snelheidswinst naarmate het aantal kernen toeneemt, tot een plateau wordt bereikt (maximale parallelisatie).
- DSH presteert beter qua snelheidswinst dan ISH, maar kost meer tijd om de planning te berekenen.
- De geoptimaliseerde ILP-oplossing levert de beste resultaten op voor kleinere grafen, maar wordt onpraktisch voor zeer grote netwerken binnen de tijdslimiet.
Experimentele Validatie (Texas Instruments Keystone II SoC):
- Het systeem werd getest op een quad-core ARM Cortex-A15 platform.
- Totale prestatie: Er werd een 8% winst in totale uitvoertijd behaald ten opzichte van de sequentiële uitvoering.
- Parallelliseerbaar deel: Voor het deel van het netwerk dat goed paralleliseerbaar is (van maxpool 2 tot inception 2/concat), was de winst 31%.
- Beperkingen: De totale winst was beperkt door zware, sequentiële lagen (zoals conv 1 en conv 2) die de gehele uitvoering blokkeren. Ook veroorzaakte multi-core interferentie (in het gedeelde geheugen) soms extra vertraging.

5. Betekenis en Toekomstperspectief

Certificeerbaarheid: De belangrijkste bijdrage is dat deze methode DNN-inferentie mogelijk maakt op multi-core systemen zonder de certificeringseisen te schenden. De code blijft voorspelbaar en de WCET kan worden berekend.
Praktische toepasbaarheid: Het biedt een oplossing voor de luchtvaartsector die overgaat naar multi-core, maar nog geen dedicated AI-chips kan gebruiken.
Toekomstig werk: De auteurs willen het model uitbreiden naar niet-homogene kernen (heterogene architecturen) en dedicated accelerators. Ook wordt er gezocht naar manieren om de synchronisatie-overhead verder te verlagen en de schaalbaarheid voor zeer grote industriële netwerken te verbeteren.

Conclusie: Dit artikel toont aan dat het mogelijk is om voorspelbare, parallelle C-code te genereren voor DNN's op multi-core CPU's, wat een cruciale stap is voor de veilige integratie van AI in toekomstige vliegtuigsystemen.