Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung der Forschungspapiers „EvoKernel", als würde man sie einem Freund beim Kaffee erzählen:

Das große Problem: Der „Daten-Dammbruch"

Stell dir vor, du bist ein genialer Koch (das ist die Künstliche Intelligenz, genauer gesagt ein großes Sprachmodell wie GPT). Du kannst auf der „Kücheninsel CUDA" (die Welt der NVIDIA-Grafikkarten) fantastische Gerichte kochen, weil du dort seit Jahren unzählige Kochbücher, Rezepte und Videos gesehen hast.

Aber jetzt musst du plötzlich in einer völlig neuen, einsamen Hütte kochen, die nur mit einer ganz speziellen, fremden Herdplatte (einem NPU-Chip von Huawei/Ascend) ausgestattet ist.

Das Problem? Es gibt keine Kochbücher für diesen Herd.
Es gibt keine Videos, wie man ihn benutzt.
Die Anleitung ist in einer Sprache verfasst, die niemand spricht.

Wenn dein genialer Koch jetzt versucht, ein Gericht zu kochen, scheitert er kläglich. Er versucht, die alten Rezepte von der alten Herdplatte zu kopieren, aber das funktioniert nicht. Das nennt man im Paper den „Cold-Start"-Effekt (Kaltstart): Man startet ohne Daten und ohne Erfahrung.

Die Lösung: EvoKernel – Der lernende Küchen-Assistent

Die Forscher haben EvoKernel entwickelt. Stell dir EvoKernel nicht als einen starren Koch vor, sondern als einen super-intelligenten Küchen-Assistenten, der zwei Dinge tut:

Er schreibt sich sein eigenes Notizbuch (Memory):
Statt den Koch jedes Mal neu zu fragen, sammelt EvoKernel jede Erfahrung. Wenn der Koch einen Versuch macht, der scheitert (z. B. der Herd explodiert oder das Essen schmeckt falsch), schreibt EvoKernel das in sein Notizbuch: „Achtung: Bei diesem Rezept auf Herdplatte X nicht so viel Hitze verwenden!"
Wenn es klappt, schreibt er auch das auf: „Super! Diese Kombination funktioniert!"
Er lernt, was wichtig ist (Value-Driven):
Das ist der Clou. Ein normales Notizbuch würde einfach alles aufschreiben. EvoKernel aber bewertet die Einträge.
- Frühe Phase (Drafting): Am Anfang ist das Wichtigste, dass das Essen irgendwie essbar ist (korrekte Funktion). Der Assistent sucht im Notizbuch nach Tipps, die helfen, irgendein funktionierendes Rezept zu finden.
- Späte Phase (Refining): Sobald das Essen essbar ist, sucht der Assistent nach Tipps, wie man es schneller oder leckerer macht (Optimierung). Er ignoriert dann alte Tipps, die nur das „Essbar-Machen" betrafen, und sucht nach Tipps für „Geschwindigkeit".

Wie funktioniert das im Detail? (Die Metapher)

Stell dir den Prozess wie das Lösen eines sehr schwierigen Puzzles vor:

Der Versuch: Der KI-Koch legt ein Puzzleteil hin.
Der Prüfer (Verifier): Ein strenger Inspektor schaut sofort hin.
- Passt es? Nein? -> Inspektor schreit: „Falsch!" (und sagt vielleicht, warum).
- Passt es? Ja? -> Inspektor sagt: „Gut! Aber wie lange hast du gebraucht?"
Der Update-Mechanismus: EvoKernel nimmt die Antwort des Inspektors und aktualisiert die „Wichtigkeit" (den Wert) der Notiz, die er gerade benutzt hat.
- Wenn eine Notiz geholfen hat, das Puzzle endlich zu lösen, bekommt sie einen hohen Punktwert.
- Wenn eine Notiz nur Zeit verschwendet hat, bekommt sie einen niedrigen Wert.
Der Transfer: Das Geniale ist: Wenn der Koch heute ein einfaches Puzzle (z. B. ein 4-teiliges) gelöst hat, merkt sich EvoKernel die Strategie. Wenn morgen ein schwieriges Puzzle (1000 Teile) kommt, holt er sich aus dem Notizbuch die Strategie vom einfachen Puzzle und passt sie an. Er lernt also von einfachen Aufgaben, um schwere zu meistern.

Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben das auf einem echten NPU-Chip getestet:

Der Erfolg: Ohne EvoKernel konnten die besten KI-Modelle nur in 11 % der Fälle ein funktionierendes Programm für den NPU-Chip schreiben. Mit EvoKernel schafften sie es auf 83 %. Das ist ein riesiger Sprung!
Die Geschwindigkeit: Nicht nur wurde das Programm korrekt, es wurde auch 3,6-mal schneller als der allererste Versuch. Der Assistent hat durch das iterative Lernen und Optimieren das Programm immer weiter verbessert.
Die Generalisierung: Das System funktionierte nicht nur für die Aufgaben, für die es trainiert wurde, sondern konnte das Gelernte auch auf völlig neue, unbekannte Aufgaben übertragen. Es hat quasi „gelernt, wie man lernt".

Fazit

EvoKernel ist wie ein lernender Mentor für eine KI, die in einer fremden Welt (einem neuen Hardware-Chip) arbeiten muss. Anstatt teure menschliche Experten zu bezahlen, um tausende Beispiele zu schreiben, lässt man die KI einfach probieren, scheitern, sich Notizen machen und daraus lernen.

Durch dieses „Selbst-Notieren" und das intelligente Bewerten, welche Notizen gerade nützlich sind, kann eine allgemeine KI plötzlich auch in Nischen-Universen (wie NPU-Chips) zum Experten werden, ohne dass jemand ihr jemals explizit beigebracht hat, wie es geht. Sie baut sich ihre eigene Erfahrungswelt auf.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis" auf Deutsch.

1. Problemstellung: Die „Data Wall" in Nischen-Hardware-Ökosystemen

Das Paper adressiert ein kritisches Hindernis beim Einsatz von Large Language Models (LLMs) in datenarmen Programmierdomänen, insbesondere bei der Synthese von Kernels für neuartige Domain-Specific Architectures (DSAs) wie NPUs (Neural Processing Units).

Das „Cold-Start"-Problem: Während LLMs auf datenreichen Plattformen wie CUDA (NVIDIA) hervorragende Leistungen erbringen, scheitern sie katastrophal auf NPU-Plattformen (z. B. Ascend C). Der Grund ist eine extreme Knappheit an Trainingsdaten: Es gibt kaum öffentliche Code-Repositories, die Dokumentation ist oft esoterisch, und Compiler-Feedback ist intransparent.
Die „Data Wall": Im Gegensatz zu CUDA, wo Jahrzehnte an Code als Pre-Training-Korpus dienen, fehlt es an NPU-Ökosystemen an Expertise und Beispielen.
Versagen bestehender Methoden:
- Supervised Fine-Tuning (SFT): Erfordert tausende gelabelte Beispiele pro Domäne, was bei sich schnell entwickelnden Nischen-Ökosystemen prohibitiv teuer ist.
- Reinforcement Learning (RL): Benötigt oft umfangreiche Online-Rollouts und birgt das Risiko des „Catastrophic Forgetting".
- Standard RAG (Retrieval-Augmented Generation): Funktioniert schlecht, wenn die Datenbank spärlich ist; semantische Ähnlichkeit garantiert keine Effektivität bei komplexen Hardware-Optimierungen.
Ziel: Ein Agent muss in der Lage sein, die Aufgabe der Kernel-Synthese von Grund auf (Cold-Start) zu meistern, ohne auf teures Fine-Tuning oder umfangreiche Expertendemonstrationen angewiesen zu sein.

2. Methodik: EvoKernel

Die Autoren stellen EvoKernel vor, ein selbst-evolvierendes Agenten-Framework, das die Kernel-Synthese als reinforcement learning (RL) Aufgabe über einem selbst-evolvierenden Speicher formuliert.

Kernkonzept: Memory-based Markov Decision Process (M-MDP)

Der Prozess wird als M-MDP modelliert, bei dem ein Agent lernt, hochnutzbringende Erfahrungen aus einem Speicher zu extrahieren, um einen LLM-Generator zu steuern.

Zwei-Phasen-Pipeline:
1. Cold-Start Drafting (Drafting): Ziel ist es, einen funktional korrekten Kernel zu finden (Bootstrapping).
2. Continual Refining (Refining): Sobald ein funktionierender Kernel existiert, wird der Fokus auf die Minimierung der Latenz (Performance-Optimierung) gelegt.
Value-Driven Retrieval (Wertegetriebene Suche):
- Im Gegensatz zu herkömmlichen RAG-Systemen, die auf semantischer Ähnlichkeit basieren, lernt EvoKernel stagespezifische Q-Werte.
- Diese Q-Werte schätzen den Nutzen einer gespeicherten Erfahrung (Memory Item) für das aktuelle Ziel ab:
  - $Q_1$ (Drafting): Wie wahrscheinlich ist es, dass dieses Beispiel zu einem funktionierenden Kernel führt?
  - $Q_2$ (Refining): Wie sehr trägt dieses Beispiel zur Latenzoptimierung bei?
- Update-Mechanismus: Die Q-Werte werden mittels einer einheitlichen Monte-Carlo-Update-Regel aktualisiert, basierend auf Feedback vom Verifier (Compiler, Korrektheitsprüfung, Latenzmessung). Dies geschieht ohne Anpassung der Gewichte des LLMs selbst (non-parametrischer Ansatz).
Speicherarchitektur:
Der Speicher enthält API-Vorlagen, Zusammenfassungen von Erfolgs-/Misserfolgs-Erfahrungen, Generierungsspuren (Traces) und Best Practices.
- Cross-Task Sharing: Der Agent kann Erkenntnisse aus einfachen Aufgaben (z. B. Level 1 Operatoren) auf komplexe Aufgaben (Level 2) übertragen, was einen automatischen „Curriculum Learning"-Effekt erzeugt.
Multi-Gate Verifier:
Ein strenger Verifier prüft den generierten Code auf vier Ebenen:
1. Anti-Hacking: Verhindert, dass der Agent die NPU umgeht und Berechnungen in Python/PyTorch durchführt (Architektur-Integrität).
2. Compilation: Erfolgreiche Kompilierung mit dem Ascend C Toolchain.
3. Correctness: Numerische Übereinstimmung mit der PyTorch-Referenz.
4. Latency: Messung der Ausführungszeit auf dem Gerät.

3. Schlüsselbeiträge

Unified Drafting-Refining Pipeline: Ein Framework, das über einen gemeinsamen Speicher von einer machbarkeitsgetriebenen Erstellung zu einer latenzgetriebenen Optimierung übergeht.
Evolvierende Wertegetriebene Suche: Einführung eines Retrieval-Mechanismus, der Q-Werte lernt, um den Speicherinhalt dynamisch nach dem aktuellen Stadium (Drafting vs. Refining) zu gewichten. Dies ermöglicht eine Anpassung der Strategie ohne Fine-Tuning des Modells.
Umfassende Evaluation: Das Framework wurde auf einem neu erstellten NPU-Varianten von KernelBench (Ascend C) evaluiert und zeigt signifikante Verbesserungen gegenüber State-of-the-Art-Methoden.

4. Ergebnisse

Die Evaluation wurde auf Ascend C (NPU) durchgeführt und verglich EvoKernel mit Baselines wie reinem Sampling (Pass@k), iterativem Refinement und einem autonomen Agenten (Codex).

Korrekturrate (Correctness):
- EvoKernel steigerte die Korrektheitsrate von Frontier-Modellen (z. B. GPT-5.2) von 11,0 % auf 83,0 %.
- Im Vergleich dazu erreichte der autonome Codex-Agent nur 46,0 % Korrektheit.
- Selbst bei schwächeren Modellen (Qwen3-Coder, DeepSeek-V3.2) wurden deutliche Verbesserungen erzielt (z. B. DeepSeek-V3.2 von 6 % auf 9,5 %).
Kompilierungsrate (Compilation Rate):
- Mit GPT-5.2 erreichte EvoKernel eine Kompilierungsrate von 98,5 % (gegenüber 83,0 % bei Codex).
Performance-Optimierung (Speedup):
- Durch den iterativen Refining-Prozess wurde eine mediane Beschleunigung von 3,60-fach gegenüber dem ersten funktionierenden Entwurf erreicht.
- Bei einigen Operatoren wurden Beschleunigungen von über 200-fach erzielt.
Generalisierung:
- Transfer über Schwierigkeitsgrade: Erfahrungen aus Level-1-Operatoren beschleunigten das Lernen bei Level-2-Operatoren signifikant (64 % Korrektheit bei L1→L2 Transfer vs. 34 % ohne Transfer).
- Transfer über Modelle: Ein Speicher, der mit einem starken Modell (GPT-5.2) gefüllt wurde, verbesserte die Leistung schwächerer Modelle (DeepSeek, Qwen) drastisch (z. B. Kompilierungsrate von 6 % auf 58 % bei DeepSeek).
- Out-of-Distribution: Das System funktionierte auch auf neuen Workloads wie dem „Attention Set" und DeepSeek mHC-Kernen, was zeigt, dass es keine bloße Memorierung von Benchmark-Vorlagen ist.

5. Bedeutung und Fazit

Das Paper demonstriert, dass wertgesteuerte Erfahrungssammlung (Value-Guided Experience Accumulation) es allgemeinen Modellen ermöglicht, spezialisierte Hardware-Ökosysteme zu meistern, für die keine großen Trainingsdatensätze existieren.

Demokratisierung von NPU-Entwicklung: EvoKernel bietet einen Weg, um die Expertise für NPU-Kernel-Programmierung zu skalieren, ohne auf teures menschliches Expertenwissen oder massive Datensammlungen angewiesen zu sein.
Paradigmenwechsel: Es zeigt, dass nicht-parametrische Ansätze (Lernen durch Speicher und Retrieval) in Kombination mit den In-Context-Learning-Fähigkeiten moderner LLMs effektiver sein können als traditionelles Fine-Tuning oder parametrisches RL in datenarmen Szenarien.
Zukunftsperspektive: Der Ansatz ist nicht auf NPUs beschränkt, sondern könnte auf jede Domäne mit binären Verifikationssignalen und Datenknappheit angewendet werden, um autonome Systeme zu schaffen, die sich mit minimalen Daten an neue Aufgaben anpassen.

Zusammenfassend löst EvoKernel das „Cold-Start"-Problem in der Kernel-Synthese durch ein intelligentes, lernendes Gedächtnis, das den Agenten Schritt für Schritt von der ersten funktionalen Lösung bis zur hochoptimierten Performance führt.

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Das große Problem: Der „Daten-Dammbruch"

Die Lösung: EvoKernel – Der lernende Küchen-Assistent

Wie funktioniert das im Detail? (Die Metapher)

Was haben sie herausgefunden? (Die Ergebnisse)

Fazit

1. Problemstellung: Die „Data Wall" in Nischen-Hardware-Ökosystemen

2. Methodik: EvoKernel

Kernkonzept: Memory-based Markov Decision Process (M-MDP)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers