Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten ein neues, hochleistungsfähiges Auto bauen, aber Sie haben keine Baupläne und kein großes Team von Ingenieuren. Stattdessen haben Sie nur einen sehr klugen, aber etwas vergesslichen Assistenten (eine Künstliche Intelligenz, genauer gesagt ein „Large Language Model" oder LLM) und eine begrenzte Menge an Geld und Zeit.

Das ist im Grunde die Geschichte dieses Forschungsprojekts. Die Wissenschaftler haben eine Methode entwickelt, wie man mit Hilfe von KI automatisch die besten neuronalen Netzwerke (die „Gehirne" für Computer) entwirft – und das alles auf einem ganz normalen Heim-Computer, ohne riesige Rechenzentren.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der teure Suchprozess

Normalerweise ist das Entwerfen neuer KI-Modelle wie das Suchen nach der perfekten Nadel im Heuhaufen. Frühere Methoden brauchten dafür Tausende von Grafikkarten und Monate an Zeit. Das ist für die meisten Leute unmöglich.

2. Die Lösung: Ein lernender Architekt

Die Forscher haben einen Prozess entwickelt, der wie ein iterativer Kreislauf funktioniert. Man kann sich das wie einen Schüler vorstellen, der eine Prüfung macht:

Der Entwurf (Code Generator): Der KI-Assistent (z. B. DeepSeek oder Qwen) versucht, den Bauplan für ein neuronales Netz zu schreiben. Es ist wie ein Architekt, der einen Entwurf auf ein Blatt Papier zeichnet.
Der Test (Evaluator): Dieser Entwurf wird sofort auf einem Computer getestet. Das ist wie eine schnelle Probeprüfung. Das Modell wird nur für einen Tag (einen „Epoch") trainiert, um zu sehen, ob es funktioniert.
Das Feedback (Prompt Improver): Hier kommt der Clou. Wenn der Entwurf scheitert (z. B. das Auto fährt nicht oder der Code crasht), wird das nicht einfach weggeworfen. Stattdessen wird genau analysiert: Was ist schiefgelaufen? Wie können wir es reparieren?

3. Das Geheimnis: Das „Gedächtnis" (Feedback Memory)

Frühere KI-Methoden haben oft nur die erfolgreichen Versuche behalten und die Fehler vergessen. Das ist, als würde ein Schüler nur die richtigen Antworten auswendig lernen, aber nie aus seinen Fehlern lernen.

Diese Methode nutzt eine spezielle Art von Gedächtnis:

Stellen Sie sich ein Fenster mit den letzten 5 Versuchen vor.
Die KI schaut sich nur diese letzten 5 Versuche an (nicht die letzten 1000).
Für jeden Versuch merkt sie sich: Was war das Problem? Was wurde vorgeschlagen? Was ist passiert?
Wenn die KI merkt, dass sie immer wieder denselben Fehler macht (z. B. „Ich habe vergessen, die Bremsen zu prüfen"), kann sie das im nächsten Schritt korrigieren.

Das ist wie ein Markov-Ketten-Spiel: Die Entscheidung für den nächsten Schritt hängt nur vom aktuellen Stand und den letzten paar Schritten ab, nicht von der gesamten Geschichte. Das hält den Prozess schnell und verhindert, dass die KI „überfordert" wird.

4. Zwei Spezialisten statt eines Alleskönners

Um die KI nicht zu überlasten, haben die Forscher sie in zwei Rollen aufgeteilt:

Der Baumeister: Schreibt den eigentlichen Code für das KI-Modell.
Der Kritiker: Analysiert die Fehler und sagt dem Baumeister, wie er es besser machen soll.

Da beide Rollen auf derselben kleinen Grafikkarte laufen (zusammen mit dem Training des Modells), zwingt das die KI quasi dazu, kleine, effiziente Modelle zu bauen. Große, verschwenderische Modelle passen einfach nicht in den begrenzten Speicher – die KI lernt also durch die Umstände, sparsam zu sein.

5. Die Ergebnisse: Ein Wunder auf dem Heim-PC

Die Forscher haben drei verschiedene KI-Modelle getestet. Das Ergebnis war beeindruckend:

Auf einem ganz normalen Heim-PC (einer NVIDIA RTX 4090 Grafikkarte) konnten sie in nur 18 Stunden (das sind etwa 18 Stunden reine Rechenzeit) Modelle finden, die viel besser waren als der erste Entwurf.
Beispiel: Ein Modell begann mit einer Genauigkeit von 28 % (wie ein Anfänger) und verbesserte sich durch diesen Lernprozess auf über 69 % (ein sehr guter Schüler).
Das Beste: Die KI musste dafür nicht neu trainiert werden. Sie nutzte ihr vorhandenes Wissen und lernte nur durch den Feedback-Kreislauf dazu.

Zusammenfassung

Stellen Sie sich vor, Sie haben einen sehr talentierten, aber vergesslichen Architekten. Sie geben ihm einen Stift und Papier.

Er zeichnet einen Plan.
Sie bauen ein kleines Modell davon und testen es.
Wenn es wackelt, sagen Sie ihm nicht nur „Fehler!", sondern: „Die linke Säule war zu dünn, baue sie dicker."
Er merkt sich die letzten 5 Fehler und versucht es beim nächsten Mal besser.

Nach 2000 Versuchen hat er nicht nur einen Plan, sondern einen perfekten Bauplan für ein KI-Modell erstellt – und das alles, ohne dass Sie Millionen von Dollar für Rechenleistung ausgegeben haben. Das ist die Kraft dieser neuen Methode: Lernen aus Fehlern, begrenzt durch ein kleines Gedächtnis, um effiziente Lösungen auf billigem Hardware zu finden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Resource-Efficient Iterative LLM-Based NAS with Feedback Memory" auf Deutsch:

1. Problemstellung

Das automatische Design neuronaler Netzwerke (Neural Architecture Search, NAS) ist zwar leistungsstark, aber herkömmliche Methoden (z. B. Reinforcement Learning, evolutionäre Algorithmen oder differentiable NAS) sind extrem rechenintensiv und erfordern oft Tausende von GPU-Tagen.
Zwar gibt es neuere Ansätze, die Large Language Models (LLMs) nutzen, um direkt ausführbaren Code für neuronale Netze zu generieren, doch diese arbeiten meist als Single-Shot-Generatoren. Das bedeutet, sie produzieren eine Architektur basierend auf dem Vorwissen des Modells, ohne den Lernprozess durch iterative Rückmeldungen zu verbessern. Zudem ignorieren viele bestehende LLM-Optimierer Fehlerpfade (Failures) und behandeln sie nicht als wertvolle Lernsignale. Es fehlt an einer ressourcenschonenden Methode, die auf einem einzelnen Consumer-GPU läuft, keine Feinabstimmung (Fine-Tuning) der LLMs erfordert und systematisch aus Fehlern lernt.

2. Methodik

Die Autoren schlagen eine geschlossene Schleife (Closed-Loop Pipeline) vor, die auf einem einzigen Consumer-GPU (NVIDIA RTX 4090) läuft und gefrorene, instruction-tuned LLMs (≤ 7 Milliarden Parameter) verwendet. Der Prozess besteht aus drei Hauptkomponenten:

Code Generator: Ein LLM generiert eine vollständige, ausführbare PyTorch-Architektur (nn.Module) basierend auf einem Prompt, der die aktuelle beste Architektur und Verbesserungsvorschläge enthält.
Evaluator: Der generierte Code wird validiert und für ein Epochen auf Datensätzen wie CIFAR-10, CIFAR-100 oder ImageNette trainiert. Die resultierende Genauigkeit (Proxy-Accuracy) dient als schnelles Ranking-Signal, um den Suchprozess zu steuern, ohne den vollen Trainingsaufwand zu betreiben.
Prompt Improver & Historisches Feedback-Gedächtnis: Dies ist das Kernstück der Methode. Anstatt den gesamten Verlauf zu speichern, nutzt das System ein Markov-Ketten-inspiriertes gleitendes Fenster der letzten $K=5$ $K = 5$ Iterationen.
- Jeder Eintrag im Gedächtnis ist ein strukturiertes diagnostisches Triple: (Problem, Vorschlag, Ergebnis).
- Dies erfasst nicht nur Erfolge, sondern behandelt Code-Ausführungsfehler als gleichwertige Lernsignale (First-Class Signals).
- Der Prompt Improver analysiert diese Historie, um gezielte Vorschläge für die nächste Iteration zu generieren.

Ein Dual-LLM-Ansatz wird verwendet, um die kognitive Last pro Aufruf zu reduzieren: Ein Modell ist spezialisiert auf die Code-Generierung, ein anderes auf die diagnostische Analyse und Verbesserung der Prompts. Da beide Modelle und das Training der Architekturen den gleichen begrenzten VRAM teilen, wird die Suche implizit auf kompakte, hardware-effiziente Modelle gelenkt.

3. Schlüsselbeiträge

Iterativer NAS-Pipeline: Ein geschlossener Kreislauf aus Code-Generierung, Evaluation und Prompt-Verfeinerung, der Architekturen schrittweise verbessert, ohne dass das LLM selbst trainiert (fine-tuned) wird.
Historisches Feedback-Gedächtnis (Markovian Memory): Ein gleitendes Fenster von 5 Schritten, das Fehlerpfade explizit modelliert. Dies verhindert, dass das Modell wiederholt gescheiterte Strategien anwendet, und ermöglicht Lernen aus strukturellen Fehlern.
Ressourceneffizienz & Reproduzierbarkeit: Die Methode funktioniert auf einem einzigen Consumer-GPU (RTX 4090) mit kleinen, gefrorenen LLMs (≤ 7B Parameter). Eine vollständige Suche mit 2000 Iterationen dauert nur ca. 18 GPU-Stunden.
Offener Suchraum: Im Gegensatz zu herkömmlichen NAS-Methoden, die in vordefinierten Zellen (Cell-based) suchen, operiert dieser Ansatz im unbeschränkten Raum von ausführbarem Python/PyTorch-Code, was völlig neue architektonische Muster ermöglicht.

4. Ergebnisse

Die Methode wurde mit drei verschiedenen LLMs (DeepSeek-Coder-6.7B, Qwen2.5-7B, GLM-5) auf CIFAR-10, CIFAR-100 und ImageNette evaluiert. Die Ergebnisse zeigen signifikante Verbesserungen gegenüber der Single-Shot-Baseline:

DeepSeek-Coder-6.7B: Steigerung der Proxy-Genauigkeit auf CIFAR-10 von 28,2 % auf 69,2 % (Spearman-Korrelation $\rho = 0,75$ ). Hohe Erfolgsrate (76 % der Iterationen erfolgreich).
Qwen2.5-7B: Erzielte die höchste Spitzenleistung auf CIFAR-10 mit 71,5 % (Start bei 50,0 %), obwohl die Erfolgsrate niedriger war (18,8 %), da das Modell oft ambitionierte, aber fehleranfällige Architekturen generierte.
GLM-5: Zeigte über 100 Iterationen eine robuste Verbesserung von 43,2 % auf 62,0 % auf CIFAR-10 mit der höchsten Erfolgsrate (91 %).
Ablationsstudie: Ohne das historische Feedback-Gedächtnis stagniert die Suche oder verschlechtert sich, was die Notwendigkeit der expliziten Fehlermodellierung unterstreicht.

5. Bedeutung und Fazit

Dieses Paper etabliert ein neues Paradigma für Low-Budget-NAS. Es beweist, dass kleine, gefrorene LLMs in Kombination mit einer strukturierten, fehlerbewussten Feedback-Schleife in der Lage sind, hochperformante Architekturen zu entdecken, ohne auf teure Cloud-Infrastruktur oder massive Modelle zurückgreifen zu müssen.

Die Methode ist besonders relevant für:

Edge-Computing: Durch den impliziten Bias zu kompakten Modellen aufgrund geteilter VRAM-Ressourcen.
Forschung mit begrenzten Ressourcen: Ermöglicht reproduzierbare NAS-Studien auf einem einzigen Consumer-GPU.
Zuverlässigkeit: Die Behandlung von Fehlern als Lernsignale macht den Suchprozess robuster als reine Erfolgssuche.

Zusammenfassend bietet der Ansatz einen leichten, dateneffizienten und hardwarebewussten Weg, um neuronale Architekturen automatisiert zu entwerfen und zu optimieren.

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

1. Das Problem: Der teure Suchprozess

2. Die Lösung: Ein lernender Architekt

3. Das Geheimnis: Das „Gedächtnis" (Feedback Memory)

4. Zwei Spezialisten statt eines Alleskönners

5. Die Ergebnisse: Ein Wunder auf dem Heim-PC

Zusammenfassung

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers