YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der die perfekten Gebäude für eine riesige Stadt bauen soll. Aber es gibt ein riesiges Problem: Jedes Mal, wenn du einen neuen Entwurf hast, musst du das ganze Gebäude tatsächlich aus Stein und Ziegel bauen, um zu sehen, ob es stabil ist und wie schnell man darin laufen kann. Das dauert Tage und kostet ein Vermögen.

Das ist genau das Problem bei KI-Modellen für die Objekterkennung (wie YOLO), die Autos, Menschen oder Hunde in Videos erkennen sollen. Forscher wollen automatisch die beste Architektur finden (das nennt man "Neural Architecture Search" oder NAS), aber das "Bauen" und Testen jedes einzelnen Entwurfs dauert so lange, dass es unmöglich ist, tausende Varianten zu testen.

Hier kommt die Arbeit von Zhe Li und seinem Team ins Spiel. Sie haben eine Lösung namens YOLO-NAS-Bench entwickelt. Hier ist die Erklärung in einfachen Worten:

1. Die Bibliothek der Baupläne (Der Suchraum)

Stell dir vor, du hast einen riesigen Baukasten. Du kannst die Dicke der Wände (Kanäle), die Anzahl der Stockwerke (Tiefe) und die Art der Fenster (Operatoren) in verschiedenen Teilen des Gebäudes (dem "Rückgrat" und dem "Hals" des Modells) ändern.
Die Forscher haben sich überlegt: "Okay, wir nehmen die besten Teile aus den letzten YOLO-Versionen (von v8 bis v12) und bauen einen riesigen, aber überschaubaren Baukasten."

2. Der schnelle Schätzer (Der Surrogat-Vorhersager)

Da sie nicht jedes Gebäude wirklich bauen können, haben sie 1.000 zufällige Entwürfe gebaut und getestet. Diese echten Ergebnisse haben sie einem klugen Assistenten (einem KI-Modell namens LightGBM) gezeigt.
Dieser Assistent lernt: "Aha, wenn ich diese Art von Fenstern und diese Wandstärke sehe, ist das Gebäude wahrscheinlich sehr stabil und schnell."
Jetzt muss der Assistent nicht mehr jedes Gebäude bauen. Er kann nur noch schauen und sagen: "Dieser Entwurf wird wahrscheinlich super sein!" Das spart enorm viel Zeit.

3. Der sich selbst verbessernde Lehrer (Self-Evolving Mechanism)

Aber der Assistent hatte am Anfang ein Problem: Er war gut darin, durchschnittliche Gebäude vorherzusagen, aber schlecht darin, die absolut besten (die "Weltmeister") zu erkennen. Das ist wie ein Lehrer, der viele mittelmäßige Schüler kennt, aber nicht weiß, wie ein Genie aussieht.

Um das zu ändern, haben sie eine selbstverbessernde Schleife erfunden:

Der Assistent sucht nach den vielversprechendsten Entwürfen.
Die Forscher bauen nur diese wenigen Entwürfe tatsächlich (testen sie).
Die Ergebnisse dieser "Weltmeister-Kandidaten" werden dem Assistenten gegeben, damit er lernt: "Oh, so sieht ein echter Gewinner aus!"
Der Assistent wird besser und sucht noch bessere Entwürfe.

Diesen Prozess haben sie 10 Mal wiederholt. Der Assistent wurde dadurch so gut, dass er die besten Entwürfe fast perfekt vorhersagen konnte.

4. Das Ergebnis: Bessere Gebäude als die Originalpläne

Am Ende haben sie den Assistenten benutzt, um neue Gebäude zu entwerfen, die sie dann tatsächlich gebaut haben. Das Ergebnis?
Die neuen, automatisch gefundenen Gebäude waren schneller und genauer als alle offiziellen YOLO-Versionen (von v8 bis v12), die bisher von Menschenhand entworfen wurden.

Zusammenfassung in einer Metapher

Stell dir vor, du willst den schnellsten Rennwagen der Welt bauen.

Das alte Problem: Du musst jeden neuen Motor, jedes Chassis und jede Karosserie physisch bauen und auf der Rennstrecke testen. Das dauert Jahre.
Die neue Lösung (YOLO-NAS-Bench):
1. Du baust 1.000 verschiedene Prototypen und testest sie.
2. Du trainierst einen Super-Computer, der nur auf das Aussehen des Wagens schaut und die Geschwindigkeit vorhersagt.
3. Der Computer sucht nach den coolsten Designs, du baust nur diese nach, gibst die echten Daten zurück, und der Computer lernt dazu.
4. Am Ende findet der Computer einen Rennwagen-Entwurf, der schneller ist als alles, was die besten menschlichen Ingenieure je gebaut haben.

Warum ist das wichtig?
Es gibt der KI-Forschung endlich einen "Spielplatz" (Benchmark), auf dem sie neue Algorithmen testen kann, ohne wochenlang auf Supercomputern warten zu müssen. Es macht die Suche nach der perfekten KI-Architektur viel schneller, billiger und fairer vergleichbar.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search" auf Deutsch:

1. Problemstellung

Das Training und die Evaluierung von Objekterkennungsmodellen mittels Neural Architecture Search (NAS) sind extrem rechenintensiv. Das vollständige Training eines einzelnen YOLO-Architekturkandidaten auf dem COCO-Datensatz kann Tage an GPU-Zeit in Anspruch nehmen. Dies macht die Suche über Tausende von Kandidaten, wie sie NAS-Algorithmen typischerweise erfordern, praktisch unmöglich.
Zwar existieren Benchmarks für die Bildklassifizierung (z. B. NAS-Bench-101/201/301), doch diese sind nicht auf die Anforderungen der Objekterkennung übertragbar, da diese komplexere Architekturen (Backbone, Neck, Head) und andere Suchräume erfordert. Es fehlte bisher an einem standardisierten, fairen Benchmark für die NAS-Evaluierung im Bereich der Objekterkennung, insbesondere für die YOLO-Familie.

2. Methodik: YOLO-NAS-Bench

Die Autoren stellen YOLO-NAS-Bench vor, den ersten Surrogat-Benchmark, der speziell für YOLO-artige Detektoren entwickelt wurde. Der Ansatz besteht aus drei Hauptkomponenten:

A. Suchraum-Design

Der Suchraum deckt die Kernmodule von YOLOv8 bis YOLO12 ab und erstreckt sich über den Backbone und den Neck (der Detection-Head bleibt fixiert). Die Parameterisierung erfolgt in drei Dimensionen:

Kanäle (Channel Width): Unabhängig wählbare Kanalanzahlen für die vier Backbone-Stufen (P2–P5).
Tiefe (Block Depth): Anzahl der wiederholten Blöcke in jeder Stufe.
Operator-Typ: Auswahl der Feature-Extraktionsmodule (z. B. C2f, C3k2, C2PSA, C2fCIB) und der Downsampling-Operatoren (Conv, SCDown).
Dieser Raum umfasst Millionen möglicher Konfigurationen.

B. Datengrundlage und Sampling

Um eine Ground-Truth-Datenbank zu erstellen, wurden 1.000 Architekturen auf COCO-mini (eine stratifizierte 10%-Teilmenge des COCO-Datensatzes) vollständig trainiert. Zur Sicherstellung einer repräsentativen Abdeckung wurden drei Sampling-Strategien kombiniert:

Random Sampling: 200 Architekturen für eine breite Abdeckung.
Stratified Sampling: 400 Architekturen, gruppiert nach Parameteranzahl, um verschiedene Modellgrößen auszugleichen.
Latin Hypercube Sampling (LHS): 400 Architekturen für eine optimale Abdeckung des hochdimensionalen diskreten Raums.

C. Der Self-Evolving Predictor (Selbstentwickelnder Prädiktor)

Ein zentrales Problem bei Surrogat-Modellen ist die Diskrepanz zwischen gleichmäßig verteilten Trainingsdaten und der für NAS kritischen „High-Performance-Frontier". Um dies zu lösen, führen die Autoren einen Self-Evolving Mechanism ein:

Iterativer Prozess: Der Prozess läuft über 10 Runden.
Latency-Bucketing: Der Latenzbereich wird in 10 Buckets unterteilt.
Evolutionäre Suche: Innerhalb jedes Buckets wird ein Evolutionärer Algorithmus (EA) ausgeführt, der den vorhergesagten mAP als Fitnessfunktion und die gemessene Latenz als Constraint nutzt.
Feedback-Loop: Die top 5 Architekturen pro Bucket (insgesamt 50 pro Runde) werden auf COCO-mini neu trainiert, ihre Ground-Truth-Werte werden erfasst und dem Pool hinzugefügt.
Ergebnis: Der Pool wächst von 1.000 auf 1.500 Architekturen, wobei der Anteil hochperformanter Architekturen gezielt erhöht wird.

Abschließend wird ein Ensemble aus 10 LightGBM-Modellen auf dem erweiterten Pool trainiert, um die Vorhersagegenauigkeit und Stabilität zu maximieren.

3. Wichtige Beiträge

Erster YOLO-spezifischer Benchmark: Schließung der Lücke für NAS-Evaluierung im Bereich Objekterkennung mit einem Suchraum, der YOLOv8–YOLO12 abdeckt.
Self-Evolving Mechanism: Eine innovative Methode, um die Verteilung des Trainingspools an die für NAS relevanten Hochleistungsregionen anzupassen, was die Vorhersagegüte signifikant verbessert.
Validierte Prädiktionsleistung: Demonstration, dass der Prädiktor nicht nur korreliert, sondern tatsächlich Architekturen findet, die offizielle Baselines übertreffen.

4. Ergebnisse

Die Leistung des Prädiktors wurde mittels $R^2$ (Bestimmtheitsmaß) und Sparse Kendall Tau (sKT, Rangkorrelation) bewertet:

Qualitätssteigerung: Durch den Self-Evolving-Prozess verbesserte sich der sKT von 0,694 auf 0,752 und der $R^2$ von 0,770 auf 0,815. Dies zeigt eine starke Übereinstimmung zwischen Vorhersage und Ground-Truth.
Vergleich mit Baselines: Architekturen, die durch die EA-Suche unter Verwendung des Prädiktors entdeckt wurden, dominieren im Pareto-Sinne alle offiziellen YOLO-Baselines (v8 bis v12).
- Bei vergleichbarer Latenz erzielten die gefundenen Architekturen durchgehend höhere mAP-Werte.
- Beispiel: Im kleinen Modellbereich übertraf eine gefundene Architektur (Arch-D) YOLO11s um +4,2 % mAP bei ähnlicher Latenz.
Ablationsstudien: Der Vergleich zeigte, dass die Leistungssteigerung nicht allein durch die Vergrößerung des Datensatzes (Random Expansion) erreicht wurde, sondern spezifisch durch die gezielte Anreicherung mit Hochleistungsarchitekturen durch den Self-Evolving-Mechanismus.

5. Bedeutung und Ausblick

YOLO-NAS-Bench bietet der Community ein unverzichtbares Werkzeug, um NAS-Algorithmen für Objekterkennung fair, schnell und kostengünstig zu evaluieren. Es entkoppelt die Entwicklung von Suchalgorithmen vom teuren Trainingsprozess.
Die Studie beweist, dass Surrogat-Modelle, die durch iterative, zielgerichtete Erweiterung trainiert werden, in der Lage sind, echte, überlegene Architekturen zu entdecken.
Einschränkungen & Zukunft: Der Benchmark basiert derzeit auf COCO-mini und einer einzelnen GPU (NVIDIA P40) für Latenzmessungen. Zukünftige Arbeiten könnten den Benchmark auf den vollen COCO-Datensatz, diverse Hardware-Plattformen (Edge-GPUs, NPUs) und weitere Aufgaben wie Instanzsegmentierung erweitern.

Zusammenfassend stellt YOLO-NAS-Bench einen Meilenstein für die Automatisierung des Designs von Echtzeit-Objektdetektoren dar und setzt einen neuen Standard für die Evaluierung von NAS-Methoden in diesem Bereich.