SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung „SeedPolicy", als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar guten Vergleichen.

Das Problem: Der vergessliche Roboter

Stell dir vor, du möchtest einem Roboter beibringen, einen komplexen Trick vorzuführen, wie zum Beispiel: „Nimm den roten Block, leg ihn in die Schale, hol ihn wieder raus und mach das Gleiche mit dem blauen Block."

Bisherige Roboter-Modelle (wie das bekannte „Diffusion Policy") funktionieren wie ein Mensch mit sehr kurzem Gedächtnis. Sie schauen sich nur die letzten paar Sekunden an, um zu entscheiden, was sie als Nächstes tun sollen.

Das Problem entsteht, wenn die Aufgabe länger wird:

Der „Horizont-Effekt": Je länger die Aufgabe dauert, desto mehr Informationen muss der Roboter im Kopf behalten.
Das Chaos: Wenn der Roboter versucht, sich an alle Bilder der letzten Minute gleichzeitig zu erinnern, wird sein Gehirn überlastet. Er fängt an zu wackeln, verliert den Faden oder macht Fehler, weil er nicht weiß, ob er gerade erst angefangen hat oder ob er schon fast fertig ist. Es ist, als würde man versuchen, einen ganzen Roman auswendig zu lernen, indem man nur die letzten drei Sätze jedes Satzes betrachtet.

Die Lösung: SeedPolicy – Der Roboter mit dem „intelligenten Notizbuch"

Die Forscher haben eine neue Methode namens SeedPolicy entwickelt. Das Herzstück davon ist eine Technik, die sie SEGA nennen (Self-Evolving Gated Attention).

Hier ist, wie es funktioniert, mit zwei einfachen Analogien:

1. Das sich entwickelnde Notizbuch (Der latente Zustand)

Statt jedes einzelne Bild der letzten Minuten als separates Foto auf einem riesigen Stapel zu speichern (was den Roboter verlangsamt), führt SeedPolicy ein sich ständig aktualisierendes Notizbuch mit sich.

Wie ein erfahrener Koch: Ein Koch muss sich nicht an jeden einzelnen Schritt des Rezepts erinnern, den er vor einer Stunde gemacht hat. Er weiß einfach: „Ich habe das Mehl schon gemischt, jetzt kommt der Teig."
SeedPolicy fasst die gesamte Vergangenheit in einer kompakten, sich ständig erneuernden Information zusammen. Wenn eine neue Situation eintritt, wird das Notizbuch aktualisiert, aber der alte Kontext geht nicht verloren. So kann der Roboter auch bei sehr langen Aufgaben (z. B. 50 Schritte) den Überblick behalten.

2. Der Türsteher (Das „Gating"-System)

Das ist der geniale Teil: Nicht jede Information ist wichtig. Manchmal bewegt sich im Hintergrund nur ein Vorhang, oder ein Schatten fällt auf den Tisch. Das sind „Lärm" und Ablenkungen.

Der Türsteher: SeedPolicy hat einen intelligenten Türsteher (den „Gate"-Mechanismus). Dieser Türsteher schaut sich an, was gerade passiert, und entscheidet: „Ist diese Information wichtig für meine Aufgabe?"
- Wenn ja (z. B. „Der Block wurde bewegt"), lässt er die Information ins Notizbuch.
- Wenn nein (z. B. „Der Hintergrund hat sich leicht verschoben"), schmeißt er sie raus.
Vorteil: Der Roboter wird nicht von unnötigem visuellen Müll verwirrt. Er bleibt fokussiert auf das Wesentliche.

Warum ist das so großartig?

Die Forscher haben SeedPolicy an einem Roboter getestet, der 50 verschiedene Aufgaben lösen musste. Das Ergebnis war beeindruckend:

Je länger, desto besser: Während alte Roboter bei langen Aufgaben versagten, wurde SeedPolicy mit jeder zusätzlichen Sekunde der Aufgabe besser. Es ist wie ein Marathonläufer, der mit der Zeit immer schneller wird, während andere schon nach 100 Metern erschöpft sind.
Effizienz: Andere moderne Roboter-Modelle (wie riesige KI-Modelle mit Milliarden von Parametern) sind wie ein riesiger Lastwagen, der viel Kraft braucht, um eine kleine Aufgabe zu erledigen. SeedPolicy ist wie ein sportlicher Rennwagen. Es erreicht fast die gleiche Leistung, braucht aber nur einen Bruchteil der Rechenleistung und Energie.
Robustheit: Selbst wenn die Umgebung chaotisch ist (z. B. Licht ändert sich, Objekte sind anders platziert), schafft SeedPolicy die Aufgaben, weil es sich auf die Logik der Bewegung konzentriert und nicht auf das bloße Auswendiglernen von Bildern.

Zusammenfassung

SeedPolicy ist wie ein Roboter, der nicht nur „schaut", sondern versteht.

Er hat ein Gedächtnis, das sich intelligent zusammenfasst, statt alles abzuhaken.
Er hat einen Filter, der ihn vor Ablenkungen schützt.
Dadurch kann er lange, komplexe Aufgaben meistern, bei denen andere Roboter schon längst den Faden verloren haben – und das alles mit einer Effizienz, die viel größere KI-Modelle in den Schatten stellt.

Es ist ein großer Schritt hin zu Robotern, die nicht nur einfache Befehle ausführen, sondern echte, mehrstufige Aufgaben im Haushalt oder in der Fabrik selbstständig und zuverlässig erledigen können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation" auf Deutsch:

1. Problemstellung

Das Paper adressiert ein kritisches Limitierung bei der Imitationslernen (Imitation Learning, IL) für robotische Manipulation, insbesondere bei Diffusion Policies (DP).

Das Paradoxon der Beobachtungshorizonte: Herkömmliche Diffusion Policies leiden unter einem paradoxen Leistungsabfall, wenn der Beobachtungshorizont (die Anzahl der zurückliegenden Bildrahmen, die als Eingabe dienen) vergrößert wird. Anstatt dass mehr historische Informationen die Leistung verbessern, verschlechtert sie sich oft drastisch, bis hin zu einem kompletten Versagen bei langen Horizonten.
Ursache: Die Standardansätze behandeln Beobachtungen lediglich als Stapel von Bildrahmen (Frame Stacking). Dies erfasst keine komplexen zeitlichen Abhängigkeiten. Zudem führt eine naive Vergrößerung des Fensters zu einer quadratischen Zunahme des Rechenaufwands (bei Attention-Mechanismen) und integriert irrelevante oder verrauschte Informationen (z. B. statische Hintergründe, Okklusionen), was den Kontext „verschmutzt".
Folge: Roboter können langfristige Aufgaben (Long-Horizon Tasks) nicht effektiv bewältigen, da sie den Kontext über die Zeit verlieren oder in lokalen Minima stecken bleiben (z. B. durch Perzeptuelle Aliasing, wenn der Zustand visuell dem Startzustand ähnelt, aber eine andere Phase der Aufgabe darstellt).

2. Methodik: SeedPolicy und SEGA

Die Autoren schlagen SeedPolicy vor, eine Architektur, die Diffusion Policies mit einem neuen temporalen Modul namens Self-Evolving Gated Attention (SEGA) kombiniert.

Kernkomponente: Self-Evolving Gated Attention (SEGA)

SEGA ist ein zeitliches Modul, das einen sich entwickelnden latenten Zustand ( $S_t$ ) über die Zeit hinweg aufrechterhält. Es besteht aus zwei parallelen Strömen in einem Transformer-Design:

State Update (Zustandsaktualisierung):
- Der latente Zustand wird rekursiv aktualisiert, indem neue sensorische Informationen integriert werden.
- Self-Evolving Gate (SEG): Ein entscheidender Mechanismus, der die rohen Cross-Attention-Scores als „Relevanzsignale" interpretiert. Anstatt alle neuen Frames gleichgewichtet zu integrieren, berechnet SEG ein dynamisches Gating-Signal ( $G_t$ ).
- Dieses Signal filtert irrelevante oder verrauschte Signale (z. B. Hintergrundbewegungen) heraus und sorgt dafür, dass nur semantisch relevante Informationen in den latenten Zustand aufgenommen werden. Dies verhindert die Anreicherung von Rauschen über lange Zeiträume.
State Retrieval (Zustandsabruf):
- Der aktuelle Beobachtungszustand wird mit dem historischen Kontext angereichert.
- Die aktuellen Beobachtungen fragen den latenten Zustand ab, um zeitliche Hinweise zu extrahieren, die für die aktuelle Aktion entscheidend sind. Dies ermöglicht es dem Modell, Informationen wiederzugewinnen, die durch lange Abhängigkeiten verloren gegangen wären.

Gesamtarbeitsablauf

Encoding: Aktuelle RGB-Bilder und Gelenkpositionen werden durch einen Encoder (ResNet) in Merkmalsvektoren umgewandelt.
SEGA-Verarbeitung: Die Merkmalsvektoren durchlaufen SEGA, um den latenten Zustand zu aktualisieren und die Beobachtungsmerkmale zu verbessern ( $EObst$ ).
Diffusion Policy: Die angereicherten Merkmale werden in einen Diffusions-Modell-Backbone (Transformer oder CNN) eingespeist, der eine Sequenz zukünftiger Aktionen vorhersagt.

3. Schlüsselbeiträge

Einführung von SEGA: Ein temporales Modul, das Attention mit einem dynamischen Gating-Mechanismus kombiniert, um einen kompakten, sich entwickelnden latenten Zustand zu erhalten. Dies filtert zeitliches Rauschen und erfasst langfristige Abhängigkeiten effizient.
Horizon Scaling: SeedPolicy kehrt den Leistungsabfall bei Diffusion Policies um. Die Leistung steigt konsistent mit der Länge des Beobachtungsfensters, anstatt zu sinken.
Effizienz und Skalierbarkeit: SeedPolicy erreicht State-of-the-Art-Ergebnisse mit deutlich weniger Parametern (1–2 Größenordnungen weniger) als große Vision-Language-Action-Modelle (VLA) wie RDT (1,2 Mrd. Parameter).
Robustheit: Das System ist widerstandsfähig gegen visuelle Störungen, statische Hintergründe und Perzeptuelles Aliasing, was zu einer höheren Erfolgsrate in komplexen, mehrstufigen Aufgaben führt.

4. Ergebnisse

Die Evaluation erfolgte auf dem RoboTwin 2.0-Benchmark (50 Manipulationsaufgaben) in Simulation und auf einem realen Roboter (Dexmal Dos W1).

Leistungssteigerung:
- Im Vergleich zur Basis-Diffusion Policy (DP) erzielt SeedPolicy eine relative Verbesserung von 36,8 % in sauberen Umgebungen und 169 % in randomisierten, herausfordernden Umgebungen.
- Bei langen Aufgaben (Long-Horizon) vergrößert sich der Vorsprung gegenüber der Basislinie signifikant (bis zu +21,9 % bei CNN-Backbones).
Vergleich mit VLA-Modellen: SeedPolicy (mit ca. 33–147 Mio. Parametern) erreicht vergleichbare oder bessere Ergebnisse als das 1,2 Mrd. Parameter große Modell RDT, insbesondere in spezifischen Manipulationsaufgaben, bei gleichzeitig viel geringerem Rechenaufwand.
Ablationsstudien:
- Der reine State-Mechanismus (ohne Gating) verbessert die Leistung, aber das Hinzufügen des SEG ist entscheidend für die maximale Robustheit und Leistung.
- Die Nutzung der Cross-Attention-Karten als Gating-Signal ist überlegen gegenüber herkömmlichen MLP-basierten Gates.
Qualitative Analyse: SeedPolicy löst Probleme wie „Execution Stagnation" (das Robotersystem friert ein, weil es nicht erkennt, dass es sich in einer neuen Phase befindet) und räumliche Präzisionsfehler (z. B. Luftgreifen), die bei Baselines aufgrund fehlender Tiefeninformationen und mangelnden Kontexts auftreten.

5. Bedeutung und Ausblick

SeedPolicy stellt einen bedeutenden Fortschritt im Bereich des robotischen Imitationslernens dar. Es löst das fundamentale Problem der zeitlichen Modellierung bei Diffusion Policies, ohne auf extrem große, rechenintensive Modelle zurückgreifen zu müssen.

Praktische Relevanz: Die Methode ermöglicht Robotern, komplexe, langfristige Aufgaben in Echtzeit und auf ressourcenbeschränkter Hardware (Edge Devices) zu bewältigen.
Zukunft: Die Autoren sehen Potenzial in der Integration von SEGA in Vision-Language-Action-Architekturen, um die Generalisierungsfähigkeit in offenen Welten weiter zu verbessern.

Zusammenfassend demonstriert SeedPolicy, dass durch intelligente zeitliche Filterung und rekursive Zustandsaktualisierung die Skalierbarkeit von Diffusion Policies für langfristige robotische Manipulationen erreicht werden kann, wobei Effizienz und Leistung optimiert werden.