See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Der Artikel stellt „See & Switch" vor, ein interaktives Framework zur Roboterschulung durch Demonstration, das mithilfe von Aug-in-Hand-Kameras und einem bedingten Aufgabengraphen robuste Verzweigungen und Anomalieerkennung in Echtzeit ermöglicht, um komplexe Manipulationsaufgaben auch unter variierenden Bedingungen zuverlässig auszuführen.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, wie man einen Kabelsalat in eine Schachtel packt. Das Problem bei herkömmlichen Robotern ist, dass sie wie ein sehr stures Kind sind: Wenn Sie ihnen einmal zeigen, wie man das macht, tun sie es immer genau so. Wenn sich aber etwas ändert – zum Beispiel, wenn eine Tür im Weg ist oder das Kabel woanders liegt – scheitert der Roboter, weil er nicht weiß, dass er einen neuen Plan braucht.

Die Forscher aus Prag haben eine Lösung namens „See & Switch" (Sehen und Wechseln) entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar anschaulichen Vergleichen:

1. Der Roboter als ein Buch mit vielen Seiten

Stellen Sie sich die Aufgabe des Roboters nicht als einen langen, geraden Film vor, sondern als ein Wählbuch (ein „Choose Your Own Adventure"-Buch).

  • Die Seiten: Jede Seite ist eine kleine Bewegung (z. B. „Greife das Kabel").
  • Die Entscheidungspunkte: An bestimmten Stellen im Buch gibt es einen Stern (den Decision State). Hier muss der Roboter anhalten und überlegen: „Wie sieht die Welt gerade aus?"
  • Der Wechsel: Basierend auf dem, was er sieht, blättert er zur richtigen nächsten Seite. Ist die Tür zu? Dann blättert er zur Seite „Tür öffnen". Ist die Tür offen? Dann direkt zur Seite „Kabel greifen".

2. Die Kamera als „Augen im Kopf"

Früher mussten Roboter oft auf ihre eigenen Gelenk-Sensoren hören (wie ein Mensch, der nur spürt, wo seine Hände sind, aber nicht sieht, was vor ihm ist). Das ist wie Blindenführungsarbeit.
Bei See & Switch hat der Roboter eine Kamera direkt an seiner Hand (ein „Eye-in-Hand"-System).

  • Der Vergleich: Stellen Sie sich vor, Sie fahren Auto. Ein alter Roboter würde nur auf den Tacho schauen. Unser neuer Roboter schaut aber durch die Windschutzscheibe. Er sieht sofort: „Oh, da ist ein Hindernis!" oder „Ah, das Ziel ist frei!"

3. Der „Schalter" (The Switcher)

Das Herzstück ist eine intelligente Software, die wir den Schalter nennen können.

  • Wie ein erfahrener Assistent: Wenn der Roboter an einem Entscheidungspunkt ankommt, schaut der Schalter auf das Bild der Kamera. Er vergleicht das Bild mit dem, was er bereits gelernt hat.
  • Die Entscheidung:
    • Szenario A: Er erkennt das Bild sofort. „Aha, das ist die Situation mit der geschlossenen Tür!" -> Er wählt den Pfad „Tür öffnen".
    • Szenario B: Er sieht etwas, das er noch nie gesehen hat (z. B. ein neues Hindernis). Der Schalter schlägt Alarm: „Das passt zu keiner meiner Seiten! Ich brauche Hilfe!" -> Er signalisiert dem Menschen: „Bitte zeig mir, was ich jetzt tun soll."

4. Das Lernen durch „Korrektur"

Das Tolle an diesem System ist, dass der Roboter nicht starr bleibt. Wenn er auf ein Problem stößt, das er nicht kennt, kann der Mensch ihm live helfen.

  • Der Vergleich: Stellen Sie sich vor, Sie spielen ein Videospiel und kommen an eine Stelle, die nicht programmiert war. Statt abzubrechen, können Sie dem Roboter einfach zeigen: „Hey, mach so!" (entweder indem Sie seinen Arm führen, einen Joystick benutzen oder mit Handzeichen steuern).
  • Der Roboter nimmt diese neue Bewegung, fügt sie als neue Seite in sein Buch ein und merkt sich: „Wenn ich das sehe, mache ich das." Beim nächsten Mal weiß er es selbst.

5. Was haben die Forscher getestet?

Sie haben 8 normale Menschen (keine Roboter-Experten) gebeten, einem Roboter drei verschiedene Aufgaben beizubringen:

  1. Einen Stift in ein Loch stecken.
  2. Eine Messsonde an eine Stelle führen (manchmal hinter einer Tür).
  3. Ein Kabel aufwickeln.

Die Menschen durften den Roboter auf drei Arten steuern:

  • Körperlich führen: Den Roboterarm direkt bewegen (wie beim Tanzen).
  • Joystick: Wie bei einem Spiel.
  • Handzeichen: Mit der Hand steuern.

Das Ergebnis:

  • Der Roboter war sehr gut darin, die richtigen Seiten im Buch zu finden (über 90 % Erfolg), solange er die Situation gut sehen konnte.
  • Die körperliche Führung war am schnellsten und einfachsten für die Menschen.
  • Das System war so clever, dass es auch dann funktionierte, wenn die Menschen Fehler machten oder die Umgebung sich änderte.

Zusammenfassung

See & Switch macht Roboter weniger stur und mehr wie ein lernfähiger Mitarbeiter. Statt stur einen vorprogrammierten Weg abzulaufen, schauen sie sich um, entscheiden sich für den richtigen Weg und können sogar neue Wege lernen, wenn der Chef (der Mensch) ihnen kurz hilft. Es ist der Unterschied zwischen einem Roboter, der nur eine Playlist abspielt, und einem DJ, der live auf die Stimmung der Gäste reagiert und die Musik anpasst.