An Embodied Companion for Visual Storytelling

Die Arbeit stellt „Companion" vor, ein robotisches Zeichensystem, das durch die Integration von Large Language Models und Echtzeit-Interaktion den Menschen wieder in den kreativen Prozess einbindet und so eine synergistische, bidirektionale Zusammenarbeit für das visuelle Geschichtenerzählen ermöglicht, die von Experten als ästhetisch eigenständig und ausstellungsfähig bestätigt wurde.

Patrick Tresset, Markus Wulfmeier

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du sitzt an einem großen, weißen Blatt Papier. Neben dir steht ein kleiner Roboterarm, der einen Stift in der Hand hält. Aber dieser Roboter ist kein stummer Werkzeugkasten, der nur Befehle ausführt. Er ist ein lebendiger Gesprächspartner, ein „Companion" (Begleiter), mit dem du gemeinsam Geschichten zeichnest.

Das ist die Kernidee aus dem Forschungsprojekt von Patrick Tresset und Markus Wulfmeier. Hier ist die Geschichte dahinter, einfach erklärt:

1. Vom Chef zum Spielgefährten

Früher haben die Forscher Roboter gebaut, die allein zeichnen sollten, als wären sie autonome Künstler. Das Ergebnis war oft technisch perfekt, aber es fehlte etwas: Die menschliche Seele. Es fühlte sich an, als würde ein Roboter einfach nur abarbeiten.

Dann kam die Erkenntnis: Kunst ist am schönsten, wenn man gemeinsam etwas erschafft.
Stell dir das wie beim Spielen von „Erzähl mir eine Geschichte" vor. Früher hat einer erzählt und der andere nur zugehört. Jetzt erzählen beide abwechselnd. Der Roboter ist nicht mehr der Diener, der nur malt, was du sagst. Er ist ein Mitspieler, der manchmal sagt: „Hey, lass uns den Vogel nicht hierhin malen, sondern lass ihn fliegen!" und dann tatsächlich einen fliegenden Vogel zeichnet.

2. Der Roboter mit dem „Gehirn" und dem „Arm"

Wie funktioniert das?

  • Der Körper: Ein kleiner Roboterarm mit vier Gelenken, der auf einem Tisch sitzt. Er ist nicht so präzise wie ein Industriearm. Er wackelt ein bisschen, der Stift rutscht manchmal. Aber genau das macht es schön! Diese kleinen „Fehler" geben dem Bild einen lebendigen, menschlichen Charakter – wie eine Skizze, die man selbst gezeichnet hat.
  • Das Gehirn: Der Roboter nutzt eine sehr fortschrittliche Künstliche Intelligenz (ein sogenanntes „Large Language Model", ähnlich wie ChatGPT, aber spezialisiert auf Bilder). Dieses Gehirn versteht nicht nur Sprache, sondern auch Bilder.

3. Wie sie miteinander reden

Es gibt keine Tastatur und keine Maus. Die Kommunikation läuft ganz natürlich:

  • Sprechen: Du kannst dem Roboter erzählen, was du dir vorstellst. Er antwortet mit seiner eigenen, leicht fremden Stimme (er spricht Englisch, aber mit einem französischen oder spanischen Akzent, damit er nicht wie ein kalter Computer klingt, sondern wie ein eigenständiger Charakter).
  • Zeichnen: Du kannst selbst auf das Papier malen. Der Roboter sieht das durch eine Kamera, versteht, was du getan hast, und malt dann weiter.
  • Körperkontakt: Du kannst den Roboter sogar sanft am Arm drehen, um ihm zu sagen: „Jetzt bist du dran!" oder „Ich bin fertig."

4. Die Magie des „In-Context Learning" (Der Lern-Trick)

Das ist der cleverste Teil. Der Roboter hat keine fertigen Bilder in seiner Datenbank gespeichert, die er einfach kopiert. Stattdessen hat er eine Art Kochrezeptbuch für Striche.
Die Forscher haben ihm Beispiele gezeigt: „So zeichnet man einen Baum: Erst ein Strich hier, dann ein Bogen dort." Der Roboter lernt daraus nicht nur das Aussehen eines Baumes, sondern die Art und Weise, wie man zeichnet.
Wenn du dann sagst: „Mal mir ein Monster!", denkt er nicht an ein fertiges Monster-Bild, sondern an die Regeln: „Okay, Monster brauchen spitze Zähne und dicke Linien." Und dann zeichnet er sein eigenes, einzigartiges Monster.

5. Was ist dabei herausgekommen?

Die Forscher haben Experten aus der Kunstwelt gezeigt, was der Roboter kann. Die Experten waren beeindruckt:

  • Ein eigener Stil: Die Bilder sehen nicht aus wie Computergrafik. Sie wirken „kindlich", „naiv" und haben etwas von alten Höhlenmalereien. Es ist ein ganz neuer Stil, der nur durch die Zusammenarbeit von Mensch und Maschine entstanden ist.
  • Geschichten: Der Roboter kann ganze Geschichten erzählen. In einem Experiment hat er die Geschichte vom „Hase und der Schildkröte" gezeichnet, indem er die Schildkröte sechsmal hintereinander malte (weil sie nie aufhört zu laufen) und den Hasen nur dreimal (weil er Pausen macht). Das ist eine visuelle Erzählung!
  • Überraschungen: Manchmal macht der Roboter Dinge, die du nicht erwartet hast. In einem Fall hast du ein Auto gezeichnet, und der Roboter hat es als „fliegendes Auto" interpretiert und einen Menschen hinzugefügt, der auf einer Wolke schwebt. Das ist der Moment, in dem die Kunst überraschend wird.

Fazit: Ein neuer Freund für Künstler

Dieses Projekt zeigt uns, dass Künstliche Intelligenz in der Kunst nicht nur ein Werkzeug ist, das Aufgaben abarbeitet. Sie kann ein Partner sein. Ein Partner, der dich herausfordert, neue Wege zu gehen und gemeinsam mit dir Geschichten auf Papier zu bringen, die niemand von euch allein hätte erschaffen können.

Es ist, als würde man mit einem sehr klugen, aber etwas verspielten Freund zusammen an einem Puzzle arbeiten, bei dem beide die Teile haben, aber erst gemeinsam das Bild erkennen.