SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Die Arbeit stellt SignAgent vor, ein neuartiges Agenten-Framework, das auf Large Language Models basiert, um die skalierbare und linguistisch fundierte Annotation sowie die Kuratierung von Gebärdensprachdatensätzen durch die Koordination linguistischer Werkzeuge und wissensbasierter Verankerung zu automatisieren.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden

Veröffentlicht 2026-03-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein riesiges Archiv von Gebärdensprache-Videos zu organisieren. Das Problem ist: Gebärdensprache ist nicht wie gesprochene Sprache. Sie ist nicht nur eine Abfolge von Wörtern, sondern ein komplexes Ballett aus Handformen, Bewegungen, Gesichtsausdrücken und dem Ort, an dem die Hände bewegt werden.

Bisher war das Sortieren dieser Videos wie der Versuch, ein riesiges Puzzle ohne Bildvorlage zu lösen – und das alles per Hand. Ein Mensch braucht oft eine Stunde, um nur eine Minute Gebärdensprache zu analysieren und zu beschriften. Das ist zu langsam und zu teuer, um große Datenmengen für KI-Modelle zu sammeln.

Hier kommt SignAgent ins Spiel. Man kann es sich wie einen super-intelligenten, geduldigen Bibliothekar mit einem riesigen Werkzeugkasten vorstellen.

Was ist SignAgent eigentlich?

Stellen Sie sich SignAgent als ein Team aus drei Spezialisten vor, die zusammenarbeiten, um die Gebärdensprache zu verstehen:

  1. Der Chef (Der Orchestrator): Das ist ein großes Sprach-KI-Modell (ein "Gehirn"). Es denkt nicht nur nach, sondern trifft Entscheidungen. Es ist wie der Dirigent eines Orchesters, der weiß, wann welches Instrument spielen muss.
  2. Das Lexikon (SignGraph): Das ist eine riesige, digitale Datenbank, die nicht nur Wörter kennt, sondern auch die "Bausteine" der Gebärdensprache (z. B. "Handform: Faust", "Bewegung: Kreis"). Es ist wie ein Wörterbuch, das auch die Grammatik der Hände versteht.
  3. Die Werkzeuge (Tools): Das sind spezialisierte Programme, die das Video genau ansehen. Sie können erkennen, welche Handform gerade benutzt wird, wohin sie sich bewegt und wie schnell.

Wie funktioniert das Ganze? (Die zwei großen Aufgaben)

Das Papier beschreibt, wie dieses Team zwei schwierige Aufgaben löst:

1. Aufgabe: Die "Wort-Reihenfolge" finden (Pseudo-Gloss Annotation)

Stellen Sie sich vor, jemand hat einen Satz auf Deutsch ("Ich esse einen Apfel") und ein Video, auf dem eine Person das auf Gebärdensprache macht. Die KI muss herausfinden: Welches Gebärdewort gehört zu welchem Zeitpunkt im Video?

  • Das alte Problem: Früher hat die KI oft geraten oder die Wörter einfach durcheinander gewürfelt.
  • Die SignAgent-Lösung: Der "Chef" (Orchestrator) schaut sich das Video an. Er ruft die "Werkzeuge" auf, um zu sehen: "Ah, hier bewegt sich die Hand so, das passt zum Wort 'Apfel'." Dann schaut er ins "Lexikon" (SignGraph), um zu prüfen: "Klingt die Handform wie ein Apfel?"
  • Die Analogie: Es ist wie ein Detektiv, der nicht nur die Tatorte (das Video) untersucht, sondern auch die DNA-Spuren (die linguistischen Details) abgleicht, um die richtige Reihenfolge der Ereignisse zu rekonstruieren. Das Ergebnis ist eine perfekt sortierte Liste von Gebärdewörtern, die genau zum Video passt.

2. Aufgabe: Die "Zwillinge" erkennen (ID Glossing)

Manchmal bedeutet dasselbe Wort (z. B. "Basketball") in der Gebärdensprache etwas Unterschiedliches, je nachdem, wie man es macht (z. B. mit einer Hand oder mit beiden Händen). Diese Varianten sehen sich ähnlich, sind aber technisch unterschiedlich.

  • Das alte Problem: Einfache KI-Systeme sehen nur das Bild. Wenn zwei Videos von "Basketball" sich optisch etwas unterscheiden, denken sie, es wären zwei völlig verschiedene Wörter. Oder sie vermischen Varianten, die eigentlich unterschiedlich sind.
  • Die SignAgent-Lösung: Hier wird das Team noch schlauer. Der "Chef" sagt: "Schau mal, diese beiden Videos sehen sich ähnlich, aber die Handform ist bei einem 'offen' und bei dem anderen 'geschlossen'. Im Lexikon steht, dass das zwei verschiedene Varianten sind."
  • Die Analogie: Stellen Sie sich vor, Sie sortieren eine Schachtel mit roten Kugeln. Ein einfacher Roboter würde alle roten Kugeln in einen Haufen werfen. SignAgent hingegen nimmt eine Lupe: "Moment, diese Kugel ist glatt, diese hat eine Rille. Obwohl beide rot sind, gehören sie in verschiedene Fächer." So gruppiert es die Videos viel genauer.

Warum ist das so wichtig?

Bisher mussten Linguisten stundenlang vor dem Bildschirm sitzen, um diese Feinheiten zu notieren. SignAgent macht das automatisch, schnell und nachvollziehbar.

  • Es ist skalierbar: Man kann damit riesige Datenmengen bearbeiten, die für das Training von KI-Modellen nötig sind.
  • Es ist verständlich: Wenn SignAgent eine Entscheidung trifft, kann es sagen: "Ich habe das Wort 'Apfel' gewählt, weil die Handform X und die Bewegung Y im Lexikon so definiert sind." Es halluziniert nicht einfach, sondern stützt sich auf Fakten.
  • Es ist ein Assistent: Es ersetzt nicht den Menschen, sondern ist wie ein hochqualifizierter Praktikant, der die schwere Vorarbeit erledigt, damit die Experten sich auf das Wesentliche konzentrieren können.

Zusammenfassend: SignAgent ist wie ein digitaler Dolmetscher und Archivar in einem. Er nutzt die Kraft moderner KI, um die komplexe, visuelle Welt der Gebärdensprache in strukturierte Daten zu verwandeln, die dann helfen, bessere KI-Systeme für taube und hörgeschädigte Menschen zu bauen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →