SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein riesiges Archiv von Gebärdensprache-Videos zu organisieren. Das Problem ist: Gebärdensprache ist nicht wie gesprochene Sprache. Sie ist nicht nur eine Abfolge von Wörtern, sondern ein komplexes Ballett aus Handformen, Bewegungen, Gesichtsausdrücken und dem Ort, an dem die Hände bewegt werden.

Bisher war das Sortieren dieser Videos wie der Versuch, ein riesiges Puzzle ohne Bildvorlage zu lösen – und das alles per Hand. Ein Mensch braucht oft eine Stunde, um nur eine Minute Gebärdensprache zu analysieren und zu beschriften. Das ist zu langsam und zu teuer, um große Datenmengen für KI-Modelle zu sammeln.

Hier kommt SignAgent ins Spiel. Man kann es sich wie einen super-intelligenten, geduldigen Bibliothekar mit einem riesigen Werkzeugkasten vorstellen.

Was ist SignAgent eigentlich?

Stellen Sie sich SignAgent als ein Team aus drei Spezialisten vor, die zusammenarbeiten, um die Gebärdensprache zu verstehen:

Der Chef (Der Orchestrator): Das ist ein großes Sprach-KI-Modell (ein "Gehirn"). Es denkt nicht nur nach, sondern trifft Entscheidungen. Es ist wie der Dirigent eines Orchesters, der weiß, wann welches Instrument spielen muss.
Das Lexikon (SignGraph): Das ist eine riesige, digitale Datenbank, die nicht nur Wörter kennt, sondern auch die "Bausteine" der Gebärdensprache (z. B. "Handform: Faust", "Bewegung: Kreis"). Es ist wie ein Wörterbuch, das auch die Grammatik der Hände versteht.
Die Werkzeuge (Tools): Das sind spezialisierte Programme, die das Video genau ansehen. Sie können erkennen, welche Handform gerade benutzt wird, wohin sie sich bewegt und wie schnell.

Wie funktioniert das Ganze? (Die zwei großen Aufgaben)

Das Papier beschreibt, wie dieses Team zwei schwierige Aufgaben löst:

1. Aufgabe: Die "Wort-Reihenfolge" finden (Pseudo-Gloss Annotation)

Stellen Sie sich vor, jemand hat einen Satz auf Deutsch ("Ich esse einen Apfel") und ein Video, auf dem eine Person das auf Gebärdensprache macht. Die KI muss herausfinden: Welches Gebärdewort gehört zu welchem Zeitpunkt im Video?

Das alte Problem: Früher hat die KI oft geraten oder die Wörter einfach durcheinander gewürfelt.
Die SignAgent-Lösung: Der "Chef" (Orchestrator) schaut sich das Video an. Er ruft die "Werkzeuge" auf, um zu sehen: "Ah, hier bewegt sich die Hand so, das passt zum Wort 'Apfel'." Dann schaut er ins "Lexikon" (SignGraph), um zu prüfen: "Klingt die Handform wie ein Apfel?"
Die Analogie: Es ist wie ein Detektiv, der nicht nur die Tatorte (das Video) untersucht, sondern auch die DNA-Spuren (die linguistischen Details) abgleicht, um die richtige Reihenfolge der Ereignisse zu rekonstruieren. Das Ergebnis ist eine perfekt sortierte Liste von Gebärdewörtern, die genau zum Video passt.

2. Aufgabe: Die "Zwillinge" erkennen (ID Glossing)

Manchmal bedeutet dasselbe Wort (z. B. "Basketball") in der Gebärdensprache etwas Unterschiedliches, je nachdem, wie man es macht (z. B. mit einer Hand oder mit beiden Händen). Diese Varianten sehen sich ähnlich, sind aber technisch unterschiedlich.

Das alte Problem: Einfache KI-Systeme sehen nur das Bild. Wenn zwei Videos von "Basketball" sich optisch etwas unterscheiden, denken sie, es wären zwei völlig verschiedene Wörter. Oder sie vermischen Varianten, die eigentlich unterschiedlich sind.
Die SignAgent-Lösung: Hier wird das Team noch schlauer. Der "Chef" sagt: "Schau mal, diese beiden Videos sehen sich ähnlich, aber die Handform ist bei einem 'offen' und bei dem anderen 'geschlossen'. Im Lexikon steht, dass das zwei verschiedene Varianten sind."
Die Analogie: Stellen Sie sich vor, Sie sortieren eine Schachtel mit roten Kugeln. Ein einfacher Roboter würde alle roten Kugeln in einen Haufen werfen. SignAgent hingegen nimmt eine Lupe: "Moment, diese Kugel ist glatt, diese hat eine Rille. Obwohl beide rot sind, gehören sie in verschiedene Fächer." So gruppiert es die Videos viel genauer.

Warum ist das so wichtig?

Bisher mussten Linguisten stundenlang vor dem Bildschirm sitzen, um diese Feinheiten zu notieren. SignAgent macht das automatisch, schnell und nachvollziehbar.

Es ist skalierbar: Man kann damit riesige Datenmengen bearbeiten, die für das Training von KI-Modellen nötig sind.
Es ist verständlich: Wenn SignAgent eine Entscheidung trifft, kann es sagen: "Ich habe das Wort 'Apfel' gewählt, weil die Handform X und die Bewegung Y im Lexikon so definiert sind." Es halluziniert nicht einfach, sondern stützt sich auf Fakten.
Es ist ein Assistent: Es ersetzt nicht den Menschen, sondern ist wie ein hochqualifizierter Praktikant, der die schwere Vorarbeit erledigt, damit die Experten sich auf das Wesentliche konzentrieren können.

Zusammenfassend: SignAgent ist wie ein digitaler Dolmetscher und Archivar in einem. Er nutzt die Kraft moderner KI, um die komplexe, visuelle Welt der Gebärdensprache in strukturierte Daten zu verwandeln, die dann helfen, bessere KI-Systeme für taube und hörgeschädigte Menschen zu bauen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Forschung im Bereich der Gebärdensprache (SL) steht vor einem signifikanten Engpass: Die manuelle Erstellung linguistisch fundierter Annotationen ist extrem zeitaufwendig und kostspielig (ca. eine Stunde pro Minute Gebärdensprachdaten). Bestehende computergestützte Methoden arbeiten oft nur auf der Ebene von „Glosses" (Wort-Äquivalenten) und ignorieren dabei entscheidende linguistische Nuancen wie phonologische Komponenten (Handform, Bewegung, Ort, Orientierung, non-manuelle Signale). Dies erschwert die Erstellung großer, phonologisch bewusster Datensätze, die für das Training tiefer neuronaler Netze notwendig sind. Es fehlt an Systemen, die in der Lage sind, über multimodale Signale hinweg linguistische Schlussfolgerungen zu ziehen.

2. Methodik: SignAgent Framework

Das Paper stellt SignAgent vor, ein neuartiges agentic Framework, das Large Language Models (LLMs) nutzt, um skalierbare und linguistisch fundierte Annotationen und Datensatzkuratierung zu ermöglichen. Das System besteht aus drei Hauptkomponenten:

SignAgent Orchestrator: Ein deduzierender LLM (Decoder-only), der als zentraler Controller fungiert. Er führt einen „ReAct"-ähnlichen Reasoning-Loop durch (Reasoning $\rightarrow$ Tool Call $\rightarrow$ State Update), um komplexe Aufgaben zu zerlegen, Werkzeuge zu koordinieren und Entscheidungen auf Basis multimodaler Beweise zu treffen.
SignGraph: Ein wissensbasiertes LLM-Modul, das auf Retrieval-Augmented Generation (RAG) basiert. Es greift auf zwei gerichtete Wissensgraphen zu:
- LexicalKnowledgeGraph: Enthält lexikalische Einträge und phonologische Komponenten.
- LinguisticKnowledgeGraph: Enthält linguistische Konzepte und Merkmale aus Referenzmaterialien.
Toolset (Werkzeugkette): Das Framework nutzt eine hierarchische Struktur von Werkzeugen:
- Base Tools (Basis-Werkzeuge): Führen grundlegende, low-level Analysen durch (z. B. Klassifikation von Handformen, Bewegungen und Orten mittels k-NN und Pose-Daten, Segmentierung von Glossen, Lemmatisierung von Text).
- Enhanced Tools (Erweiterte Werkzeuge): Kombinieren die Ausgaben der Basis-Werkzeuge mit domänenspezifischem Wissen, um strukturierte, aufgabenbereite Beweise zu generieren. Dazu gehören:
  - Gloss Evidence Collector: Fusioniert visuelle Suchergebnisse mit phonologischer Übereinstimmung, um Kandidaten für Glossen zu bewerten und neu zu sortieren.
  - Visual ID Glossing: Clustert Video-Embeddings, um lexikalische Varianten (ID-Glosses) zu identifizieren.
  - Clustered Phonological Analysis: Quantifiziert die phonologische Übereinstimmung zwischen Clustern, um linguistisch ähnliche, aber visuell unterschiedliche Varianten zu mergen.

3. Evaluierte Aufgaben

Das Framework wurde an zwei downstream-Aufgaben getestet:

Pseudo-Gloss Annotation:
- Ziel: Zuweisung und korrekte zeitliche Reihenfolge von Glossen-Tags zu einem Gebärdensprachvideo basierend auf einem gesprochene Satz.
- Prozess: Der Agent nutzt SignLemma zur Generierung von Kandidaten, sammelt dann multimodale Beweise (visuelle Ähnlichkeit, phonologische Übereinstimmung, Handaktivität) und ordnet die Glossen neu, ohne neue Tokens zu erfinden (Token-Konservierung).
ID-Glossing:
- Ziel: Identifizierung und Gruppierung von Varianten desselben lexikalischen Zeichens (z. B. „Basketball" mit einer oder zwei Händen).
- Prozess: Der Agent analysiert visuelle Cluster und verfeinert diese durch Reasoning über phonologische Überlappung und Händigkeit (Handpräferenz), um inkonsistente visuelle Cluster zu bereinigen und linguistisch korrekte ID-Glosses zu bilden.

4. Ergebnisse

Die Evaluation erfolgte auf Datensätzen für Britische Gebärdensprache (BSL) und Amerikanische Gebärdensprache (ASL).

Pseudo-Gloss Annotation (BSL):
- SignAgent erreichte auf dem BSLCorpus die besten Ergebnisse im Vergleich zu Baselines (Sign2GPT Lemmatization, GBDT+Fuzzy).
- Metriken: 60,85 % LCS (Longest Common Subsequence) und $\tau = 0,374$ (Kendall's Tau) auf „Fair"-Daten, sowie signifikante Verbesserungen auf schwierigen („Poor") Sätzen, wo Baselines oft versagten (Verbesserung um +4,53 LCS-Punkte gegenüber der besten Baseline).
- Der agentic Ansatz löste erfolgreich Konflikte in der Reihenfolge, die rein feature-basierte Methoden nicht bewältigen konnten.
ID-Glossing (ASL):
- Im Vergleich zum State-of-the-Art Vision-Encoder (SignRep) erzeugte SignAgent deutlich weniger fragmentierte Cluster.
- Metriken: Reduktion der IDs pro Gloss von 4,81 auf 2,30. Verbesserung der Clusterqualität (Silhouette-Coeffizient von -0,04 auf +0,06; Calinski-Harabasz-Ratio von 6,75 auf 7,58).
- Qualitativ zeigte sich, dass SignAgent visuelle Varianten, die phonologisch identisch sind, erfolgreich gruppierte, wo reine visuelle Modelle scheiterten.

5. Hauptbeiträge

Erste Anwendung agenter Reasoning: Einführung des ersten Frameworks, das agentic Reasoning mit tool-augmentierten multimodalen Beweisen und wissensbasiertem Retrieval (SignGraph) für die Gebärdensprachannotation kombiniert.
Validierung durch inkrementelle Baselines: Demonstration konsistenter Verbesserungen durch jede Stufe des Frameworks (von reinen Features zu agenter Reasoning) auf zwei komplementären Aufgaben.
Öffentliche Verfügbarkeit: Bereitstellung der kuratierten Daten, um linguistisch fundierte SL-Forschung zu unterstützen.

6. Bedeutung und Ausblick

SignAgent beweist, dass agentic LLMs als skalierbare, überprüfbare und linguistisch fundierte Assistenten für die Datensatzkuratierung in der Gebärdensprache dienen können. Das System übertrifft statische Pipelines und rein visuelle Modelle, indem es explizites linguistisches Wissen (phonologische Regeln) in den Entscheidungsprozess integriert.

Limitationen: Das Framework ist derzeit von existierenden lexikalischen Ressourcen abhängig und erfasst nicht-manuelle und prosodische Strukturen nur teilweise. Zukünftige Arbeiten zielen darauf ab, das Toolset um Analysen nicht-manueller Signale zu erweitern und das Framework auf ressourcenarme Gebärdensprachen anzuwenden.

Zusammenfassend stellt SignAgent einen Paradigmenwechsel dar: Weg von rein datengetriebenen, oft oberflächlichen Annotationen hin zu einem systematischen, linguistisch fundierten Ansatz, der die Brücke zwischen visueller Erkennung und linguistischer Struktur schlägt.