SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un computer a "parlare" la lingua dei segni. Non è come insegnargli l'italiano o l'inglese, dove le parole sono scritte su un foglio. La lingua dei segni è fatta di movimenti, espressioni facciali, forma delle mani e dove si muovono le braccia. È come se dovessi descrivere un'intera danza senza usare le parole, ma solo indicando ogni singolo passo e gesto.

Il problema? Finora, annotare (cioè scrivere descrizioni precise) di queste lingue è stato un incubo per gli umani. Ci vuole più di un'ora per annotare un solo minuto di video. È troppo lento, troppo costoso e troppo noioso per creare grandi biblioteche di dati necessari per insegnare alle intelligenze artificiali.

Ecco che entra in gioco SignAgent, il protagonista di questo articolo.

Cos'è SignAgent? Il "Regista" Intelligente

Pensa a SignAgent non come a un semplice robot, ma come a un Regista cinematografico molto esperto che ha al suo fianco una troupe di specialisti.

Il Regista (L'Orchestratore): È un'intelligenza artificiale (un LLM) molto intelligente. Non guarda il video da sola e non indovina. Il suo lavoro è pensare, pianificare e decidere cosa fare. È come un regista che dice: "Ok, in questa scena la mano fa questo movimento, quindi devo chiedere al mio esperto di anatomia di controllare la forma della mano, e poi chiedere all'esperto di dizionario se quel movimento corrisponde alla parola 'palla' o 'cestino'".
La Troupe di Specialisti (Gli Strumenti): Il regista non fa tutto da solo. Ha a disposizione una serie di "strumenti" (software specializzati) che analizzano il video:
- Uno che guarda solo la forma della mano.
- Uno che analizza il movimento (velocità, direzione).
- Uno che controlla dove avviene il gesto (vicino alla testa? al petto?).
- Uno che cerca nel dizionario dei segni.
La Biblioteca Magica (SignGraph): È come una gigantesca biblioteca digitale che contiene tutte le regole grammaticali e le definizioni dei segni. Il regista può consultarla in un istante per capire se due gesti diversi sono in realtà la stessa parola scritta in modo leggermente diverso (come dire "pallacanestro" con una mano o con due).

Cosa fa esattamente questo "Regista"?

Il paper descrive due compiti principali in cui SignAgent eccelle:

1. L'Ordinatore di Parole (Annotazione Pseudo-Gloss)

Immagina di avere una frase scritta: "Il bambino gioca a basket". Ora hai un video di qualcuno che fa la lingua dei segni per quella frase.

Il vecchio metodo: Provava ad abbinare le parole in modo rigido, spesso sbagliando l'ordine o perdendo i dettagli.
SignAgent: Guarda il video, chiede agli specialisti "Che forma ha la mano qui?", "Dove si muove?", e poi consulta la biblioteca. Capisce che quel movimento specifico corrisponde alla parola "basket". Poi, invece di buttare via le parole, le riordina perfettamente per corrispondere al video, assicurandosi di non inventare nulla e di non dimenticare nulla. È come se avesse un orecchio musicale perfetto per mettere in fila le note giuste.

2. Il Raccoglitore di Varianti (ID Glossing)

Nella lingua dei segni, la stessa parola può essere fatta in modi leggermente diversi. Ad esempio, la parola "basket" può essere fatta con la mano destra, con la sinistra, o con entrambe. Sono la stessa parola, ma visivamente diverse.

Il vecchio metodo: Spesso pensava che fossero parole diverse perché si vedevano diversamente nel video.
SignAgent: Ragiona come un linguista umano. Guarda il video e dice: "Aspetta, anche se la mano è diversa, il movimento e il luogo sono gli stessi. Queste due varianti sono la stessa parola!". Raggruppa insieme i gesti simili basandosi non solo su come appaiono, ma su come sono fatti (la grammatica del movimento).

Perché è una rivoluzione?

Fino ad oggi, per creare dataset (librerie di dati) per la lingua dei segni, servivano team di esperti umani che lavoravano per mesi. SignAgent fa questo lavoro in modo scalabile (può gestire enormi quantità di dati) e trasparente.

Non è una "scatola nera" che dà risposte magiche. Se SignAgent decide che due gesti sono la stessa parola, può dirti esattamente perché: "Ho deciso così perché la forma della mano corrisponde al 90% e il movimento è identico". Questo permette agli umani di verificare il lavoro, rendendo il processo sicuro e affidabile.

In sintesi

SignAgent è come un assistente linguistico super-potente che non sostituisce gli esperti umani, ma li libera dal lavoro noioso e ripetitivo. Prende il caos dei video, usa la logica e la conoscenza linguistica per ordinarli, e crea un dizionario digitale perfetto che le intelligenze artificiali future potranno usare per "parlare" e "capire" la lingua dei segni in modo naturale.

È un passo gigante verso un futuro in cui la tecnologia non sarà solo per chi parla, ma anche per chi si esprime con le mani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Collo di Bottiglia nell'Annotazione della Lingua dei Segni (LS)

Le Lingue dei Segni (LS) sono lingue visivo-gestuali ricche, la cui struttura si basa su componenti fonologici coordinati (forma della mano, movimento, posizione, orientamento e segnali non manuali).

Limiti attuali: I metodi computazionali esistenti operano spesso a livello di "gloss" (etichette superficiali), trascurando le sfumature linguistiche cruciali.
Costo e Scalabilità: L'annotazione linguistica manuale è estremamente costosa e lenta (richiede oltre un'ora per annotare un minuto di video), rendendo impossibile la creazione di dataset su larga scala e fonologicamente consapevoli necessari per addestrare modelli profondi.
Mancanza di Ragionamento: Non esistono sistemi capaci di eseguire un ragionamento linguistico complesso sui segnali multimodali (video, pose, testo) per generare annotazioni strutturate.

2. Metodologia: Il Framework SignAgent

Il paper introduce SignAgent, un framework agentic che utilizza i Large Language Models (LLM) per l'annotazione scalabile e fonologicamente fondata. L'architettura è composta da tre componenti principali:

A. Agenti e Architettura

SignAgent Orchestrator: Un LLM di ragionamento (decoder-only) che funge da controllore centrale. Gestisce il processo decisionale multistadio, coordina gli strumenti e interagisce con la conoscenza esterna. Utilizza un ciclo di ragionamento di tipo ReAct (Reason-Act): genera una traccia di ragionamento, decide se chiamare uno strumento o interrogare un grafo della conoscenza, e aggiorna il suo stato interno.
SignGraph: Un agente di recupero della conoscenza (RAG) basato su grafi. Fornisce un grounding linguistico e lessicale consultando due grafi della conoscenza:
- LexicalKnowledgeGraph: Contiene voci lessicali e componenti fonologici (forma della mano, movimento, posizione).
- LinguisticKnowledgeGraph: Contiene concetti linguistici e relazioni estratte da testi di riferimento.
Toolset (Set di Strumenti): Diviso gerarchicamente in:
- Base Tools: Moduli per l'analisi fonologica di base (classificatori di forma della mano, movimento, posizione, segmentazione temporale, estrazione di embedding visivi).
- Enhanced Tools: Strumenti che fondono le uscite dei Base Tools con la conoscenza del dominio per produrre evidenze strutturate pronte per il ragionamento (es. raccolta di evidenze per i gloss, analisi di cluster fonologici).

B. Compiti di Valutazione

Il framework è stato valutato su due compiti di annotazione a valle:

Pseudo-gloss Annotation: L'agente deve assegnare e ordinare etichette di gloss (pseudo-gloss) a segmenti video, utilizzando evidenze multimodali (similitudine visiva, sovrapposizione fonologica, attività manuale) per allineare la traduzione testuale al video.
ID Glossing: L'agente deve identificare e raggruppare varianti lessicali dello stesso gloss (es. "pallacanestro" fatto con una o due mani). L'agente ragiona sulla similarità visiva e sulla sovrapposizione fonologica per fondere o mantenere cluster visivi, producendo ID gloss distinti.

3. Contributi Chiave

Primo approccio Agentic per le LS: Introduzione del primo framework che combina ragionamento agentic, evidenze multimodali aumentate da strumenti e recupero basato su conoscenza (RAG) per l'annotazione delle LS.
Pipeline Ibrida e Interpratabile: Dimostrazione che l'uso di un LLM orchestratore, vincolato da strumenti fonologici e lessicali, supera i pipeline fissi. Ogni decisione è tracciabile e giustificata da evidenze esplicite (distanze, sovrapposizioni, statistiche).
Dataset e Risorse: Pubblicazione dei dati curati risultanti per supportare la ricerca linguistica sulle LS.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su dataset di Lingua dei Segni Britannica (BSL) e Americana (ASL).

Task 1: Pseudo-gloss Annotation (Dataset BSLCorpus)

Metriche: Longest Common Subsequence (LCS) e correlazione di rango di Kendall ( $\tau$ ).
Risultati: SignAgent ha ottenuto le prestazioni migliori, superando i baseline (lemmatizzazione Sign2GPT e un modello GBDT+fuzzy).
- Su casi difficili ("Poor"), SignAgent ha migliorato l'LCS dal 34.52% (baseline) al 47.02% e ha invertito la correlazione negativa di rango ( $\tau = -0.333$ ) in una positiva ( $\tau = 0.083$ ).
- Questo dimostra che il ragionamento agentic risolve meglio i conflitti nell'ordinamento delle sequenze rispetto ai metodi basati su feature fisse.

Task 2: ID Glossing (Dataset ASLCitizen)

Obiettivo: Ridurre la frammentazione dei cluster visivi raggruppando varianti fonologicamente simili.
Risultati:
- Riduzione della frammentazione: SignAgent ha ridotto il numero medio di ID per gloss da 4.81 (baseline SignRep) a 2.30.
- Qualità del Cluster: Miglioramento significativo delle metriche di coesione e separazione (Silhouette coefficient da -0.04 a 0.06; Calinski-Harabasz da 6.75 a 7.58).
- Analisi Qualitativa: SignAgent è riuscito a fondere cluster che SignRep aveva separato erroneamente a causa di variazioni visive, grazie all'uso di vincoli fonologici (es. stessa forma della mano e movimento).

5. Significato e Impatto

Scalabilità Linguistica: SignAgent offre un approccio scalabile per creare dataset annotati linguisticamente, superando il collo di bottiglia dell'annotazione manuale.
Grounding Linguistico: A differenza dei modelli generativi puri che producono descrizioni testuali generiche, SignAgent è vincolato a strutture linguistiche reali (fonologia, lessico), rendendo le annotazioni affidabili per la ricerca linguistica e l'addestramento di modelli di traduzione.
Strumento di Supporto: Il sistema non sostituisce il giudizio degli esperti umani, ma funge da collaboratore scalabile e auditabile per linguisti e curatori di dataset, riducendo i tempi di lavoro e aumentando la consistenza.
Limitazioni e Futuro: Il framework dipende ancora dalle risorse lessicali esistenti e non cattura pienamente la struttura non manuale e prosodica. I prossimi passi includono l'estensione a lingue dei segni a risorse limitate e l'integrazione di analisi morfo-sintattiche.

In sintesi, il paper dimostra che l'integrazione di LLM con strumenti specializzati e grafi della conoscenza rappresenta un salto qualitativo fondamentale per l'elaborazione computazionale delle lingue dei segni, passando da una semplice riconoscimento visivo a una vera comprensione linguistica strutturata.