SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a entender uma língua de sinais, como a Libras ou a ASL. O problema é que a língua de sinais não é apenas "mãos se mexendo"; é uma linguagem complexa cheia de expressões faciais, movimentos específicos, formas das mãos e localização no espaço.

Até agora, fazer um computador entender isso era como tentar montar um quebra-cabeça gigante com as peças espalhadas no chão, sem a caixa de instruções, e com apenas uma pessoa lenta e cansada tentando encaixar cada peça manualmente. Era caro, demorado e cheio de erros.

O que é o SignAgent?

Os pesquisadores criaram o SignAgent, que é como um "Detetive de Língua de Sinais" superinteligente. Em vez de apenas olhar para o vídeo, ele usa uma equipe de especialistas virtuais (que são modelos de Inteligência Artificial) para investigar o que está acontecendo.

Aqui está como funciona, usando analogias do dia a dia:

1. O Chefe de Equipe (O "Orquestrador")

Pense no SignAgent como um maestro de orquestra ou um gerente de projeto. Ele não faz o trabalho braçal sozinho. Ele recebe o vídeo da língua de sinais e decide: "Ok, precisamos saber a forma da mão agora, depois o movimento, depois onde a mão está". Ele chama os outros especialistas para fazerem essa análise.

2. A Biblioteca Viva (O "SignGraph")

O maestro tem acesso a uma biblioteca mágica e viva chamada SignGraph. Não é apenas um dicionário comum; é uma rede de conexões que sabe que "bola de basquete" pode ser feita com uma mão ou duas, e que ambas são a mesma palavra, apenas com variações. Essa biblioteca ajuda o sistema a entender a gramática e a lógica por trás dos sinais, não apenas a imagem.

3. A Equipe de Especialistas (As "Ferramentas")

O maestro chama uma equipe de robôs especialistas para analisar o vídeo:

O Analista de Formas: Olha para a mão e diz: "Isso é um 'S' ou um 'O'?"
O Analista de Movimento: Diz: "A mão subiu rápido ou desceu devagar?"
O Analista de Localização: Diz: "O sinal foi feito perto do rosto ou perto do peito?"

O Grande Truque: Duas Missões Principais

O SignAgent foi testado em duas tarefas importantes, que podem ser comparadas a:

Missão 1: Traduzir o "Rascunho" (Anotação Pseudo-gloss)
Imagine que você tem um vídeo de alguém fazendo sinais e uma frase escrita em português. O computador precisa dizer: "Qual palavra escrita corresponde a qual movimento?"

O jeito antigo: O computador tentava adivinhar baseado apenas em como as mãos pareciam, muitas vezes errando a ordem das palavras.
O jeito SignAgent: O "Detetive" olha para a frase, chama o especialista de formas e o de movimento, e diz: "Esta palavra escrita combina com este movimento de mão, e aquela outra com aquele movimento". Ele organiza tudo na ordem correta, como se estivesse montando uma frase lógica, garantindo que nada seja inventado.

Missão 2: Agrupar os "Gêmeos" (ID Glossing)
Às vezes, a mesma palavra pode ser feita de formas diferentes. Por exemplo, a palavra "casamento" pode ser feita com a mão direita, esquerda ou ambas. Para um computador, isso parece ser três palavras diferentes.

O jeito antigo: O computador criava três grupos separados, achando que eram palavras diferentes.
O jeito SignAgent: O sistema olha para os grupos e diz: "Ei, mesmo que a mão seja diferente, o movimento e a forma são quase iguais. Vocês são a mesma palavra!" Ele junta esses grupos confusos em um só, entendendo que são variações da mesma coisa.

Por que isso é incrível?

É mais rápido e barato: O que antes levava horas para um humano fazer, o SignAgent faz em minutos, permitindo criar grandes bancos de dados de línguas de sinais.
É inteligente, não apenas "olhador": Ele entende a gramática (a lógica da língua), não apenas a imagem. Ele sabe que um sinal feito de um jeito diferente ainda pode ter o mesmo significado.
É transparente: Se o SignAgent toma uma decisão, ele deixa um rastro de papel (como um relatório de detetive) mostrando exatamente por que decidiu aquilo. "Juntei esses dois grupos porque a forma da mão e o movimento batem 90%".

Em resumo:
O SignAgent é como dar um "superpoder" de compreensão linguística para a Inteligência Artificial. Ele transforma a tarefa difícil e lenta de ensinar computadores a entender línguas de sinais em um processo organizado, rápido e preciso, ajudando a criar ferramentas melhores para surdos e para a tecnologia no futuro. É um assistente que não substitui o linguista humano, mas faz o trabalho pesado para que o humano possa focar no que realmente importa: a precisão e a cultura da língua.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

As Línguas de Sinais (LS) são linguagens visuais e gestuais ricas, cuja estrutura depende de componentes fonológicos coordenados (forma da mão, movimento, localização, orientação e pistas faciais). A criação de recursos computacionais em larga escala para LS enfrenta dois obstáculos principais:

Limitação dos Métodos Atuais: A maioria das abordagens computacionais opera apenas no nível de "gloss" (rótulos de palavras), ignorando nuances linguísticas cruciais e a estrutura fonológica subjacente.
Gargalo de Anotação Manual: A anotação linguística detalhada é extremamente lenta e cara (mais de uma hora de trabalho para cada minuto de vídeo), tornando inviável a criação de grandes conjuntos de dados fonologicamente conscientes.

O objetivo do trabalho é superar essas barreiras criando um sistema automatizado capaz de realizar raciocínio linguístico sobre sinais multimodais, reduzindo a dependência de anotação manual intensiva.

2. Metodologia: SignAgent

O SignAgent é um framework agencial (baseado em agentes) que utiliza Grandes Modelos de Linguagem (LLMs) para anotação e curadoria de dados de LS. A arquitetura é composta por três componentes principais:

A. SignAgent Orchestrator (Orquestrador)

É um LLM de raciocínio (modelo decoder-only) que atua como o controlador central.
Opera em um ciclo de raciocínio estilo ReAct (Reason-Act): recebe uma entrada, gera um traço de raciocínio, decide invocar uma ferramenta ou consultar uma base de conhecimento, e atualiza seu estado interno.
Gerencia o fluxo de informação, a decomposição de tarefas complexas e a tomada de decisões multietapa.

B. SignGraph (Base de Conhecimento)

Um agente de recuperação aumentada por geração (RAG) baseado em grafos de conhecimento.
Contém dois grafos direcionados:
- LexicalKnowledgeGraph: Nós para itens lexicais (entradas de dicionário) e componentes fonológicos, com arestas definindo suas relações.
- LinguisticKnowledgeGraph: Conceitos linguísticos extraídos de literatura de referência (ex: conceitos centrais, características).
Fornece "grounding" (ancoragem) linguístico e lexical ao orquestrador, permitindo que ele consulte regras e dados fonológicos durante o raciocínio.

C. Ferramentas (Toolset)

O framework utiliza uma hierarquia de ferramentas para analisar vídeos de LS:

Base Tools (Ferramentas Básicas): Realizam análise de baixo nível.
- Classificadores de forma da mão, movimento e localização (baseados em keypoints 3D e transformadas de Fourier).
- Segmentador temporal de gloss.
- Classificador de "Glosser" (recuperação visual via embeddings).
- Lemmatizador de texto (SignLemma) para gerar candidatos de gloss a partir de sentenças faladas.
Enhanced Tools (Ferramentas Aprimoradas): Consomem as saídas das ferramentas básicas e SignGraph para produzir evidências estruturadas prontas para decisão.
- Gloss Evidence Collector: Funde evidência visual e fonológica, gerando listas de candidatos de gloss com pontuações de relevância calibradas.
- Visual ID Glossing: Agrupa embeddings de vídeo para identificar variantes lexicais (ID glosses) dentro de uma mesma categoria semântica.
- Clustered Phonological Analysis: Agrega previsões fonológicas por cluster e calcula sobreposições (Jaccard) para sugerir fusões de clusters linguisticamente consistentes.

3. Tarefas de Avaliação

O framework foi avaliado em duas tarefas principais de anotação:

Anotação de Pseudo-gloss (Pseudo-gloss Annotation):
- Objetivo: Dada uma sentença traduzida e um segmento de vídeo, o agente deve inferir os rótulos de gloss apropriados e ordená-los corretamente no tempo.
- Desafio: O agente não cria novos glosses; ele reordena e seleciona candidatos baseados em evidências multimodais (similaridade visual, sobreposição fonológica, atividade manual e coerência temporal).
- Restrição: O sistema deve garantir a conservação de tokens (não inventar nem deletar palavras).
ID Glossing (Identificação de Variantes Lexicais):
- Objetivo: Refinar clusters visuais de um mesmo gloss para identificar variantes lexicais distintas (ex: "basquete" feito com uma mão vs. duas mãos).
- Processo: O agente analisa clusters visuais iniciais e propõe operações de MERGE (fusão) ou KEEP (manter separação) baseando-se em distância visual, sobreposição fonológica e compatibilidade de lateralidade (mão esquerda/direita).

4. Resultados

Anotação de Pseudo-gloss (Dataset: BSLCorpus)

O SignAgent superou consistentemente as linhas de base (lematização simples e modelos baseados em GBDT sem raciocínio agencial).
Métricas:
- LCS (Longest Common Subsequence): 60,85% (Fair) e 47,02% (Poor), superando a melhor linha de base anterior.
- Correlação de Kendall ( $\tau$ ): 0,374 (Fair) e 0,083 (Poor). O modelo eliminou a correlação negativa observada em casos difíceis nas abordagens anteriores.
Conclusão: O raciocínio agencial multimodal resolveu melhor decisões de reordenação complexas do que pipelines fixos.

ID Glossing (Dataset: ASLCitizen)

Comparado ao SignRep (um codificador visual de última geração), o SignAgent produziu clusters significativamente menos fragmentados e mais coerentes.
Métricas de Cluster:
- IDs por Gloss: Redução de 4,81 (SignRep) para 2,30 (SignAgent), indicando uma estrutura mais compacta e correta.
- Coeficiente de Silhueta: Melhoria de -0,0402 para 0,0582 (melhor separação).
- Calinski-Harabasz: Aumento de 6,75 para 7,58.
Qualidade: O agente conseguiu agrupar variantes que o modelo puramente visual falhou em conectar, graças ao uso de restrições fonológicas (ex: mesma forma de mão e movimento).

5. Contribuições Principais

Primeira Aplicação Agencial: Introdução do uso de raciocínio agencial para anotação e curadoria de dados de LS, combinando evidência multimodal aumentada por ferramentas com recuperação baseada em conhecimento.
Validação em Tarefas Complementares: Demonstração de ganhos incrementais consistentes em duas tarefas críticas (alinhamento de gloss e identificação de variantes) através de uma abordagem de pipeline flexível, superando métodos fixos.
Dados Públicos: Disponibilização dos dados curados resultantes para apoiar pesquisas futuras em LS fundamentadas linguisticamente.

6. Significância e Conclusão

O SignAgent demonstra que os LLMs, quando estruturados como agentes com acesso a ferramentas especializadas e bases de conhecimento linguístico, podem atuar como colaboradores escaláveis e auditáveis para a anotação de línguas de sinais.

Impacto: Reduz drasticamente o custo e o tempo de anotação, permitindo a criação de conjuntos de dados fonologicamente ricos em larga escala.
Limitações: O sistema ainda depende de recursos lexicais existentes e não captura totalmente estruturas não-manuais e prosódicas.
Futuro: O trabalho sugere a expansão para línguas de sinais com poucos recursos, o enriquecimento do conjunto de ferramentas com análise morfo-sintática e a otimização conjunta das ferramentas e do controlador.

Em suma, o SignAgent representa um avanço significativo ao transformar a anotação de LS de um processo puramente manual ou baseado em reconhecimento visual bruto para um processo de raciocínio linguístico estruturado e auditável.