SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

O artigo apresenta o SignAgent, um novo quadro de trabalho baseado em agentes e modelos de linguagem grandes que supera os gargalos da anotação manual e das limitações do nível de glossa, permitindo a criação escalável e linguisticamente fundamentada de conjuntos de dados de Língua de Sinais através da coordenação de ferramentas linguísticas e de um sistema de conhecimento lexical.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden

Publicado 2026-03-20
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a entender uma língua de sinais, como a Libras ou a ASL. O problema é que a língua de sinais não é apenas "mãos se mexendo"; é uma linguagem complexa cheia de expressões faciais, movimentos específicos, formas das mãos e localização no espaço.

Até agora, fazer um computador entender isso era como tentar montar um quebra-cabeça gigante com as peças espalhadas no chão, sem a caixa de instruções, e com apenas uma pessoa lenta e cansada tentando encaixar cada peça manualmente. Era caro, demorado e cheio de erros.

O que é o SignAgent?

Os pesquisadores criaram o SignAgent, que é como um "Detetive de Língua de Sinais" superinteligente. Em vez de apenas olhar para o vídeo, ele usa uma equipe de especialistas virtuais (que são modelos de Inteligência Artificial) para investigar o que está acontecendo.

Aqui está como funciona, usando analogias do dia a dia:

1. O Chefe de Equipe (O "Orquestrador")

Pense no SignAgent como um maestro de orquestra ou um gerente de projeto. Ele não faz o trabalho braçal sozinho. Ele recebe o vídeo da língua de sinais e decide: "Ok, precisamos saber a forma da mão agora, depois o movimento, depois onde a mão está". Ele chama os outros especialistas para fazerem essa análise.

2. A Biblioteca Viva (O "SignGraph")

O maestro tem acesso a uma biblioteca mágica e viva chamada SignGraph. Não é apenas um dicionário comum; é uma rede de conexões que sabe que "bola de basquete" pode ser feita com uma mão ou duas, e que ambas são a mesma palavra, apenas com variações. Essa biblioteca ajuda o sistema a entender a gramática e a lógica por trás dos sinais, não apenas a imagem.

3. A Equipe de Especialistas (As "Ferramentas")

O maestro chama uma equipe de robôs especialistas para analisar o vídeo:

  • O Analista de Formas: Olha para a mão e diz: "Isso é um 'S' ou um 'O'?"
  • O Analista de Movimento: Diz: "A mão subiu rápido ou desceu devagar?"
  • O Analista de Localização: Diz: "O sinal foi feito perto do rosto ou perto do peito?"

O Grande Truque: Duas Missões Principais

O SignAgent foi testado em duas tarefas importantes, que podem ser comparadas a:

Missão 1: Traduzir o "Rascunho" (Anotação Pseudo-gloss)
Imagine que você tem um vídeo de alguém fazendo sinais e uma frase escrita em português. O computador precisa dizer: "Qual palavra escrita corresponde a qual movimento?"

  • O jeito antigo: O computador tentava adivinhar baseado apenas em como as mãos pareciam, muitas vezes errando a ordem das palavras.
  • O jeito SignAgent: O "Detetive" olha para a frase, chama o especialista de formas e o de movimento, e diz: "Esta palavra escrita combina com este movimento de mão, e aquela outra com aquele movimento". Ele organiza tudo na ordem correta, como se estivesse montando uma frase lógica, garantindo que nada seja inventado.

Missão 2: Agrupar os "Gêmeos" (ID Glossing)
Às vezes, a mesma palavra pode ser feita de formas diferentes. Por exemplo, a palavra "casamento" pode ser feita com a mão direita, esquerda ou ambas. Para um computador, isso parece ser três palavras diferentes.

  • O jeito antigo: O computador criava três grupos separados, achando que eram palavras diferentes.
  • O jeito SignAgent: O sistema olha para os grupos e diz: "Ei, mesmo que a mão seja diferente, o movimento e a forma são quase iguais. Vocês são a mesma palavra!" Ele junta esses grupos confusos em um só, entendendo que são variações da mesma coisa.

Por que isso é incrível?

  1. É mais rápido e barato: O que antes levava horas para um humano fazer, o SignAgent faz em minutos, permitindo criar grandes bancos de dados de línguas de sinais.
  2. É inteligente, não apenas "olhador": Ele entende a gramática (a lógica da língua), não apenas a imagem. Ele sabe que um sinal feito de um jeito diferente ainda pode ter o mesmo significado.
  3. É transparente: Se o SignAgent toma uma decisão, ele deixa um rastro de papel (como um relatório de detetive) mostrando exatamente por que decidiu aquilo. "Juntei esses dois grupos porque a forma da mão e o movimento batem 90%".

Em resumo:
O SignAgent é como dar um "superpoder" de compreensão linguística para a Inteligência Artificial. Ele transforma a tarefa difícil e lenta de ensinar computadores a entender línguas de sinais em um processo organizado, rápido e preciso, ajudando a criar ferramentas melhores para surdos e para a tecnologia no futuro. É um assistente que não substitui o linguista humano, mas faz o trabalho pesado para que o humano possa focar no que realmente importa: a precisão e a cultura da língua.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →