Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

O artigo apresenta uma exploração piloto da construção e gestão do corpus multimodal Gest-IT, que utiliza anotações ortográficas, prosódicas e gestuais para investigar padrões de gestos em conversas entre pessoas videntes e com deficiência visual, propondo um formato unificado CoNLL-U e delineando os próximos passos da pesquisa.

Ludovica Pannitto, Lorenzo Albanesi, Laura Marion, Federica Maria Martines, Carmelo Caruso, Claudia S. Bianchini, Francesca Masini, Caterina Mauri

Publicado 2026-03-20
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

🎬 O "Gest-IT": Um Filme com Legendas, Trilha Sonora e Dança

Imagine que você está assistindo a um filme. Normalmente, você vê os atores falando e talvez leia as legendas. Mas e se o filme também tivesse uma "camada" invisível mostrando exatamente como eles se movem, como a voz sobe e desce, e o que os gestos das mãos significam?

O artigo que você leu apresenta o Gest-IT, um projeto da Universidade de Bolonha (Itália) que está criando exatamente isso: um arquivo de conversas "multimodais".

Em vez de apenas gravar o que as pessoas dizem (o áudio), eles estão gravando tudo: a fala, o tom de voz, as expressões faciais e, principalmente, os gestos.

🎭 O Grande Experimento: Quem está na Cena?

A ideia genial do projeto é comparar dois tipos de "atores" em uma conversa:

  1. Pessoas que enxergam.
  2. Pessoas com deficiência visual (cegas ou com baixa visão).

Eles colocaram essas pessoas para conversar em pares. O objetivo? Descobrir se o fato de você ver a outra pessoa (ou não) muda a forma como você usa as mãos para falar. É como se quisessem saber: "Se eu não puder ver o meu amigo, vou gesticular mais ou menos?"

Para tornar isso ainda mais interessante, eles criaram cenários diferentes:

  • Frente a frente: Ambos se veem.
  • Costas um para o outro: Eles conversam, mas não podem ver os gestos do outro (como se estivessem em um túnel sem espelhos).

📝 A "Receita" do Projeto: As 3 Camadas

A parte mais difícil desse projeto é como organizar essa bagunça de informações. O time decidiu que não basta apenas transcrever o texto. Eles criaram um sistema de 3 camadas de anotação, como se fosse uma lasanha de dados:

  1. A Camada da Palavra (Ortográfica): O que foi dito. "Olá, como vai?".
  2. A Camada da Voz (Prosódica): Como foi dito. A voz subiu? Desceu? Houve uma pausa? Alguém falou mais rápido? Eles usam símbolos especiais (como : para alongar uma vogal) para capturar a "música" da fala.
  3. A Camada do Corpo (Gestual): O que as mãos e o corpo fizeram. Aqui está a grande inovação.

🤖 O "Tradutor" de Gestos: Typannot

Antigamente, quando alguém descrevia um gesto, dizia algo como: "Ele fez um gesto de 'tudo bem' com a mão". O problema é que isso é uma interpretação. O que é "tudo bem" para um pode ser diferente para outro.

O Gest-IT quer ser mais "científico" e "objetivo". Eles estão usando um sistema chamado Typannot.

  • A Analogia: Pense no Typannot como um alfabeto para o corpo, assim como o alfabeto latino é para a fala.
  • Em vez de dizer "ele levantou a mão", o sistema descreve: "o dedo indicador da mão direita se moveu para cima, enquanto o ombro esquerdo ficou relaxado".
  • Isso permite que os computadores e pesquisadores analisem os gestos sem depender do que eles "significam" na cabeça de quem observa. É como descrever a dança de um bailarino passo a passo, em vez de apenas dizer "ele dançou bonito".

🛠️ Por que isso é importante?

Hoje, a maioria dos arquivos de linguagem (corpora) são apenas textos escritos. Eles são ótimos para estudar gramática, mas péssimos para entender como a comunicação humana funciona de verdade, porque nós não somos robôs que só falam. Nós usamos o corpo todo.

O Gest-IT quer preencher essa lacuna. Eles estão criando um banco de dados onde você pode:

  • Ouvir a conversa.
  • Ver o vídeo.
  • Ler a transcrição do texto.
  • Ler a transcrição dos gestos (como se fosse uma partitura musical para o corpo).

🚀 O Futuro

O projeto ainda está no início (é um "piloto"). Eles já gravaram cerca de 7 horas de conversas entre 14 pessoas (8 videntes e 6 com deficiência visual). Agora, o trabalho duro começa: transcrever tudo manualmente, garantir que os dados estejam organizados e preparar esse "tesouro" para que outros cientistas possam usá-lo.

Em resumo: O Gest-IT é como estar construindo a primeira biblioteca onde os livros não são apenas palavras, mas sim conversas completas, onde você pode "ler" o que as mãos disseram, ouvindo o que a boca falou, tudo ao mesmo tempo.