Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

Questo articolo presenta un'indagine pilota sulla creazione e gestione del corpus multimodale "Gest-IT", che attraverso un'annotazione a tre livelli (ortografica, prosodica e gestuale) permette di analizzare le variazioni dei gesti nelle conversazioni tra persone vedenti e ipovedenti, proponendo infine un corpus unificato in formato CoNLL-U.

Ludovica Pannitto, Lorenzo Albanesi, Laura Marion, Federica Maria Martines, Carmelo Caruso, Claudia S. Bianchini, Francesca Masini, Caterina Mauri

Pubblicato 2026-03-20
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Teatro della Conversazione: Quando le Mani Parlano (e non solo la bocca)

Immagina che una conversazione sia come un film.
Di solito, quando guardiamo un film, ci concentriamo solo sul dialogo (i sottotitoli o la voce degli attori). Ma nella vita reale, la storia non è raccontata solo dalle parole. È raccontata anche dai sorrisi, dai sospiri, dal modo in cui ci sediamo e, soprattutto, dai gesti delle mani.

Il progetto Gest-IT è come un nuovo tipo di "regista" che vuole fare qualcosa di mai fatto prima per la lingua italiana: vuole registrare non solo le parole, ma anche tutto il "corpo" che le accompagna, creando un archivio speciale per capire come parliamo quando siamo ciechi o vedenti.

🎥 Il Problema: Il "Film" Muto

Fino a oggi, i linguisti avevano due problemi grossi:

  1. I sottotitoli erano solo parole: I testi scritti non catturano la ricchezza dei gesti.
  2. Non c'era un "alfabeto" per i gesti: Se qualcuno alza una spalla, come lo scriviamo? "Spalla su"? O "Gesto di dubbio"? Finora, gli studiosi scrivevano i gesti basandosi su cosa significavano (es. "sta dicendo di no"), non su come erano fatti fisicamente (es. "la spalla destra si alza di 3 centimetri"). È come descrivere un'azione di un film scrivendo "l'eroe è coraggioso" invece di "l'eroe ha estratto la spada".

🧪 L'Esperimento: Il Set Cinematografico

Gli autori del paper hanno creato un piccolo set cinematografico all'Università di Bologna. Hanno messo insieme persone vedenti e persone non vedenti (cieche dalla nascita, acquisite o ipovedenti) per farle chiacchierare per 30 minuti.

Per rendere la cosa davvero interessante, hanno usato due trucchi da regista:

  • La "Maschera" (Back-to-back): A volte facevano sedere le persone schiena contro schiena. In questo modo, chi vedeva non poteva vedere i gesti dell'altro, e chi era non vedente non poteva "sentire" di essere osservato. Era come se parlassero al telefono, ma di persona.
  • Senza Maschera (Faccia a faccia): Altre volte si guardavano negli occhi, come in una normale conversazione.

L'obiettivo? Capire: i gesti cambiano se so che l'altro non mi vede? E i gesti delle persone non vedenti sono diversi da quelli delle persone vedenti?

🛠️ La Tecnologia: Il "Trifoglio" a Tre Foglie

Per analizzare queste conversazioni, hanno costruito un sistema a tre strati (come un panino o un trifoglio), tutto sincronizzato al secondo:

  1. Il Testo (Le Parole): Cosa è stato detto esattamente.
  2. La Musica (L'Intonazione): Come è stato detto (veloce, lento, con pause, con la voce che sale o scende).
  3. Il Corpo (I Gesti): Qui sta la vera novità. Invece di scrivere "ha fatto un gesto di saluto", usano un sistema chiamato Typannot.

L'analogia del Typannot:
Immagina di dover descrivere un movimento del corpo come se fosse una partitura musicale o un codice a barre.
Il sistema Typannot non guarda il "significato" (es. "saluto"), ma guarda le parti del corpo (dita, braccia, testa, spalle) e descrive il loro movimento preciso, come se fosse un robot che si muove.

  • Esempio: Invece di scrivere "ha alzato il pollice", il sistema scrive: "Dito indice della mano destra: movimento verso l'alto". Questo permette di studiare i gesti in modo "oggettivo", senza pregiudizi su cosa significhino.

📂 Il Risultato: Un Archivio Digitale Intelligente

Tutti questi dati (video, audio, testo, intonazione e codice dei gesti) sono stati messi in un unico file digitale speciale (chiamato CoNLL-U).
È come se avessero creato un database super-potente dove, cliccando su una parola, puoi vedere immediatamente:

  • Chi l'ha detta.
  • Con quale tono di voce.
  • Cosa stava facendo la sua mano in quel preciso millisecondo.

🚀 Cosa Succede Ora?

Il paper è un "pilot", cioè una prima esplorazione. Hanno già registrato e iniziato a trascrivere alcune ore di conversazione.
Il passo successivo è completare tutto il lavoro, assicurarsi che i dati siano anonimi (per proteggere la privacy dei partecipanti) e rendere questo "panino a tre strati" disponibile a tutti i ricercatori.

In sintesi:
Il progetto Gest-IT vuole insegnarci che la comunicazione è un'orchestra completa, non solo un solista che parla. Creando un archivio dove le parole, la voce e i gesti sono annotati con precisione chirurgica, ci aiutano a capire meglio come funziona la nostra umanità, specialmente quando le capacità visive cambiano. È come se finalmente avessimo imparato a leggere non solo le parole, ma anche il linguaggio segreto del nostro corpo.