SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Ce papier présente SignAgent, un cadre novateur utilisant des modèles de langage agissants pour automatiser l'annotation linguistique et la curation de jeux de données en langue des signes, surmontant ainsi les limites des méthodes traditionnelles en termes d'échelle et de précision phonologique.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden

Publié 2026-03-20
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🤖 SignAgent : Le Traducteur-Enquêteur pour la Langue des Signes

Imaginez que la Langue des Signes (comme la LSF ou l'ASL) est un langage très complexe, écrit non pas avec des mots sur du papier, mais avec tout le corps : les mains, les bras, le visage, et même la vitesse des mouvements. C'est comme une danse où chaque geste a un sens précis.

Le problème actuel ? Les ordinateurs sont très forts pour "voir" les vidéos, mais ils sont souvent bavards et imprécis. Ils disent "c'est un mouvement de main", mais ils ne comprennent pas quel mot cela représente, ni les subtilités grammaticales. De plus, pour apprendre aux ordinateurs, il faut que des humains annotent des heures de vidéos, ce qui prend un temps fou (plus d'une heure de travail pour une minute de vidéo !). C'est comme essayer de remplir un océan avec une petite cuillère.

SignAgent est la solution proposée par les chercheurs. C'est un nouveau type d'intelligence artificielle qui ne se contente pas de "regarder" la vidéo, mais qui réfléchit comme un linguiste expert.


🧩 Comment ça marche ? L'analogie du Chef d'Orchestre et de la Bibliothèque

Pour comprendre SignAgent, imaginez une équipe de deux personnes très spécialisées travaillant dans un bureau rempli d'outils :

1. Le Chef d'Orchestre (L'Orchestrator)

C'est le cerveau du système. Imaginez un chef d'orchestre très intelligent qui ne joue pas d'instrument lui-même, mais qui sait exactement quel instrument faire jouer à quel moment.

  • Son rôle : Il reçoit une vidéo de quelqu'un qui signe. Il ne devine pas le mot. Au lieu de ça, il dit : "Attends, je vais utiliser l'outil A pour regarder la forme de la main, l'outil B pour analyser le mouvement, et l'outil C pour vérifier la position."
  • Il coordonne tout cela étape par étape, comme un détective qui rassemble des indices avant de conclure.

2. La Bibliothèque Magique (SignGraph)

C'est la base de connaissances. Imaginez une bibliothèque géante qui contient non seulement un dictionnaire, mais aussi les règles de grammaire, les différentes façons de faire un signe (par exemple, le signe "basket" peut se faire avec une main ou deux), et les liens entre les mots.

  • Quand le Chef d'Orchestre a un doute, il va consulter cette bibliothèque pour vérifier : "Est-ce que ce mouvement correspond bien au mot 'pomme' ou à 'poire' ?"

3. La Boîte à Outils (Les "Tools")

Entre le Chef et la Bibliothèque, il y a une boîte à outils remplie de petits robots spécialisés :

  • Un robot qui ne regarde que la forme des mains.
  • Un autre qui analyse la trajectoire des poignets.
  • Un troisième qui repère la main se trouve (près du visage, sur la poitrine, etc.).

🎯 Les Deux Missions de SignAgent

Le papier teste ce système sur deux tâches principales, que l'on peut comparer à deux jeux différents :

Mission 1 : Le Puzzle des Mots (Annotation "Pseudo-gloss")

Imaginez que vous avez une vidéo d'une phrase signée et sa traduction écrite en français. Le but est de dire : "Ce geste correspond au mot 'chat', celui-ci à 'manger', et celui-là à 'bon'".

  • Avant SignAgent : L'ordinateur essayait de deviner directement, souvent en se trompant d'ordre ou en inventant des mots.
  • Avec SignAgent : Le Chef d'Orchestre prend la liste des mots possibles (le puzzle), regarde les indices visuels (forme, mouvement), consulte la bibliothèque, et assemble les pièces dans le bon ordre. C'est comme si on lui donnait les pièces du puzzle et qu'il les rangeait dans la bonne case grâce à sa logique.

Mission 2 : Le Tri des Jumelles (ID Glossing)

Parfois, le même mot peut être signé de plusieurs façons légèrement différentes (par exemple, avec la main gauche ou la droite, ou un peu plus vite). Ce sont des "variantes" du même mot.

  • Le problème : Les ordinateurs classiques voient ces différences et pensent que ce sont deux mots différents. Ils créent trop de catégories inutiles.
  • La solution SignAgent : Le système regarde les vidéos, les regroupe par ressemblance visuelle, puis demande à la Bibliothèque : "Est-ce que ces deux groupes sont vraiment différents ou juste des variantes du même mot ?"
  • Résultat : Au lieu d'avoir 5 catégories pour le mot "basket", SignAgent en regroupe intelligemment en 2 ou 3, en comprenant que c'est le même concept, peu importe si la main est gauche ou droite.

🌟 Pourquoi c'est important ?

C'est un peu comme passer d'un traducteur automatique basique (qui fait des erreurs grossières) à un interprète humain expérimenté qui comprend le contexte.

  • Gain de temps : Au lieu que des humains annotent des milliers d'heures de vidéos, SignAgent peut le faire beaucoup plus vite, en gardant une haute qualité.
  • Compréhension réelle : Il ne se contente pas de reconnaître des formes, il comprend la linguistique (la grammaire et les règles) derrière les gestes.
  • Transparence : Contrairement aux "boîtes noires" où l'on ne sait pas pourquoi l'IA a pris une décision, SignAgent laisse une trace de son raisonnement. On peut voir : "J'ai choisi ce mot parce que la forme de la main correspondait à 90% et le mouvement à 80%".

En résumé

SignAgent, c'est l'histoire d'une intelligence artificielle qui a décidé d'arrêter de deviner et de commencer à raisonner. En combinant la puissance de réflexion des grands modèles de langage (LLM) avec des outils spécialisés pour analyser les gestes et une base de connaissances linguistiques, elle permet de créer des bases de données de langue des signes beaucoup plus riches, précises et utiles pour l'avenir.

C'est un pas de géant pour rendre la langue des signes accessible aux ordinateurs, tout en respectant sa richesse et sa complexité humaine.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →