Just Use XML: Revisiting Joint Translation and Label Projection

Ce papier présente LabelPigeon, un cadre novateur utilisant des balises XML pour réaliser simultanément la traduction et la projection d'annotations, démontrant ainsi que cette approche conjointe améliore à la fois la qualité de la traduction et les performances de transfert interlingue sur des tâches comme la reconnaissance d'entités nommées, contrairement aux méthodes précédentes.

Thennal D K, Chris Biemann, Hans Ole Hatzel

Publié 2026-03-13
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Traduire et Étiqueter, c'est comme cuisiner avec les yeux bandés

Imaginez que vous avez un livre de recettes très célèbre écrit en anglais (une langue riche en ressources). Vous voulez le traduire en 200 autres langues pour que tout le monde puisse cuisiner. Mais il y a un hic : dans ce livre, certains ingrédients importants sont entourés de boîtes en carton (les étiquettes) pour dire "Attention, c'est un ingrédient spécial".

Le problème, c'est que les traducteurs automatiques classiques sont très forts pour traduire le texte, mais ils ont tendance à oublier les boîtes en carton ou à les mettre au mauvais endroit quand ils traduisent.

Jusqu'à présent, la méthode habituelle était la suivante :

  1. Le traducteur traduit tout le texte (en oubliant les boîtes).
  2. Un deuxième robot, très lent et compliqué, essaie de deviner où remettre les boîtes en carton dans le texte traduit en regardant les mots un par un.

C'est comme si vous faisiez un gâteau, puis que quelqu'un venait après coup essayer de coller des décorations dessus avec du scotch. Ça marche, mais le gâteau peut être abîmé, et c'est long.

La Solution : LabelPigeon, le Chef qui porte des gants de cuisine

Les auteurs de cet article, Thennal, Chris et Hans, ont dit : "Et si on demandait au traducteur de garder les boîtes en carton pendant qu'il traduit ?"

Ils ont créé un outil appelé LabelPigeon. Voici comment ça marche avec une analogie simple :

Imaginez que vous traduisez un texte, mais que vous utilisez un langage spécial où chaque mot important est entouré de balises XML (comme <pomme>, <poire>, <chocolat>).

Au lieu de traduire le texte puis d'essayer de remettre les étiquettes, LabelPigeon apprend à dire : "Ah, je vois <pomme>, je vais traduire 'pomme' par 'pomme' et je garde la balise <pomme> autour du mot français."

C'est comme si le traducteur portait des gants de cuisine spéciaux : dès qu'il touche un ingrédient étiqueté, il le manipule avec soin pour qu'il arrive intact dans le nouveau pays, tout en traduisant le reste du texte parfaitement.

Pourquoi c'est une révolution ? (La surprise)

Jusqu'à présent, les experts pensaient que mettre des étiquettes dans le texte pendant la traduction était une mauvaise idée. Ils croyaient que ça rendait la traduction moins fluide, comme si on parlait avec un bouchon dans la bouche.

Leur découverte ? C'est faux !
En entraînant le modèle (le "cerveau" de l'ordinateur) avec des textes qui ont déjà ces étiquettes, ils ont vu deux choses incroyables :

  1. Les étiquettes sont parfaites : Elles arrivent exactement au bon endroit, même si elles sont emboîtées les unes dans les autres (comme des poupées russes).
  2. La traduction est MEILLEURE : Paradoxalement, le fait de forcer le modèle à faire attention aux étiquettes l'aide à mieux comprendre la structure de la phrase. C'est comme si le chef, en se concentrant sur les ingrédients spéciaux, cuisinait tout le plat avec plus de précision.

Les Résultats en Bref

Ils ont testé leur méthode sur 200 langues (du swahili au chinois en passant par le tagalog) et sur trois tâches différentes (reconnaître des noms propres, répondre à des questions, comprendre qui parle de qui).

  • Résultat : LabelPigeon bat tous les anciens systèmes.
  • Gain : Sur certaines tâches, ils ont gagné jusqu'à 40 points de plus que les méthodes précédentes. C'est énorme !
  • Vitesse : C'est aussi beaucoup plus rapide car ils n'ont plus besoin de deux robots (un pour traduire, un pour étiqueter). Un seul robot fait tout d'un coup.

En Résumé

Imaginez que vous deviez déménager une maison remplie de meubles fragiles (les étiquettes) dans un autre pays (la traduction).

  • L'ancienne méthode : On déménage tout, puis on essaie de remettre les meubles fragiles à leur place en espérant qu'ils ne sont pas cassés.
  • LabelPigeon : On demande au camion de déménagement de conduire doucement et de garder les meubles fragiles bien attachés pendant tout le trajet.

Le résultat ? La maison arrive intacte, et le trajet a même été plus fluide. C'est une méthode simple, efficace et qui rend les technologies de langage beaucoup plus accessibles pour les langues qui en ont le plus besoin.