Transducing Language Models

Cet article propose un cadre général et des algorithmes efficaces pour transformer des modèles de langage préentraînés en nouveaux modèles fonctionnels via des transducteurs à états finis, permettant d'adapter leurs sorties à des formats spécifiques (comme les mots ou les protéines) sans modifier leurs paramètres internes.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un chef cuisinier génial (le modèle de langage, comme GPT ou LLaMA) qui est un expert pour préparer des plats complexes. Cependant, ce chef ne parle que dans un langage très spécifique : il ne donne des instructions que sous forme de codes barres ou de suites de lettres étranges (des "tokens" ou sous-mots).

Le problème ? Vous, le client, ne voulez pas voir ces codes barres. Vous voulez un plat servi sur une assiette propre, avec des mots entiers, des lettres simples, ou même des acides aminés pour la biologie.

C'est là que le papier "Transducing Language Models" (Transduire les modèles de langage) intervient. Il propose une solution élégante pour transformer la sortie du chef sans avoir à le réentraîner.

Voici l'explication simple, avec quelques analogies :

1. Le Problème : Le "Malentendu" de la Langue

Les modèles modernes sont entraînés sur des morceaux de mots (comme "flab" et "berg" pour "flabbergasted"). Si vous demandez au modèle de prédire le mot "flabbergasted" entier, il ne sait pas le faire directement car il n'a jamais vu ce mot comme une seule unité. Il voit seulement les pièces détachées.

  • Analogie : C'est comme si le chef vous donnait une recette écrite en code Morse, mais que vous aviez besoin d'une recette écrite en français courant. Vous ne pouvez pas simplement lire le code Morse comme du français.

2. La Solution : Le Traducteur Automatique (Le Transducteur)

Au lieu de forcer le chef à réapprendre à parler français (ce qui est long et coûteux), les auteurs ajoutent un traducteur automatique entre le chef et vous.

Ce traducteur est une machine à états finis (un FST). C'est une petite machine très rapide qui suit des règles strictes :

  • Si le chef dit "flab", le traducteur écrit "flab".
  • Si le chef dit "berg", le traducteur écrit "berg".
  • Si le chef dit "asted", le traducteur écrit "asted".
  • Et hop ! Vous obtenez "flabbergasted".

Mais ce n'est pas si simple. Parfois, le chef peut dire "flab" + "berg" OU "fla" + "bberg" + "asted". Il y a plusieurs façons d'arriver au même mot final.

3. Le Défi : Calculer la Probabilité (La Magie des Mathématiques)

Si le chef dit "flab" avec 50% de chance et "berg" avec 50% de chance, quelle est la probabilité que vous obteniez "flabbergasted" ?

  • Si vous faites juste la moyenne, vous vous trompez.
  • Il faut additionner toutes les combinaisons possibles qui mènent à "flabbergasted".

C'est là que l'article devient brillant. Ils ont inventé une méthode mathématique pour faire ce calcul sans avoir à lister des milliards de combinaisons (ce qui serait impossible).

  • L'Analogie du Labyrinthe : Imaginez que le chef est au début d'un labyrinthe géant. Chaque chemin qu'il prend a une certaine probabilité. Votre traducteur (le FST) redessine les murs pour que tous les chemins qui mènent à "flabbergasted" se rejoignent en un seul point à la sortie.
  • L'algorithme des auteurs est comme un détective super rapide qui parcourt ce labyrinthe, regroupe les chemins qui vont au même endroit, et additionne leurs probabilités instantanément.

4. Les Deux Types de Traducteurs

L'article distingue deux situations :

  • Le Traducteur Simple (Monotone) : C'est comme un traducteur qui ne fait que changer la casse (majuscules/minuscules) ou convertir des codes. C'est facile, rapide et précis.
    • Exemple : Transformer "HELLO" en "hello".
  • Le Traducteur Complexe (Non-Monotone) : C'est plus dur. Parfois, pour savoir si un point "." doit être collé au mot précédent ou séparé, il faut regarder le mot suivant.
    • Exemple : "Dr." (Docteur) vs "3.50" (trois virgule cinquante). Le traducteur doit regarder autour pour savoir comment couper.
    • Pour cela, l'algorithme utilise une astuce : il garde une "file d'attente" des possibilités les plus probables et ignore les chemins très improbables (comme un filtre de spam).

5. Pourquoi c'est génial ?

  • Pas de réentraînement : Vous pouvez prendre un modèle existant (comme LLaMA ou GPT-2) et le rendre capable de parler en "mots entiers" ou en "acides aminés" (pour la biologie) en quelques secondes, juste en ajoutant ce petit traducteur.
  • Précision : Ils montrent que même avec des approximations (en ignorant les chemins très rares), le résultat est extrêmement proche de la perfection.
  • Applications :
    • NLP : Transformer un modèle qui parle en "morceaux de mots" en un modèle qui parle en "mots entiers" pour la psycholinguistique.
    • Biologie : Transformer un modèle qui lit l'ADN (A, C, G, T) en un modèle qui prédit les protéines (les acides aminés), ce qui est crucial pour la médecine.

En Résumé

Imaginez que vous avez un chef étoilé qui ne parle qu'en "codes-barres". Au lieu de le renvoyer à l'école pour apprendre le français, vous lui donnez un traducteur intelligent (le transducteur) qui convertit ses codes-barres en mots français en temps réel, tout en calculant exactement la probabilité que chaque mot soit correct.

C'est une méthode modulaire, rapide et élégante pour adapter l'intelligence artificielle à n'importe quel besoin, sans avoir à tout reconstruire de zéro.