Transducing Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un chef cuisinier génial (le modèle de langage, comme GPT ou LLaMA) qui est un expert pour préparer des plats complexes. Cependant, ce chef ne parle que dans un langage très spécifique : il ne donne des instructions que sous forme de codes barres ou de suites de lettres étranges (des "tokens" ou sous-mots).

Le problème ? Vous, le client, ne voulez pas voir ces codes barres. Vous voulez un plat servi sur une assiette propre, avec des mots entiers, des lettres simples, ou même des acides aminés pour la biologie.

C'est là que le papier "Transducing Language Models" (Transduire les modèles de langage) intervient. Il propose une solution élégante pour transformer la sortie du chef sans avoir à le réentraîner.

Voici l'explication simple, avec quelques analogies :

1. Le Problème : Le "Malentendu" de la Langue

Les modèles modernes sont entraînés sur des morceaux de mots (comme "flab" et "berg" pour "flabbergasted"). Si vous demandez au modèle de prédire le mot "flabbergasted" entier, il ne sait pas le faire directement car il n'a jamais vu ce mot comme une seule unité. Il voit seulement les pièces détachées.

Analogie : C'est comme si le chef vous donnait une recette écrite en code Morse, mais que vous aviez besoin d'une recette écrite en français courant. Vous ne pouvez pas simplement lire le code Morse comme du français.

2. La Solution : Le Traducteur Automatique (Le Transducteur)

Au lieu de forcer le chef à réapprendre à parler français (ce qui est long et coûteux), les auteurs ajoutent un traducteur automatique entre le chef et vous.

Ce traducteur est une machine à états finis (un FST). C'est une petite machine très rapide qui suit des règles strictes :

Si le chef dit "flab", le traducteur écrit "flab".
Si le chef dit "berg", le traducteur écrit "berg".
Si le chef dit "asted", le traducteur écrit "asted".
Et hop ! Vous obtenez "flabbergasted".

Mais ce n'est pas si simple. Parfois, le chef peut dire "flab" + "berg" OU "fla" + "bberg" + "asted". Il y a plusieurs façons d'arriver au même mot final.

3. Le Défi : Calculer la Probabilité (La Magie des Mathématiques)

Si le chef dit "flab" avec 50% de chance et "berg" avec 50% de chance, quelle est la probabilité que vous obteniez "flabbergasted" ?

Si vous faites juste la moyenne, vous vous trompez.
Il faut additionner toutes les combinaisons possibles qui mènent à "flabbergasted".

C'est là que l'article devient brillant. Ils ont inventé une méthode mathématique pour faire ce calcul sans avoir à lister des milliards de combinaisons (ce qui serait impossible).

L'Analogie du Labyrinthe : Imaginez que le chef est au début d'un labyrinthe géant. Chaque chemin qu'il prend a une certaine probabilité. Votre traducteur (le FST) redessine les murs pour que tous les chemins qui mènent à "flabbergasted" se rejoignent en un seul point à la sortie.
L'algorithme des auteurs est comme un détective super rapide qui parcourt ce labyrinthe, regroupe les chemins qui vont au même endroit, et additionne leurs probabilités instantanément.

4. Les Deux Types de Traducteurs

L'article distingue deux situations :

Le Traducteur Simple (Monotone) : C'est comme un traducteur qui ne fait que changer la casse (majuscules/minuscules) ou convertir des codes. C'est facile, rapide et précis.
- Exemple : Transformer "HELLO" en "hello".
Le Traducteur Complexe (Non-Monotone) : C'est plus dur. Parfois, pour savoir si un point "." doit être collé au mot précédent ou séparé, il faut regarder le mot suivant.
- Exemple : "Dr." (Docteur) vs "3.50" (trois virgule cinquante). Le traducteur doit regarder autour pour savoir comment couper.
- Pour cela, l'algorithme utilise une astuce : il garde une "file d'attente" des possibilités les plus probables et ignore les chemins très improbables (comme un filtre de spam).

5. Pourquoi c'est génial ?

Pas de réentraînement : Vous pouvez prendre un modèle existant (comme LLaMA ou GPT-2) et le rendre capable de parler en "mots entiers" ou en "acides aminés" (pour la biologie) en quelques secondes, juste en ajoutant ce petit traducteur.
Précision : Ils montrent que même avec des approximations (en ignorant les chemins très rares), le résultat est extrêmement proche de la perfection.
Applications :
- NLP : Transformer un modèle qui parle en "morceaux de mots" en un modèle qui parle en "mots entiers" pour la psycholinguistique.
- Biologie : Transformer un modèle qui lit l'ADN (A, C, G, T) en un modèle qui prédit les protéines (les acides aminés), ce qui est crucial pour la médecine.

En Résumé

Imaginez que vous avez un chef étoilé qui ne parle qu'en "codes-barres". Au lieu de le renvoyer à l'école pour apprendre le français, vous lui donnez un traducteur intelligent (le transducteur) qui convertit ses codes-barres en mots français en temps réel, tout en calculant exactement la probabilité que chaque mot soit correct.

C'est une méthode modulaire, rapide et élégante pour adapter l'intelligence artificielle à n'importe quel besoin, sans avoir à tout reconstruire de zéro.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Décalage de Chaînes (String Mismatch Problem)

Les modèles de langage (LM) modernes définissent des distributions de probabilité sur des chaînes de caractères, mais ces chaînes sont souvent générées sous une forme qui ne correspond pas aux besoins des applications en aval. Ce phénomène est appelé le problème du décalage de chaînes.

Exemples concrets :
- Les modèles de langage naturels génèrent souvent des chaînes encodées par paires de bytes (BPE), alors que certaines tâches (comme la psycholinguistique ou la correction orthographique) nécessitent des prédictions au niveau des mots ou des caractères bruts.
- Les modèles de génomique (ADN) génèrent des séquences de nucléobases, tandis que de nombreuses applications biologiques nécessitent des séquences d'acides aminés (protéines).
Limites des approches actuelles : Les praticiens utilisent souvent des post-traitements ad hoc (comme la normalisation ou la mappage de tokens). Cependant, bien que l'échantillonnage (sampling) reste simple, d'autres opérations deviennent intracalculables (intractables) : calculer la probabilité d'une chaîne transformée ou conditionner la génération sur une sortie transformée. Par exemple, convertir la distribution d'un modèle BPE en une distribution sur des mots minuscules n'est pas trivial car une seule chaîne de sortie peut provenir d'un nombre exponentiel de chaînes de tokens sources.

2. Méthodologie : Modèles de Langage Transduits via Transducteurs

Les auteurs proposent un cadre formel pour traiter les transformations de chaînes comme un composant de premier ordre du pipeline de modélisation, sans avoir besoin de réentraîner le modèle.

Concept Fondamental

Ils définissent un modèle de langage transduit ( $p_Y$ ) obtenu en appliquant une transformation déterministe $f$ (encodée par un transducteur à états finis ou FST) à un modèle source ( $p_X$ ).

Formellement : Si $X \sim p_X$ , alors $Y = f(X) \sim p_Y$ .
La probabilité d'une chaîne cible $y$ est la somme des probabilités de toutes les chaînes sources $x$ qui se mappent sur $y$ : $p_Y(y) = \sum_{x \in f^{-1}(y)} p_X(x)$ .

Algorithme de Décomposition (Quotient et Reste)

Le défi principal est de calculer efficacement les probabilités préfixes $\vec{p}_Y(y)$ pour permettre une génération autoregressive. Les auteurs introduisent une méthode pour décomposer l'ensemble des préimages (le "précover" $P(y)$ ) en deux parties disjointes :

Le Quotient ( $Q(y)$ ) : Un ensemble de chaînes sources dont toutes les extensions se mappent sur le préfixe cible $y$ . Pour ces chaînes, on peut utiliser la probabilité préfixe du modèle source ( $\vec{p}_X$ ).
Le Reste ( $R(y)$ ) : Un ensemble de chaînes sources qui se mappent exactement sur $y$ (ou le couvrent), mais dont certaines extensions ne le font plus. Pour ces chaînes, on doit utiliser la probabilité de chaîne complète ( $p_X$ ).

La probabilité préfixe cible est alors calculée comme :
$\vec{p}_Y(y) = \sum_{x \in Q(y)} \vec{p}_X(x) + \sum_{x \in R(y)} p_X(x)$

Algorithmes et Optimisations

Pour rendre ce calcul réalisable, les auteurs développent plusieurs algorithmes :

Décomposition exacte : Utilisation d'une recherche en largeur (BFS) sur l'espace des états du transducteur pour identifier les éléments du quotient et du reste.
Frontières (Frontiers) : Au lieu de construire explicitement le DFA déterminisé (coûteux), ils utilisent une structure de données appelée "frontière" qui suit les états du transducteur et les tampons de sortie partiels de manière paresseuse (lazy).
Élagage (Pruning) : Pour les cas où la décomposition est trop grande, ils proposent une stratégie d'élagage basée sur la masse de probabilité. On ne garde que les candidats les plus probables jusqu'à ce que la masse cumulée dépasse un seuil $\tau$ , fournissant une approximation contrôlée.
Raccourcis structurels : Ils identifient des conditions (comme l'universalité de la projection d'entrée des états) permettant de sauter des vérifications coûteuses, accélérant considérablement le processus pour certains types de transducteurs (ex: BPE vers bytes).

3. Contributions Clés

Cadre Théorique Général : Formalisation de la transformation de modèles de langage via des transducteurs, généralisant les travaux précédents qui se limitaient souvent à des transformations strictement monotones (comme BPE vers caractères).
Algorithmes Efficaces : Développement d'algorithmes exacts et approchés pour calculer les distributions conditionnelles et les probabilités de chaînes sur les sorties transformées, sans modifier les paramètres du modèle source.
Interface Autoregressive : Démonstration que les modèles transduits peuvent être équipés d'une interface autoregressive standard (distributions de prochains symboles, probabilités de préfixes), les rendant compatibles avec n'importe quel système de génération standard.
Conditions de Finitude : Analyse théorique des conditions sous lesquelles la décomposition est finie (notamment via la notion de "sécurité" des états du transducteur).

4. Résultats Expérimentaux

Les auteurs ont évalué leur approche sur trois domaines distincts en utilisant des modèles pré-entraînés (GPT-2, LLaMA 3, Phi-4) :

Tokens vers Bytes : Conversion de modèles générant des tokens BPE en modèles générant des bytes bruts.
- Résultat : L'approche approche très bien la distribution de référence (JSD faible) avec un coût computationnel raisonnable, surpassant ou égalant les méthodes spécialisées existantes tout en étant plus générale.
Tokens vers Mots (Penn Treebank) : Conversion en mots orthographiques avec une segmentation contextuelle complexe (gestion des virgules, points, abréviations).
- Résultat : Bien que la décomposition soit plus complexe (présence d'un "reste" non vide), l'approximation par élagage permet d'obtenir de bons résultats avec une perte de précision minime.
ADN vers Acides Aminés : Conversion de séquences d'ADN (4 nucléotides) en séquences de protéines (20 acides aminés).
- Résultat : Malgré l'explosion combinatoire inhérente à la traduction (3 bases pour 1 acide aminé), l'algorithme gère efficacement le problème grâce à l'élagage, permettant d'adapter des modèles de génomique à des tâches protéiques.

Performance : Les expériences montrent qu'un élagage modéré (par exemple $\tau = 10^{-3}$ ) suffit pour obtenir des estimations précises (JSD très faible) à une fraction du coût computationnel de l'exhaustivité.

5. Signification et Impact

Ce travail est significatif car il résout le problème de l'incompatibilité des unités de tokenisation dans l'IA moderne sans nécessiter de réentraînement coûteux des modèles.

Réutilisabilité des Modèles : Il permet de réutiliser des modèles de langage puissants (entraînés sur des tokens BPE) pour des tâches nécessitant des unités spécifiques (bytes, mots, acides aminés) en les "transduisant" à l'inférence.
Précision Théorique : Contrairement aux post-traitements heuristiques, cette méthode garantit que les probabilités sont correctement marginalisées sur toutes les sources possibles, préservant la cohérence probabiliste du modèle.
Applications Futures : Le cadre ouvre la voie à des applications en psycholinguistique (mesure précise de la surprise au niveau des mots), en biologie computationnelle, et dans tout domaine où la granularité de sortie doit être contrôlée dynamiquement.

En résumé, les auteurs transforment la transformation de chaînes d'un problème d'ingénierie ad hoc en un problème mathématique bien posé et résoluble, offrant un outil puissant pour l'adaptation flexible des grands modèles de langage.