TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

Each language version is independently generated for its own context, not a direct translation.

🧠 TITOK : Le "Greffe de Savoir" pour les Intellects Artificiels

Imaginez que vous avez un chef cuisinier expert (le modèle source) qui a passé des années à apprendre à faire le meilleur gâteau du monde grâce à un petit carnet de recettes spécial (ce qu'on appelle un LoRA). Ce carnet est très efficace, mais il est collé au tablier du chef. Si vous voulez apprendre à un nouveau chef (le modèle cible) à faire ce même gâteau, vous ne pouvez pas simplement lui donner le carnet de l'ancien chef, car il ne s'adapte pas à son style ou à sa cuisine.

C'est là que le problème commence : comment transférer le savoir d'un expert à un autre sans tout réapprendre de zéro ?

La méthode TITOK (Transfert de Connaissance au Niveau des Jetons) propose une solution élégante, comme une greffe chirurgicale précise.

1. Le Problème : Le "Carnet de Recettes" est trop lourd

Habituellement, pour apprendre à un nouveau chef, on lui donne des milliers d'exemples de gâteaux (des données). Mais souvent, on n'a pas ces exemples, ou ils sont trop chers à obtenir.
Une autre méthode existante (TransLoRA) essaie de créer des gâteaux imaginaires (des données synthétiques) pour l'entraînement, mais elle a besoin d'un troisième juge (un discriminateur) pour vérifier si ces gâteaux imaginaires sont bons. C'est lourd, coûteux et compliqué.

2. La Solution TITOK : L'Art de la "Surprise"

TITOK change la donne. Au lieu de tout transférer, il ne transfère que l'essentiel. Voici comment cela fonctionne, étape par étape, avec une analogie simple :

Étape A : La Création d'Exercices (Données Synthétiques)
Le chef expert (avec son carnet LoRA) imagine des exercices de cuisine. Il écrit une question ("Comment faire une meringue ?") et la réponse parfaite.

Étape B : Le Test de "Surprise" (Le Cœur de TITOK)
C'est ici que la magie opère. TITOK compare deux versions du chef :

Le Chef Débutant (le modèle de base, sans le carnet LoRA).
Le Chef Expert (le même modèle, mais avec le carnet LoRA).

On leur pose la même question.

Si le Débutant et l'Expert donnent la même réponse, c'est que le débutant le sait déjà. Pas besoin d'apprendre ça.
Mais si le Débutant hésite ("Je ne sais pas...") et que l'Expert répond avec une certitude absolue ("Il faut battre les blancs en neige !"), c'est là que se trouve le savoir précieux.

TITOK mesure cette "surprise" ou cet écart (ce qu'ils appellent l'excess score). Plus l'écart est grand, plus le mot (ou le "jeton") est important. C'est comme si le chef expert disait : "Attends, le débutant a raté ce mot précis. C'est là que réside le secret de la recette."

Étape C : Le Tri Sélectif (Le Filtre Intelligent)
Au lieu d'apprendre tout le texte de l'expert, le nouveau chef ne se concentre que sur les mots où l'écart était le plus grand.

Imaginez que vous apprenez une langue. Vous ne mémorisez pas chaque mot d'un livre. Vous vous concentrez sur les mots de vocabulaire nouveaux et les règles de grammaire qui vous ont fait dire : "Ah ! C'est ça que je ne savais pas !".
TITOK filtre les exercices pour ne garder que ces moments de "révélation".

Étape D : L'Adaptation (Même si les langues diffèrent)
Parfois, le chef expert et le nouveau chef ne parlent pas exactement la même "langue" (leurs systèmes de tokenisation sont différents). TITOK a un traducteur intelligent qui aligne les mots pour s'assurer que le nouveau chef apprend bien la bonne partie de la recette, même si les mots sont écrits différemment.

3. Pourquoi c'est génial ?

Pas de juge supplémentaire : Pas besoin d'entraîner un troisième modèle pour vérifier la qualité. Le chef expert se juge lui-même en se comparant à sa version "débutante".
Économie d'énergie : On n'apprend que les mots importants. C'est comme étudier uniquement les chapitres d'un livre où l'on a des lacunes, au lieu de relire tout le livre.
Résultats : Dans les tests, cette méthode a permis aux nouveaux modèles de devenir beaucoup plus performants (jusqu'à +10% de mieux) que les méthodes actuelles, et ce, même si le chef expert venait d'une famille de modèles différente (par exemple, passer d'un modèle "Mistral" à un modèle "Llama").

En résumé

TITOK, c'est comme un tuteur ultra-efficace. Il ne vous force pas à lire tout un livre. Il vous dit : "Regarde, tu sais déjà faire ça. Mais là, sur ce mot précis, tu as besoin de l'astuce de l'expert. Concentre-toi uniquement là-dessus."

C'est une méthode simple, légère et puissante pour transférer l'intelligence d'une machine à une autre, sans gaspiller de ressources ni de données.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les grands modèles de langage (LLM) sont de plus en plus utilisés, mais leur fine-tuning complet est coûteux en calcul et en stockage. Les méthodes de Fine-Tuning Efficace en Paramètres (PEFT), comme LoRA (Low-Rank Adaptation), permettent de ne mettre à jour qu'un sous-ensemble de paramètres. Cependant, une limitation majeure persiste : les adaptateurs LoRA sont intrinsèquement liés au modèle de base sur lequel ils ont été entraînés et ne peuvent pas être transférés directement vers d'autres architectures (backbones) ou versions de modèles.

Les approches existantes pour contourner ce problème incluent :

La distillation de connaissances (KD) : Elle nécessite souvent l'accès aux données d'entraînement originales, ce qui est rarement possible ou coûteux.
TransLoRA : Une méthode récente qui génère des données synthétiques pour transférer la connaissance. Bien qu'efficace, elle nécessite l'entraînement d'un modèle discriminateur supplémentaire pour filtrer les données synthétiques de mauvaise qualité, ce qui ajoute de la complexité et une surcharge computationnelle.

L'objectif est donc de développer un cadre capable de transplanter la connaissance d'un adaptateur LoRA source vers un modèle cible sans données d'entraînement originales, sans modèle supplémentaire et avec une surcharge minimale.

2. Méthodologie : TITOK

Les auteurs proposent TITOK (Transfer Token-Level Knowledge via Contrastive Excess), un cadre qui transfère la connaissance au niveau du token plutôt qu'au niveau de la séquence entière. Le processus se déroule en trois étapes principales :

A. Génération de données synthétiques

Un modèle expert source (Modèle de base $M_s$ + Adaptateur LoRA $A_s$ ) génère des paires requête-réponse (données synthétiques) à partir d'un petit ensemble de prompts few-shot. Contrairement à TransLoRA qui utilise le modèle cible pour générer les requêtes, TITOK utilise le modèle expert source pour générer à la fois les requêtes et les étiquettes, assurant une meilleure cohérence avec la distribution de la tâche.

B. Calcul du "Contrastive Excess Score" (Score d'Excès Contrastif)

C'est le cœur de la méthode. Pour chaque token généré dans une réponse, TITOK calcule un score d'importance basé sur la différence entre deux modèles :

Le rôle "Amateur" : Le modèle de base seul ( $M_s$ ).
Le rôle "Expert" : Le modèle de base avec l'adaptateur LoRA ( $M_s + A_s$ ).

Le score d'excès $S(y_i)$ pour un token $y_i$ est défini comme la différence des pertes (ou log-vraisemblances) :
$S(y_i) = \log P_{M_s+A_s}(y_i | q, y_{<i}) - \log P_{M_s}(y_i | q, y_{<i})$

Interprétation : Un score élevé indique que le modèle avec LoRA est beaucoup plus confiant que le modèle de base pour prédire ce token spécifique. Cela signifie que ce token contient la connaissance spécifique à la tâche injectée par l'adaptateur LoRA.
Théorie : Ce score est lié au rapport de vraisemblance (LLR) en statistiques, identifiant les régions où la distribution prédictive change le plus.

C. Filtrage et Sélection (Double Niveau)

Une fois les scores calculés, TITOK applique un filtrage en deux étapes pour entraîner le nouvel adaptateur LoRA sur le modèle cible ( $M_t$ ) :

Filtrage des échantillons (Sample Filtering) : Seuls les échantillons (paires requête-réponse) ayant les scores d'excès moyens les plus élevés sont conservés. Cela élimine les données synthétiques peu informatives.
Sélection des tokens (Token Selection) : Au sein des échantillons retenus, seul le top $k\%$ des tokens (ceux avec les scores d'excès les plus élevés) est utilisé pour le calcul de la perte d'entraînement. Le modèle cible n'apprend donc que sur les tokens les plus riches en connaissance transférable.

D. Alignement des Tokenizers

Pour gérer les transferts entre modèles utilisant des tokenizers différents (ex: Mistral vers Llama), TITOK propose un algorithme d'alignement robuste. Il utilise des pointeurs doubles pour mapper les séquences de tokens source vers les séquences cibles et propage les masques de sélection (scores) via des règles de copie, de réplication ou de moyennage, garantissant que l'information est transférée correctement même avec des découpages de tokens différents.

3. Contributions Clés

Transfert sans modèle supplémentaire : Contrairement à TransLoRA, TITOK n'a pas besoin d'entraîner un discriminateur. Il utilise uniquement le comportement interne du modèle source existant.
Sélection fine au niveau du token : Au lieu de rejeter ou d'accepter une séquence entière, la méthode identifie et conserve les tokens spécifiques qui portent la connaissance de la tâche, réduisant le bruit et améliorant l'efficacité.
Robustesse aux données externes : La méthode fonctionne non seulement avec des données synthétiques, mais aussi avec des données externes provenant de domaines différents ou d'utilisateurs différents.
Alignement de tokenizer efficace : Une solution algorithmique simple mais efficace pour permettre le transfert entre architectures hétérogènes.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks majeurs : Big-Bench Hard (BBH) (raisonnement), MMLU (compréhension linguistique massive) et LaMP (personnalisation/génération de texte). Les transferts ont été testés entre différentes familles (Mistral $\to$ Llama), tailles (3B $\to$ 8B) et versions (Llama 2 $\to$ Llama 3).

Performance globale : TITOK surpasse systématiquement les baselines (Modèle Cible Vanilla, KD, TransLoRA).
- Gain moyen de +9,94 % par rapport au modèle cible non entraîné.
- Gain moyen de +8,5 % par rapport à la distillation de connaissances (KD).
- Gain moyen de +4,4 % par rapport à TransLoRA.
Efficacité computationnelle : TITOK réduit le temps de calcul total d'environ 1,5x à 2,5x par rapport à TransLoRA, principalement grâce à l'élimination de l'entraînement du discriminateur.
Robustesse : La méthode reste efficace même lorsque le modèle source est plus faible que le modèle cible, ou lorsque les données synthétiques sont de qualité variable.
Analyse d'ablation : Les résultats confirment que le filtrage des échantillons et la sélection des tokens sont tous deux essentiels pour les performances optimales.

5. Signification et Impact

TITOK représente un changement de paradigme dans le transfert de connaissances PEFT. En passant d'une approche basée sur la séquence complète ou sur des modèles auxiliaires complexes à une approche basée sur l'attribution token-level, l'article démontre qu'il est possible de transplanter efficacement la connaissance d'un expert LoRA vers n'importe quel modèle cible.

Cela a des implications pratiques majeures :

Déploiement flexible : Permet de réutiliser des adaptateurs LoRA entraînés sur des modèles obsolètes ou spécifiques pour les appliquer à de nouveaux modèles plus récents sans accès aux données originales.
Économie de ressources : Réduit considérablement les coûts de calcul et de stockage en évitant le fine-tuning complet et l'entraînement de modèles de filtrage.
Généralisation : La méthode s'applique aussi bien aux tâches de raisonnement complexe qu'à la personnalisation stylistique, prouvant sa polyvalence.

En résumé, TITOK offre une solution simple, légère et puissante pour l'écosystème croissant des LLM, facilitant le partage et la réutilisation des connaissances spécialisées entre modèles hétérogènes.