Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez construire deux types de robots intelligents capables de comprendre le langage humain.

Dans le monde de l'intelligence artificielle actuelle, il y a une grande querelle entre deux écoles de pensée :

Les "Décodeurs" (Decoder-only) : Ce sont les robots qui adorent écrire. Ils sont comme des auteurs de romans ou des poètes. Ils regardent ce qui a été dit et devinent la suite mot par mot. C'est le modèle utilisé par ChatGPT.
Les "Encodeurs" (Encoder-only) : Ce sont les robots qui adorent comprendre et classer. Ils sont comme des bibliothécaires ou des détectives. Ils lisent tout un texte d'un coup pour en saisir le sens global, mais ils ne sont pas très doués pour écrire de nouvelles phrases. C'est le modèle utilisé par BERT.

Le problème, c'est que jusqu'à présent, on ne pouvait pas vraiment comparer ces deux robots de manière équitable. C'était comme comparer un Ferrari (le décodeur, très gros, très entraîné) à une vieille Fiat (l'encodeur, plus petit, moins entraîné). Les chercheurs disaient : "Regardez, le Ferrari gagne !" Mais en réalité, c'était injuste car ils n'avaient pas la même taille ni le même entraînement.

La solution : La suite ETTIN

Les auteurs de cette paper (de l'Université Johns Hopkins) ont décidé de régler ce problème en créant une famille de jumeaux appelés ETTIN.

L'analogie du "Jumeau Miroir" :
Imaginez que vous avez un jumeau. Vous êtes un excellent cuisinier (Décodeur), et votre jumeau est un excellent critique gastronomique (Encodeur).

Jusqu'ici, on vous nourrissait avec des plats de luxe (données massives) et on nourrissait votre jumeau avec des restes.
Avec ETTIN, les chercheurs ont créé 10 robots (5 paires de jumeaux) de tailles différentes (du tout petit au très grand).
Le secret : Tous les jumeaux ont mangé exactement le même repas, appris avec exactement la même méthode, et ont grandi dans exactement le même environnement. La seule différence ? L'un a appris à écrire (Décodeur) et l'autre à comprendre (Encodeur).

C'est la première fois que l'on peut faire une comparaison "pomme à pomme" (apple-to-apple) aussi propre.

Ce qu'ils ont découvert (Les résultats)

Grâce à cette expérience équitable, ils ont confirmé deux choses importantes :

Chacun est champion dans son domaine :
- Si vous voulez que le robot rédige un email, écrive un poème ou réponde à une question complexe, le Décodeur gagne haut la main.
- Si vous voulez que le robot détecte du spam, cherche un document dans une base de données ou analyse le sentiment d'un texte, l'Encodeur est bien meilleur, même s'il est plus petit.
L'astuce du "Changement de métier" ne marche pas bien :
Beaucoup pensaient qu'on pouvait prendre un Décodeur (le grand écrivain) et lui apprendre à devenir un Encodeur (le bibliothécaire) en lui donnant un peu plus de cours.
- La réalité : C'est comme essayer de transformer un grand écrivain en détective en lui donnant juste quelques heures de formation. Ça ne marche pas vraiment. Même après un entraînement intensif, le Décodeur reste moins bon que l'Encodeur natif pour les tâches de compréhension.
- Inversement, essayer d'entraîner un Encodeur à écrire est aussi une perte de temps.

Pourquoi c'est important pour vous ?

Économie d'énergie : Si vous avez besoin d'un robot pour classer des emails ou faire de la recherche, n'achetez pas un "Géant" (un modèle de 7 milliards de paramètres) juste parce qu'il est à la mode. Utilisez un "Encodeur" plus petit (3 milliards de paramètres) qui sera plus rapide, moins cher et plus performant pour cette tâche précise.
Transparence : Les chercheurs ont tout rendu public (les données, le code, les étapes d'apprentissage). C'est comme si ils avaient ouvert les portes de leur usine pour que tout le monde puisse voir comment ils ont fait leurs robots.

En résumé

Cette paper nous dit : "Arrêtez de comparer des pommes et des oranges."

Les robots "Écrivains" (Décodeurs) sont géniaux pour créer du contenu, mais les robots "Lecteurs" (Encodeurs) sont toujours les rois pour comprendre et analyser. Et le meilleur moyen de les utiliser ? Ne pas essayer de les transformer l'un en l'autre, mais choisir le bon outil pour le bon travail.

C'est une victoire pour la science : on a enfin des jumeaux élevés de la même façon pour prouver que chaque modèle a sa propre super-puissance.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "SEQ VS SEQ: AN OPEN SUITE OF PAIRED ENCODERS AND DECODERS", publié à la conférence ICLR 2026.

1. Problématique et Contexte

Le domaine des grands modèles de langage (LLM) est actuellement dominé par les architectures décodeurs uniquement (style GPT), privilégiées pour leur capacité à générer du texte. En revanche, une partie significative de la communauté continue d'utiliser des modèles encodeurs uniquement (style BERT) pour des tâches de classification, de récupération d'information (retrieval) et d'inférence embarquée rapide.

Le problème central identifié par les auteurs est l'absence de comparaison équitable entre ces deux architectures. Les travaux précédents tentant de les opposer souffrent de biais méthodologiques majeurs : les modèles comparés possèdent des nombres de paramètres différents, des données d'entraînement distinctes, des architectures variées et des recettes d'entraînement hétérogènes. De plus, il existe un fossé de développement : les encodeurs sont souvent des modèles plus anciens (2019) tandis que les décodeurs bénéficient des dernières avancées et d'un pré-entraînement massif.

2. Méthodologie : La Suite ETTIN

Pour combler ce vide, les auteurs introduisent ETTIN (nommé d'après le géant nordique à deux têtes), une suite de modèles open-source conçue pour permettre une comparaison "pomme à pomme" (apples-to-apples).

Architecture et Échelle : La suite comprend 10 modèles (5 paires encodeur/décodeur) couvrant une gamme de tailles de 17 millions à 1 milliard de paramètres. Toutes les paires partagent exactement la même architecture (profondeur, taille cachée, nombre de têtes d'attention) et les mêmes hyperparamètres, à l'exception de deux éléments cruciaux :
1. Le mécanisme d'attention : Bidirectionnel pour les encodeurs, causal pour les décodeurs.
2. La fonction objectif : Masked Language Modeling (MLM) pour les encodeurs, Causal Language Modeling (CLM) pour les décodeurs.
Données d'entraînement : Les modèles sont entraînés sur des données open-source (mélange de DCLM, Dolma v1.7, et sources filtrées comme FineWeb-Edu), totalisant jusqu'à 2 billions de tokens (2T). Cela permet de reproduire les performances de modèles fermés comme ModernBERT tout en garantissant la transparence des données.
Recette d'entraînement : L'entraînement suit trois phases :
1. Pré-entraînement de base (1,7T de tokens).
2. Mid-training / Extension de contexte (250B de tokens, données de meilleure qualité, contexte étendu à 8k tokens).
3. Phase de décroissance (Decay) (50B de tokens, données très filtrées, taux d'apprentissage décroissant).
Étude de cas transversale (Cross-Objective Training) : Les auteurs testent l'hypothèse selon laquelle un modèle peut être adapté à une tâche opposée par un pré-entraînement continu. Ils entraînent des décodeurs avec MLM (pour en faire des encodeurs) et des encodeurs avec CLM (pour en faire des décodeurs) sur 50B de tokens supplémentaires.

3. Contributions Clés

Suite de modèles SOTA Open-Data : ETTIN établit de nouveaux standards de performance (State-of-the-Art) pour les modèles open-data dans leurs catégories de taille respectives, surpassant ModernBERT (encodeurs) et Llama 3.2 / SmolLM2 (décodeurs) sur des tâches ciblées.
Comparaison équitable : C'est la première suite permettant de comparer isolément l'impact de l'objectif d'entraînement (MLM vs CLM) et de l'architecture d'attention, toutes les autres variables étant contrôlées.
Analyse de l'adaptation croisée : L'étude fournit des preuves empiriques sur l'efficacité (ou l'inefficacité) de la conversion d'un décodeur en encodeur (et vice-versa) via un pré-entraînement continu.
Transparence totale : Tous les artefacts sont open-sourcés, y compris les données d'entraînement, l'ordre des lots (batch ordering) segmenté par checkpoint, et plus de 200 checkpoints intermédiaires, permettant une analyse fine de l'apprentissage.

4. Résultats Principaux

A. Performance par Architecture

Encodeurs : Ils excellent nettement sur les tâches de classification (ex: MNLI, GLUE) et de récupération (ex: MS MARCO, MTEB). Un encodeur de 400M paramètres surpasse un décodeur de 1 milliard de paramètres sur MNLI.
Décodeurs : Ils dominent les tâches génératives (ex: HellaSwag, TriviaQA, ARC). L'écart de performance s'élargit avec la taille du modèle en faveur des décodeurs pour ces tâches.

B. L'inefficacité du pré-entraînement croisé (Cross-Objective)

C'est l'une des découvertes les plus importantes :

Adaptation Décodeur $\to$ Encodeur : Continuer l'entraînement d'un décodeur avec MLM (pour l'utiliser en encodeur) ne comble pas l'écart avec un encodeur natif. Un encodeur natif de 400M bat un décodeur de 1B pré-entraîné avec MLM sur des tâches de classification.
Adaptation Encodeur $\to$ Décodeur : Inversement, continuer l'entraînement d'un encodeur avec CLM donne des résultats médiocres sur les tâches génératives, surtout à grande échelle.
Conclusion : Les objectifs MLM et CLM confèrent des capacités fondamentalement différentes qui ne peuvent pas être facilement acquises par un simple pré-entraînement continu, même avec 50 milliards de tokens supplémentaires.

C. Biais de Genre (Étude de cas)

En analysant les prédictions de pronoms sur le benchmark WinoGender, les auteurs constatent que :

Les modèles encodeurs ont tendance à choisir plus souvent des pronoms neutres par rapport aux modèles décodeurs.
Les deux architectures montrent un biais vers les pronoms masculins, mais ce biais évolue différemment selon la taille du modèle et l'objectif d'entraînement.

5. Signification et Implications

Ce travail remet en question la tendance actuelle consistant à utiliser uniquement de grands décodeurs pour toutes les tâches (y compris la classification et l'embedding) en supposant qu'ils peuvent être facilement adaptés.

Pour la recherche : Il démontre que l'architecture et l'objectif d'entraînement sont des choix de conception critiques qui ne sont pas interchangeables. Pour les tâches de classification et de recherche, les encodeurs natifs restent supérieurs, même à des tailles inférieures.
Pour l'industrie : Dans les régimes de petite échelle (≤ 1B de paramètres), il est plus efficace de maintenir des modèles encodeurs dédiés que d'essayer d'adapter des décodeurs massifs.
Pour la communauté scientifique : La disponibilité des données et des checkpoints permet d'étudier comment les modèles apprennent, au-delà de la simple performance finale, ouvrant la voie à de nouvelles recherches sur les biais, la sécurité et l'efficacité des données.

En résumé, ETTIN prouve que l'ère des "modèles uniques pour tout" n'est pas encore arrivée : le choix entre encodeur et décodeur doit toujours être guidé par la nature de la tâche cible.

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

La solution : La suite ETTIN

Ce qu'ils ont découvert (Les résultats)

Pourquoi c'est important pour vous ?

En résumé

1. Problématique et Contexte

2. Méthodologie : La Suite ETTIN

3. Contributions Clés

4. Résultats Principaux

A. Performance par Architecture

B. L'inefficacité du pré-entraînement croisé (Cross-Objective)

C. Biais de Genre (Étude de cas)

5. Signification et Implications

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance