MOSAIC: Composable Safety Alignment with Modular Control Tokens

Each language version is independently generated for its own context, not a direct translation.

🛡️ MOSAIC : Le "Kit de Sécurité Modulaire" pour les Intellectuels Artificiels

Imaginez que vous avez un super-cerveau artificiel (un grand modèle de langage comme ceux qui écrivent des histoires ou répondent aux questions). Ce cerveau est très intelligent, mais il a un problème : il est trop "gentil" ou trop "rigide" pour tout le monde.

Le problème actuel :
- La méthode "Tout-en-un" (Paramètres) : C'est comme si on peignait une règle de sécurité directement sur le cerveau du robot. Si on veut changer la règle (par exemple, interdire l'alcool pour les enfants mais l'autoriser pour les adultes), il faut refaire toute la peinture du cerveau. C'est long, coûteux, et ça risque d'effacer d'autres connaissances (comme comment faire un gâteau).
- La méthode "Note collée" (Prompts) : C'est comme écrire une longue liste de règles sur un post-it et le coller devant le robot à chaque fois. Le robot lit le post-it, mais parfois il ne comprend pas bien, ou le post-it est si long qu'il oublie ce qu'on lui demandait au début. De plus, si on change de contexte (passer d'un pays à un autre), il faut changer tout le post-it.

La solution MOSAIC propose une troisième voie, plus intelligente et flexible.

🧩 L'Analogie du "Mosaïque de Commandes"

Imaginez que la sécurité du robot ne dépend pas de sa peinture, ni de ses notes, mais d'un jeu de petits aimants magnétiques (ce qu'on appelle des "jetons de contrôle").

Des Aimants Spécifiques :
Chaque règle de sécurité (ex: "Pas de jeux d'argent", "Pas d'alcool", "Pas de violence") a son propre petit aimant.
- Si vous voulez que le robot refuse de parler de jeux d'argent, vous collez l'aimant "Jeux d'argent" devant lui.
- Si vous voulez aussi interdire l'alcool, vous ajoutez l'aimant "Alcool".
La Magie de la Combinaison (Composabilité) :
Le génie de MOSAIC, c'est que ces aimants fonctionnent bien ensemble. Vous pouvez en coller un, deux, ou trois, et le robot comprendra exactement la combinaison de règles à appliquer. C'est comme un jeu de Lego : vous assemblez les pièces dont vous avez besoin pour la situation du moment.
Le Cerveau reste intact :
Le robot lui-même (son cerveau) n'est pas modifié. Il garde toute son intelligence et sa capacité à aider. On ne fait que lui montrer quelles règles activer, comme on change de filtre sur une caméra.

🎓 Comment on apprend aux aimants à bien fonctionner ?

Le défi était de s'assurer que ces aimants ne soient pas trop "paranoïaques". Parfois, un aimant de sécurité peut faire dire au robot "Non !" à une question innocente (par exemple, refuser une recette de cocktail parce qu'il y a un aimant "Alcool", même si c'est juste pour un adulte).

Les chercheurs ont utilisé deux astuces intelligentes pour entraîner ces aimants :

L'entraînement par "Mélange" (Échantillonnage) : Au lieu d'apprendre chaque règle séparément, on entraîne le robot avec des mélanges de règles (ex: "Interdire l'alcool ET les jeux d'argent" en même temps). Cela apprend aux aimants à travailler en équipe sans se marcher dessus.
Le "Contre-Exemple" (Distillation) : C'est l'astuce la plus subtile. On demande au robot : "Si je n'avais pas cet aimant, que répondrais-tu ?" Puis on lui dit : "Si la question est innocente, réponds exactement comme si l'aimant n'existait pas."
- Analogie : C'est comme un garde du corps qui apprend à ne tirer que si c'est vraiment nécessaire. S'il voit un enfant qui demande "Comment faire un gâteau ?", le garde doit se souvenir de sa réponse normale et ne pas sortir son arme juste parce qu'il porte un badge "Sécurité".

🌍 Pourquoi c'est important pour le monde réel ?

Dans la vraie vie, les règles changent selon qui vous êtes et où vous êtes :

Un parent veut que son enfant ne voie pas de contenu violent.
Un adulte dans un pays où l'alcool est légal veut pouvoir en parler.
Un professionnel dans un hôpital a besoin de règles différentes d'un journaliste.

Avec MOSAIC, on peut changer les règles en un clin d'œil, juste en changeant les "aimants", sans avoir à réapprendre tout le cerveau du robot. C'est rapide, léger et précis.

🏆 Les Résultats

Les tests montrent que :

C'est très efficace : Le robot refuse les mauvaises questions presque à chaque fois (99% de succès).
C'est moins "paranoïaque" : Il refuse beaucoup moins les bonnes questions (moins de faux rejets) que les méthodes actuelles.
C'est évolutif : On peut ajouter une nouvelle règle (ex: "Pas de contenu sur les paris sportifs") demain, sans casser les règles d'aujourd'hui.

En résumé

MOSAIC, c'est comme passer d'un système de sécurité rigide et lourd (où il faut reconstruire la maison pour changer la serrure) à un système de badges modulaires (où vous glissez simplement le badge "Enfant" ou "Adulte" dans la porte pour changer les règles d'accès instantanément, sans toucher à la structure de la maison).

C'est une avancée majeure pour rendre les intelligences artificielles plus sûres, plus flexibles et plus respectueuses de nos différences culturelles et contextuelles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'alignement de sécurité des grands modèles de langage (LLM) est actuellement implémenté de manière statique, soit ancré dans les paramètres du modèle (via le fine-tuning ou le RLHF), soit via des instructions en langage naturel (prompts). Ces approches présentent des limitations majeures pour des déploiements réels :

Rigidité et coût : Les méthodes basées sur les paramètres entremêlent les comportements de sécurité avec les capacités générales du modèle. Modifier une règle de sécurité nécessite souvent un réentraînement coûteux et risque de provoquer une interférence catastrophique avec les connaissances précédemment acquises.
Manque de contrôle conditionnel : Il est difficile d'adapter dynamiquement les règles de sécurité selon l'utilisateur (âge, région, rôle professionnel) ou le contexte. Par exemple, un contenu acceptable pour des adultes peut être interdit pour des mineurs, ou légal dans un pays mais interdit dans un autre.
Faiblesse des prompts : Les méthodes basées sur les instructions textuelles sont interprétées de manière probabiliste, manquant de fiabilité et devenant inefficaces lorsque de multiples contraintes génèrent des prompts longs et coûteux en tokens.
Sur-refus (Over-refusal) : Les modèles alignés ont tendance à refuser des requêtes bénignes par excès de prudence, réduisant ainsi l'utilité du modèle.

L'objectif est de concevoir un système de sécurité modulaire, compositionnel et conditionnel, capable d'activer ou de désactiver des règles spécifiques sans modifier le modèle de base.

2. Méthodologie : MOSAIC

Les auteurs proposent MOSAIC (Composable Safety Alignment with Modular Control Tokens), un cadre qui reformule l'alignement de sécurité comme un problème d'apprentissage de représentations compositionnelles.

A. Représentation par Tokens de Contrôle

Au lieu de modifier les poids du modèle, chaque contrainte de sécurité est encodée par un petit ensemble de tokens de contrôle appris ( $z_c$ ) dans l'espace d'embedding du modèle.

Le modèle de base (backbone) reste gelé (frozen) pendant tout le processus.
Pour activer une règle de sécurité, les tokens correspondants sont préfixés à l'entrée de l'utilisateur.
Plusieurs ensembles de tokens peuvent être concaténés à l'inférence pour activer simultanément plusieurs politiques (ex: interdiction du jeu d'argent + interdiction de l'alcool).

B. Stratégie d'Échantillonnage des Tâches Compositionnelles

Pour entraîner ces tokens de manière efficace sans que le coût des données n'explose exponentiellement (car le nombre de combinaisons de catégories est $2^K - 1$ ), les auteurs introduisent un échantillonnage basé sur l'ordre :

Les tâches sont organisées par "ordre" ( $r$ ), défini par le nombre de catégories de sécurité actives simultanément.
Un budget d'entraînement fixe est alloué par ordre, plutôt que par sous-ensemble spécifique. Cela permet d'exposer le modèle à des combinaisons variées tout en maintenant une supervision bornée.

C. Objectif d'Entraînement : Distillation de Connaissance Contrefactuelle

Pour résoudre le problème du sur-refus (refuser des requêtes bénignes), un objectif d'apprentissage spécifique est utilisé pour les échantillons négatifs :

Distillation Contrefactuelle (Counterfactual KD) : Au lieu d'apprendre uniquement à refuser, le modèle compare sa distribution de sortie avec les tokens de contrôle à sa distribution de sortie sans eux (sur des données bénignes).
Une perte de divergence KL ( $L_{KD}$ ) est minimisée pour aligner la distribution contrôlée sur la distribution originale du modèle de base pour les entrées inoffensives.
Cela force les tokens de contrôle à n'intervenir que lorsque nécessaire, préservant ainsi l'utilité du modèle sur les requêtes non ciblées.

3. Contributions Clés

Reconceptualisation de l'alignement : Passage d'une modification monolithique des paramètres à une activation modulaire de contraintes via des tokens appris.
Framework MOSAIC : Une architecture permettant l'expansion incrémentale de nouvelles catégories de sécurité sans réentraînement du modèle de base, avec une gestion efficace des combinaisons via l'échantillonnage basé sur l'ordre.
Réduction du sur-refus : Introduction d'un objectif de distillation contrefactuelle qui affine la frontière de refus, permettant une sécurité sélective précise.
Nouveau Benchmark : Construction d'un jeu de données réaliste de 1 500 requêtes couvrant 5 catégories (addiction, alcool, paris, horreur, sexe), spécifiquement conçu pour évaluer l'activation conditionnelle sur des modèles déjà alignés (où les requêtes ne sont pas rejetées par défaut).

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles Llama-3.1-8B et Llama-3.2-3B.

Performance de Défense (DSR - Defense Success Rate) : MOSAIC atteint un taux de refus correct quasi parfait (>99%) sur toutes les tâches, surpassant ou égalant les méthodes de Supervised Fine-Tuning (SFT) et surpassant nettement les méthodes par prompt (In-context) et ORPO.
Réduction du Sur-refus (OR - Over-refusal Rate) : C'est le résultat le plus significatif.
- Le SFT standard présente un taux de sur-refus d'environ 6%.
- MOSAIC réduit ce taux à 1,8% (sur Llama-8B) avec seulement 5 tokens par catégorie.
- L'utilisation de combinaisons d'ordre supérieur (plusieurs catégories actives) agit comme une régularisation implicite, améliorant encore la précision du refus.
Préservation de l'Utilité : Les tests sur MMLU montrent que MOSAIC préserve les capacités générales de langage du modèle de base avec une dégradation négligeable.
Extensibilité Incrémentale : L'ajout de nouvelles catégories de sécurité sans réentraîner les anciennes entraîne une dégradation de performance minimale, démontrant la modularité du système.

5. Signification et Impact

MOSAIC représente une avancée majeure pour le déploiement pratique des LLM dans des environnements hétérogènes.

Adaptabilité Contextuelle : Il permet de déployer des politiques de sécurité dynamiques adaptées à des juridictions, des âges ou des rôles spécifiques sans réentraîner le modèle.
Efficacité et Économie : En gelant le modèle de base et en n'apprenant que quelques tokens, la méthode est extrêmement économe en ressources par rapport au réentraînement complet.
Équilibre Sécurité-Utilité : En résolvant le compromis classique entre sécurité stricte et refus excessif, MOSAIC offre une voie vers des assistants IA plus sûrs mais aussi plus utiles et moins restrictifs.
Nouvelle Méthodologie d'Évaluation : Le benchmark proposé comble un vide dans la littérature en évaluant la sécurité sur des modèles déjà alignés, reflétant mieux les scénarios de déploiement réel où l'on ajoute des contraintes à un système existant.

En résumé, MOSAIC propose une approche élégante et efficace pour transformer la sécurité des LLM d'une propriété statique et rigide en un système dynamique, compositionnel et adaptable.