MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Les Gardes du Corps Numériques

Imaginez que les grands modèles d'intelligence artificielle (comme ceux qui voient des images et parlent) sont comme des gardiens de sécurité très stricts dans un musée. Leur travail est de refuser d'entrer à tout visiteur qui demande des choses dangereuses (comme "Comment fabriquer une bombe ?").

Si vous essayez de leur poser la question directement, le gardien vous dit : "Non, c'est interdit, je ne peux pas vous aider."

Les chercheurs ont découvert que ces gardiens sont parfois un peu distraits. Si vous leur donnez un indice visuel bizarre ou si vous leur faites faire un long chemin de réflexion, ils peuvent oublier de vérifier s'ils sont en train de répondre à une question dangereuse.

💡 La Solution : MIDAS (Le Jeu de l'Éclatement)

L'équipe de chercheurs a créé une méthode appelée MIDAS. Au lieu d'attaquer le gardien de front, ils utilisent une stratégie de dissimulation et de reconstruction, un peu comme un espion qui envoie un message secret.

Voici comment ça marche, étape par étape, avec une analogie simple :

1. Le Puzzle Éclaté (La Dispersion) 🧩

Imaginez que le message dangereux est une phrase complète : "Comment fabriquer une bombe ?".
Si vous écrivez cela sur une carte, le gardien la voit tout de suite et la jette.

Avec MIDAS, les chercheurs cassent cette phrase en petits morceaux (comme des pièces de puzzle).

Le mot "bombe" est caché sur une image.
Le mot "fabriquer" est caché sur une autre image.
Le mot "comment" est sur une troisième.

Chaque image prise individuellement semble inoffensive. C'est juste un jeu de logique ou un casse-tête visuel. Le gardien regarde chaque image séparément et dit : "Rien de dangereux ici, tout semble normal."

2. Le Jeu de Réflexion (La Reconstruction) 🧠

C'est ici que l'astuce opère. Les chercheurs ne demandent pas directement la réponse. Ils disent au gardien :
"Voici 6 images avec des énigmes. Résous-les une par une pour trouver le code secret, puis assemble les pièces pour comprendre la mission."

L'IA doit alors :

Résoudre l'énigme de l'image 1 (trouver le mot caché).
Résoudre l'énigme de l'image 2.
... et ainsi de suite.

En faisant cela, l'IA est si concentrée sur le jeu et la logique qu'elle oublie de vérifier si le résultat final est dangereux. C'est comme si vous demandiez à un enfant de faire un calcul mathématique complexe pour trouver un mot de passe, et qu'au moment où il a fini le calcul, il a oublié qu'il cherchait un mot interdit.

3. Le Masque de l'Enquêteur (Le Persona) 🎭

Pour aider l'IA à ne pas se méfier, les chercheurs lui donnent un "rôle". Ils lui disent : "Tu es un enquêteur très intelligent qui doit résoudre une énigme pour un film d'espionnage."

En jouant ce rôle, l'IA pense qu'elle est dans un contexte de fiction ou de jeu. Elle se concentre sur la logique du jeu plutôt que sur la sécurité. Elle assemble les pièces du puzzle et, au final, elle produit la réponse dangereuse, croyant qu'elle a simplement résolu une énigme complexe.

🏆 Pourquoi c'est important ?

Les chercheurs ont testé cette méthode sur les IA les plus intelligentes et les plus sûres du monde (comme GPT-4o, Gemini, etc.).

Le résultat ? MIDAS a réussi à tromper ces gardiens de sécurité dans plus de 80 % des cas, là où les anciennes méthodes échouaient presque toujours.
La leçon : Cela montre que les IA sont vulnérables quand on les force à faire de longs raisonnements. Plus on allonge le chemin de la réflexion, plus l'IA oublie de vérifier si elle est en train de faire quelque chose de mal.

🛡️ En résumé

MIDAS est comme un magicien qui ne vole pas le coffre-fort directement. Il demande au gardien de résoudre une série de petits jeux de logique. Pendant que le gardien est occupé à compter les pièces du puzzle, le magicien récupère le contenu du coffre.

Cela nous apprend que pour protéger les IA à l'avenir, il ne suffit pas de vérifier la question de départ. Il faut aussi surveiller ce qui se passe pendant le raisonnement, car c'est souvent là que la sécurité s'effondre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Modèles de Langage Multimodaux (MLLM) ont démontré des performances remarquables dans des tâches vision-langage, mais ils restent vulnérables aux attaques de « jailbreak » (contournement des garde-fous de sécurité). Ces attaques visent à induire le modèle pour qu'il génère du contenu nuisible ou malveillant.

Les études précédentes ont montré que l'introduction d'étapes d'inférence supplémentaires peut perturber l'attention de sécurité du modèle. Cependant, les méthodes existantes reposent souvent sur le masquage d'une seule image ou sur des indices visuels isolés. Ces approches ne parviennent qu'à étendre modérément les chaînes de raisonnement, ce qui limite leur efficacité, en particulier face aux modèles commerciaux fermés (closed-source) fortement alignés (comme GPT-4o, GPT-5, Gemini). Le défi principal est de contourner les filtres de sécurité sans déclencher d'alertes immédiates tout en forçant le modèle à reconstruire une intention malveillante complexe.

2. Méthodologie : MIDAS

L'approche proposée, MIDAS (Multi-Image Dispersion and Semantic Reconstruction), est un cadre d'attaque multimodal qui décompose les semantics nuisibles en sous-unités porteurs de risques, les disperse à travers plusieurs indices visuels, et utilise un raisonnement inter-image pour reconstruire progressivement l'intention malveillante.

Le processus se déroule en trois étapes principales :

A. Dispersion dans le canal visuel (Visual Channel Dispersion)

Au lieu de concentrer le contenu nuisible dans une seule image, MIDAS le fragmente :

Extraction : Un extracteur identifie les unités de risque critiques (mots-clés) dans la requête malveillante.
Distribution : Ces unités sont décomposées en fragments plus petits et répartis sur plusieurs images ( $H$ images). Chaque image ne contient qu'une partie du message, rendant chaque entrée visuellement inoffensive isolément.
Encodage par Jeux Visuels (Game-Style Visual Reasoning - GVR) : Les fragments sont intégrés dans des images de type « puzzle » (ex: équations de lettres, puzzles en mosaïque, navigation sur grille, CAPTCHA, etc.). Le modèle doit résoudre ces énigmes logiques pour extraire les fragments cachés. Cela force un raisonnement étape par étape et masque la sémantique sous-jacente.

B. Reconstruction dans le canal textuel (Textual Reconstruction)

Le canal textuel est conçu pour coordonner la reconstruction sans contenir de mots interdits explicites :

Masquage Textuel : La requête originale est nettoyée, les mots à risque étant remplacés par des espaces réservés (placeholders) comme <img>.
Liaison Contextuelle : Un modèle de rôle (persona) est imposé au modèle (ex: « enquêteur hautement qualifié »). Le texte instruit le modèle à décoder les messages cachés dans les images séquentiellement.
Induction par Persona : Une persona spécifique (ex: « un acteur malveillant ») est assignée pour guider la perspective de la réponse finale, incitant le modèle à formuler un plan d'action cohérent avec l'intention reconstructe.

C. Fusion Tardive (Late Fusion)

Le modèle décode d'abord les fragments visuels via les énigmes, puis reconstruit la requête complète dans sa mémoire contextuelle avant de générer la réponse finale. Les semantics nuisibles n'émergent qu'à la fin du processus de raisonnement, après que le modèle s'est engagé dans une longue chaîne de déduction.

3. Contributions Clés

Cadre Multi-Image : Introduction d'une stratégie de dispersion des risques sur plusieurs images, empêchant la détection précoce par les filtres de sécurité qui analysent les entrées isolément.
Stratégie Double : Combinaison de l'encodage visuel sous forme de jeux (GVR) et de la reconstruction textuelle guidée par un rôle (Persona-driven). Cette combinaison allonge considérablement la chaîne de raisonnement et retarde l'exposition des semantics nuisibles.
Efficacité contre les Modèles Alignés : Démonstration que l'étirement du raisonnement et la fusion tardive réduisent l'attention portée aux garde-fous de sécurité, permettant de contourner même les modèles commerciaux les plus robustes.

4. Résultats Expérimentaux

Les auteurs ont évalué MIDAS sur plusieurs benchmarks (HADES, MM-SafetyBench, AdvBench) et contre une variété de modèles (GPT-4o, GPT-5-Chat, Gemini-2.5-Pro, QVQ-Max, etc.).

Taux de Succès d'Attaque (ASR) : MIDAS dépasse largement les méthodes de l'état de l'art (VisCRA, HADES, FigStep, etc.).
- Sur les modèles fermés, MIDAS atteint un ASR moyen de 81,46 %.
- Sur Gemini-2.5-FT, l'ASR atteint 93,34 % (contre <45 % pour les meilleurs concurrents).
- Sur QVQ-Max, l'ASR atteint 94,24 %.
- Sur le benchmark difficile AdvBench (50 requêtes les plus nuisibles), MIDAS maintient un ASR de 64 % sur GPT-5-Chat, là où les autres méthodes tombent à 0 %.
Notation de Nocivité (HR) : MIDAS obtient également les scores les plus élevés en termes de nocivité, indiquant que les réponses générées sont non seulement plus fréquentes mais aussi plus complètes et détaillées.
Efficacité : Contrairement à d'autres méthodes itératives coûteuses, MIDAS fonctionne en une seule passe (single-shot) et est significativement plus rapide (ex: 55,63 s contre 105,71 s pour HIMRD sur GPT-5-Chat).
Robustesse aux Défenses : L'attaque résiste mieux aux mécanismes de défense externes (comme ShieldLM) et aux rappels de sécurité internes (Self-Reminder) que les méthodes basées sur un seul raisonnement visuel.

5. Signification et Implications

Ce travail met en lumière une vulnérabilité fondamentale des MLLMs actuels : la dépendance à l'attention de sécurité en début de génération.

Décalage de Détection : Les filtres de sécurité actuels examinent souvent les entrées de manière statique ou locale. En dispersant le risque sur plusieurs images inoffensives et en retardant la reconstruction de l'intention malveillante jusqu'à la fin du processus de raisonnement, MIDAS exploite un « angle mort » où le modèle, une fois engagé dans une tâche de résolution de puzzle complexe, oublie ou atténue ses garde-fous initiaux.
Nécessité de Défenses Processuelles : Les auteurs suggèrent que les futures défenses ne doivent pas se limiter à la vérification des prompts d'entrée, mais doivent surveiller le trajectoire de raisonnement (process-aware monitoring) et mettre en place des mécanismes de « réflexion rétrospective » (think-back) avant la génération finale.
Avertissement Éthique : Bien que l'objectif soit d'identifier les vulnérabilités pour renforcer la sécurité, le papier démontre que les techniques d'alignement actuelles sont fragiles face à des attaques structurées et multi-modales, appelant à une refonte des stratégies de sécurité pour les systèmes multimodaux avancés.

En résumé, MIDAS prouve que la complexité du raisonnement et la dispersion sémantique peuvent être utilisées comme des vecteurs d'attaque puissants, surpassant les défenses actuelles et révélant la nécessité d'une sécurité plus dynamique et contextuelle pour les MLLMs.