MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un génie des langues (un grand modèle d'intelligence artificielle) à comprendre non pas des livres, mais le bruit de la radio. Pas n'importe quel bruit : celui des signaux invisibles qui font fonctionner nos radars, nos Wi-Fi et nos communications militaires.

C'est exactement ce que fait l'équipe derrière MERLIN. Voici l'histoire de leur travail, racontée simplement.

1. Le Problème : Un Traducteur qui a peur du bruit

Jusqu'à présent, les experts essayaient de faire parler ces modèles d'IA avec les signaux électromagnétiques, mais c'était comme essayer d'enseigner le français à un perroquet en lui montrant des photos floues.

Le manque de données : Il n'y avait pas assez de "livres" (données) qui associent un signal radio à une explication en langage clair.
La fragilité : Dès qu'il y avait un peu de "neige" sur la radio (du bruit, un faible rapport signal/bruit), l'IA paniquait et ne comprenait plus rien. C'est comme si un traducteur perdait ses lunettes dès qu'il pleut.

2. La Solution : Les Trois Piliers de MERLIN

Pour résoudre ce casse-tête, les chercheurs ont construit trois choses fondamentales :

A. La Bibliothèque Géante (EM-100k)

Imaginez que vous vouliez apprendre à un enfant à reconnaître des voitures. Vous ne pouvez pas lui montrer une seule photo. Il faut des milliers de photos sous la pluie, le soleil, la nuit, avec des camions, des motos, etc.
Les chercheurs ont créé EM-100k, une bibliothèque massive de 100 000 paires "Signal + Texte". C'est comme un dictionnaire géant où chaque entrée est un signal radio accompagné de sa description précise. Cela a permis à l'IA de "lire" pour la première fois ce langage invisible.

B. Le Terrain de Jeu Ultime (EM-Bench)

Comment savoir si l'IA est devenue un expert ? Il faut un examen.
Avant, on n'avait pas de test standardisé. Les chercheurs ont créé EM-Bench, un examen de 4 200 questions.

Niveau 1 (Perception) : "Quel type de signal est-ce ?" (Comme reconnaître la marque d'une voiture).
Niveau 2 (Raisonnement) : "Ce signal est brouillé par un ennemi, quelle stratégie utiliser pour le contrer ?" (Comme un écheciste qui doit anticiper les coups de l'adversaire).
C'est le premier test complet pour mesurer si l'IA est vraiment intelligente dans ce domaine.

C. L'Entraînement de Super-Héros (Le Framework MERLIN)

C'est ici que la magie opère. Même avec beaucoup de données, l'IA restait fragile quand le signal était bruité. Alors, ils ont inventé une méthode d'entraînement en deux étapes :

L'Apprentissage de Base : L'IA apprend d'abord à comprendre les signaux clairs, comme un étudiant qui apprend ses leçons dans une bibliothèque silencieuse.
L'Entraînement "Anti-Bruit" (Distillation) : C'est la partie géniale.
- Imaginez un Professeur (l'IA entraînée sur des signaux clairs) et un Élève (l'IA qui doit apprendre).
- Le Professeur écoute un signal parfait. L'Élève écoute la même chose, mais avec beaucoup de bruit (comme si on parlait dans une tempête).
- Au lieu de laisser l'Élève se débrouiller seul, le Professeur lui montre : "Regarde, même si tu entends du bruit, la structure réelle du signal ressemble à ceci."
- L'Élève apprend à ignorer le bruit et à reconstruire le signal propre dans sa tête. C'est comme apprendre à un nageur à garder le cap même quand les vagues sont fortes.

3. Le Résultat : Un Expert Indestructible

Grâce à cette méthode, le modèle MERLIN a réussi l'examen (EM-Bench) mieux que n'importe quel autre modèle existant, y compris les plus grands modèles commerciaux.

Il comprend les signaux avec une précision incroyable.
Surtout, il reste calme et efficace même quand le signal est très bruité (quand le "rapport signal/bruit" est négatif).

En Résumé

Les chercheurs ont pris un domaine très technique et difficile (les signaux électromagnétiques), ont créé les manuels scolaires nécessaires (EM-100k), ont inventé un examen difficile (EM-Bench), et ont mis en place une méthode d'entraînement spéciale (MERLIN) qui apprend à l'IA à ne pas se laisser submerger par le bruit.

C'est comme transformer un traducteur débutant qui bégaye dès qu'il y a du bruit, en un interprète de l'ONU capable de comprendre parfaitement une conversation même si l'orage gronde dehors.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'application des Grands Modèles de Langage Multimodaux (MLLM) au domaine des signaux électromagnétiques (EM) (radar, communications, navigation) se heurte à trois défis majeurs qui limitent actuellement l'efficacité des approches existantes :

Pénurie de données (Data Scarcity) : Il existe un manque critique de jeux de données publics de haute qualité associant des signaux EM bruts (données IQ) à des annotations textuelles descriptives, nécessaires pour l'entraînement préliminaire des MLLM.
Absence de benchmarks standardisés : Aucun cadre d'évaluation complet n'existe pour comparer systématiquement les performances des modèles sur des tâches allant de la perception simple au raisonnement complexe dans le domaine EM.
Fragilité en faible rapport signal-sur-bruit (Low-SNR) : Les architectures actuelles (encodeur + LLM) s'effondrent lorsque le rapport signal-sur-bruit (SNR) est faible (en dessous de 0 dB). Le bruit corrompt les caractéristiques de bas niveau du signal, créant un fossé sémantique avec le texte et entraînant une dégradation drastique des performances. Les méthodes actuelles ne parviennent pas à aligner correctement les représentations bruitées avec les concepts sémantiques.

2. Méthodologie : Le Framework MERLIN

Pour surmonter ces obstacles, les auteurs proposent MERLIN (Multi-modal Electromagnetic Robust Learning), un cadre d'apprentissage en deux étapes, couplé à la création de nouvelles ressources de données.

A. Ressources de Données

EM-100K : Un jeu de données à grande échelle contenant plus de 100 000 paires signal-texte. Il est composé de données simulées, de collections du monde réel et de données open-source, couvrant 2 types de signaux, 14 modulations et 8 protocoles.
EM-Bench : Le premier benchmark complet pour l'évaluation des MLLM dans le domaine EM. Il comprend 4 200 paires question-réponse expertes, structurées en deux niveaux de capacités :
- Perception (3 tâches) : Caractérisation du signal (modulation, paramètres), identification du brouillage, détection de fragments.
- Raisonnement (1 tâche) : Génération de stratégies (contre-mesures électroniques, stratégies de brouillage).

B. Architecture du Modèle

Le modèle de base (Baseline) suit une architecture MLLM standard adaptée aux signaux :

Encodeur de Signal : Utilise EMind (un encodeur pré-entraîné) pour extraire des caractéristiques latentes des signaux IQ bruts.
Projecteur : Un réseau de deux couches MLP (avec activation GELU) qui projette les caractéristiques du signal dans l'espace d'embedding du langage.
LLM : Un modèle de langage (basé sur Qwen3-4B) qui traite les embeddings concaténés (signal + texte) pour générer des réponses.

C. Stratégie d'Entraînement en Deux Étapes

La contribution centrale de MERLIN est sa méthode d'entraînement conçue spécifiquement pour la robustesse au bruit :

Étape 1 : Pré-entraînement Multi-tâches
- Le modèle est entraîné sur le jeu de données EM-100K via une tâche de suivi d'instructions (Instruction Tuning).
- L'objectif est d'établir un lien robuste entre les représentations de bas niveau (signaux) et les représentations sémantiques de haut niveau (texte).
Étape 2 : Renforcement de la Robustesse au Faible SNR (Knowledge Distillation)
- Cette étape utilise une approche de distillation de connaissances pour corriger la dégradation des caractéristiques due au bruit.
- Configuration : Un modèle "Professeur" (figé) est entraîné sur des signaux à Haut SNR, tandis qu'un modèle "Étudiant" (entraînable) reçoit les mêmes signaux mais à Bas SNR (bruités).
- Objectif : Forcer l'Étudiant à apprendre des représentations invariantes au bruit en alignant ses embeddings latents sur ceux du Professeur.
- Composants clés de la perte d'entraînement :
  - Perte de tâche ( $L_{task}$ ) : Perte d'entropie croisée standard sur la réponse finale.
  - Distillation de niveau Logits ( $L_{logit}$ ) : Alignement des distributions de sortie du LLM (divergence KL).
  - Distillation de niveau Caractéristiques avec Module DSM ( $L_{feat}$ ) : C'est l'innovation majeure. Un Module de Sous-espace de Débruitage (Denoising Subspace Module - DSM) est introduit. Il projette les embeddings bruités de l'Étudiant dans un sous-espace orthogonal au bruit avant de calculer la perte de distillation. Cela permet à l'Étudiant de reconstruire des caractéristiques "propres" même à partir d'entrées dégradées.

3. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark EM-Bench en comparant MERLIN à des modèles propriétaires (GPT-5, Claude-4, Gemini) et open-source (DeepSeek, Qwen).

Performance Globale : MERLIN atteint l'état de l'art (SOTA) sur l'ensemble des tâches, avec une précision moyenne de 78,27% (contre 72,94% pour le meilleur modèle concurrent, Qwen3-VL).
Tâches de Perception : MERLIN excelle dans l'estimation de paramètres (bande passante, durée d'impulsion, etc.) et la classification de modulation, surpassant largement les modèles qui traitent les signaux comme du texte brut.
Tâches de Raisonnement : Le modèle démontre une capacité supérieure à générer des stratégies de contre-mesures électroniques cohérentes, là où les modèles de base échouent souvent (scores proches de zéro).
Robustesse au SNR : L'étude d'ablation confirme que l'ajout de l'étape de distillation et du module DSM améliore significativement les performances en conditions bruyantes, là où l'ajout simple de données bruitées en pré-entraînement ne suffit pas.

4. Contributions Clés

Ressources de Données : Création et publication de EM-100K (dataset d'entraînement) et EM-Bench (benchmark d'évaluation), comblant le vide critique en matière de données et d'évaluation standardisée pour les MLLM EM.
Framework MERLIN : Proposition d'une architecture et d'un protocole d'entraînement novateurs qui résolvent le problème de l'effondrement des performances en faible SNR. L'utilisation de la distillation de connaissances couplée au module DSM permet d'apprendre des représentations invariantes au bruit.
Validation Empirique : Démonstration que l'approche end-to-end multimodale, lorsqu'elle est correctement entraînée, surpasse les méthodes pipeline et les LLM généralistes, établissant un nouveau standard pour l'intelligence artificielle dans le domaine électromagnétique.

5. Signification et Impact

Ce travail marque une avancée fondamentale pour l'application de l'IA générative aux signaux électromagnétiques. En démontrant qu'il est possible de construire des modèles robustes capables de raisonner sur des signaux bruités, MERLIN ouvre la voie à des applications réelles critiques, telles que :

La surveillance du spectre radioélectrique en temps réel.
La guerre électronique et la contre-mesure adaptative.
La détection et l'identification de cibles radar dans des environnements hostiles.

L'approche proposée déplace le paradigme de la simple classification de signaux vers une compréhension sémantique et stratégique des phénomènes électromagnétiques, même dans des conditions opérationnelles dégradées.