Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous puissiez lire dans les pensées d'une personne aveugle pour savoir ce qu'elle « voit » dans son esprit, ou inversement, que vous puissiez lui envoyer une image directement dans son cerveau pour qu'elle la perçoive. C'est le rêve des prothèses visuelles.

Ce papier scientifique propose une nouvelle façon de réaliser ce rêve, en agissant comme un traducteur magique entre le monde des images et le langage du cerveau.

Voici une explication simple, avec quelques images pour mieux comprendre :

1. Le Problème : Un pont brisé

Imaginez que le cerveau d'une personne aveugle soit une maison dont la porte d'entrée est fermée.

La décodage (ce qu'on savait déjà faire) : C'est comme essayer de deviner ce qu'il y a dans la maison en écoutant les bruits à l'intérieur (les signaux électriques du cerveau). Les chercheurs sont devenus très bons pour ça : ils peuvent dire « Ah, cette personne pense à un chien ! ».
L'encodage (le nouveau défi) : C'est l'inverse. Comment envoyer un message depuis une photo (par exemple, un chien) vers le cerveau pour qu'il le comprenne ? Jusqu'à présent, c'était comme essayer d'envoyer un SMS en utilisant un code Morse inventé au hasard. Le cerveau ne comprenait pas, ou recevait un message brouillé.

2. La Solution : Un traducteur ultra-intelligent

Les auteurs ont créé un système qui agit comme un interprète de haut niveau pour réparer ce pont. Ils utilisent une technologie appelée Diffusion Transformer (un peu comme un dessinateur qui apprend à dessiner non pas des images, mais des signaux électriques).

Voici comment leur « traducteur » fonctionne, étape par étape :

A. Le Dictionnaire Visuel et Textuel (CLIP + IA)

Pour que le cerveau comprenne une image, il ne suffit pas de lui montrer des pixels. Il faut lui donner le sens de l'image.

L'image brute : Le système regarde la photo.
La description (Le petit secret) : Le système utilise une intelligence artificielle (une grande langue, comme un écrivain virtuel) pour décrire l'image avec des mots. Par exemple, au lieu de juste voir « un chien », le système comprend : « Un petit chien noir et blanc assis sur un balcon en bois, avec un collier argenté. »
La fusion : Le système combine l'image et cette description pour créer une « carte mentale » très riche. C'est comme si on donnait au cerveau non seulement la photo, mais aussi l'histoire derrière elle.

B. Le Miroir Temporel et Spatial (La Carte du Cerveau)

Le cerveau n'est pas un bloc unique. C'est une ville avec différents quartiers (le quartier de la vue, le quartier du mouvement, etc.) et le temps y joue un rôle crucial.

L'adresse du quartier : Le système sait exactement quel signal électrique doit aller dans quel « quartier » du cerveau (par exemple, le quartier occipital à l'arrière de la tête, qui gère la vision).
Le timing : Il sait aussi quand envoyer le signal. C'est comme un chef d'orchestre qui sait exactement à quel moment chaque musicien doit jouer sa note pour créer une mélodie cohérente.

C. La Transformation (Le Moteur de Diffusion)

Une fois que le système a compris l'image, sa description et l'adresse du cerveau, il utilise un moteur spécial (le Diffusion Transformer) pour générer le signal électrique.

Imaginez que le signal électrique est une statue de glace. Le système commence par un bloc de neige floue (du bruit) et, pas à pas, il sculpte cette neige pour qu'elle prenne exactement la forme du signal électrique que le cerveau devrait produire en voyant cette image.

3. Les Résultats : Une conversation réussie

Les chercheurs ont testé leur méthode sur deux bases de données réelles où des gens regardaient des images pendant qu'on enregistrait leur cerveau (avec des électrodes sur la tête).

Résultat : Le signal électrique généré par leur ordinateur ressemble énormément à celui produit par un vrai cerveau humain.
L'analogie : C'est comme si vous écoutiez une chanson sur un vieux poste radio (le signal généré) et que vous ne pouviez pas distinguer la différence avec la chanson originale en direct (le signal réel).

Pourquoi est-ce important ?

Aujourd'hui, les prothèses visuelles donnent aux aveugles des lumières floues ou des formes bizarres. Avec cette nouvelle méthode, on pourrait un jour envoyer des signaux beaucoup plus précis et « naturels » au cerveau.

C'est comme passer d'un dessin animé mal colorié à un film en haute définition. Cela ouvre la porte à une restauration de la vision beaucoup plus riche et utile pour les personnes aveugles.

En résumé : Ce papier décrit un nouveau traducteur qui prend une photo, la décrit avec des mots, sait exactement où et quand envoyer le message dans le cerveau, et génère un signal électrique si parfait qu'il trompe presque le cerveau lui-même.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les prothèses visuelles visent à restaurer une vision partielle chez les personnes aveugles (par exemple, atteintes de rétinite pigmentaire) en stimulant le cortex visuel via une électrode implantée. Le fonctionnement d'une telle prothèse repose sur deux étapes :

Le décodage cérébral (Brain Decoding) : Reconstruire une image à partir de signaux cérébraux (déjà bien avancé grâce aux modèles génératifs).
L'encodage cérébral (Brain Encoding) : Convertir une image visuelle externe en signaux de stimulation (M/EEG) qui imitent la réponse naturelle du cerveau.

Le problème central : Bien que le décodage ait progressé, l'encodage (conversion Image $\rightarrow$ Signal Cérébral) reste un domaine peu exploré. Les méthodes existantes souffrent de deux limitations majeures :

Elles utilisent souvent des données synthétiques ou des images seules comme supervision, sans utiliser de véritables réponses cérébrales pour valider la précision biologique des signaux prédits.
Les signaux générés manquent de "réalisme biologique", limitant l'efficacité de la restauration visuelle à des niveaux rudimentaires.

L'objectif de ce travail est de combler ce vide en proposant un cadre complet capable de générer des signaux M/EEG (Magnétoencéphalographie / Électroencéphalographie) réalistes à partir d'images, en utilisant les véritables réponses cérébrales comme signal de supervision.

2. Méthodologie

Les auteurs proposent un cadre novateur basé sur un Transformateur de Diffusion (DiT) guidé par des modèles multimodaux (CLIP et LLM).

Architecture Globale

Le modèle utilise une architecture Diffusion Transformer (DiT) basée sur les Denoising Diffusion Implicit Models (DDIM) pour générer des signaux cérébraux à partir du bruit, conditionnée par l'image d'entrée.

Composants Clés

Alignement Multimodal par Attention Croisée (Cross-Attention) :
- Pour aligner l'image avec le signal cérébral, le modèle utilise un mécanisme d'attention croisée où les embeddings du signal cérébral servent de Query (Q).
- Les Key (K) et Value (V) sont constituées d'un embedding unifié combinant :
  - Les embeddings d'image extraits par CLIP (Vision Transformer ViT-L/14).
  - Les embeddings de texte générés par un Grand Modèle de Langage (LLM) (Qwen2-VL-2B-Instruct) qui décrit l'image, puis encodés par le texteur CLIP.
- Cette combinaison permet au modèle de capturer à la fois les informations visuelles de bas niveau et les informations sémantiques de haut niveau.
Encodage de Position Spatio-Temporel Apprenable :
- Les signaux cérébraux possèdent une structure spatiale (localisation des électrodes/capteurs) et temporelle (évolution dans le temps).
- Le modèle introduit un encodage de position unique combinant :
  - Embeddings de régions cérébrales : Identifient à quelle région (ex: occipitale, frontale) appartient chaque patch de signal.
  - Embeddings temporels : Encodent la position temporelle de chaque patch.
- Cela permet au modèle de comprendre la topographie et la dynamique temporelle inhérentes aux données M/EEG.
Processus de Génération :
- Le modèle apprend à prédire le bruit ajouté à un signal cérébral propre ( $y_0$ ) en utilisant l'image conditionnelle ( $c_{unified}$ ).
- Lors de l'inférence, le modèle part d'un bruit gaussien pur et utilise l'échantillonnage DDIM pour reconstruire le signal cérébral correspondant à l'image d'entrée.

3. Contributions Principales

Nouveau Cadre Image-to-Brain : Première approche utilisant un DiT pour générer des signaux M/EEG à partir d'images, en utilisant des réponses cérébrales réelles comme supervision.
Alignement Sémantique Avancé : Intégration de descriptions textuelles générées par LLM (via CLIP) pour enrichir la représentation visuelle et améliorer la capture des informations sémantiques centrales.
Modélisation Spatio-Temporelle : Introduction d'un encodage de position spécifique qui modélise explicitement la structure spatiale (régions du cerveau) et temporelle des signaux neuronaux.
Validation sur Données Réelles : Utilisation de deux jeux de données multimodaux de référence (THINGS-EEG2 et THINGS-MEG) contenant des paires image-signal cérébral pour un apprentissage supervisé direct.

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données THINGS-EEG2 (10 sujets, 63 canaux EEG) et THINGS-MEG (4 participants, 271 canaux MEG).

Performance Quantitative :
- La méthode proposée surpasse systématiquement les modèles de base (y compris les modèles d'encodage traditionnels basés sur CNN et l'approche générative récente SynBrain) sur toutes les métriques :
  - MSE (Erreur Quadratique Moyenne) : Réduction significative de l'erreur.
  - Corrélation de Pearson : Amélioration notable (ex: 0.425 contre 0.366 pour SynBrain sur EEG).
  - Similarité Cosinus et Synchronisation (SL) : Meilleure alignement structurel et dynamique.
Généralisation Inter-sujet :
- Bien que la performance diminue lors du passage d'un sujet à un autre (en raison de la variabilité inter-individuelle des signaux), le modèle maintient une capacité de généralisation, démontrant la robustesse de l'architecture.
Études d'Ablation :
- La suppression des embeddings de texte (LLM), des régions cérébrales ou des embeddings temporels entraîne une baisse de performance, confirmant l'importance de chaque composant.
- L'analyse de sensibilité montre que la région occipitale est la plus critique pour la génération, ce qui correspond aux connaissances neuroscientifiques (traitement visuel primaire).
Qualité des Descriptions LLM :
- L'utilisation de Qwen2-VL-2B-Instruct pour générer les légendes s'avère supérieure à d'autres modèles (VisualGLM, MiniGPT-4) en termes de score CLIP (alignement sémantique image-texte) et de performance finale de génération de signaux.

5. Signification et Impact

Ce travail représente une avancée majeure pour le domaine des prothèses visuelles et de l'interface cerveau-machine (BCI) :

Complétion de la Pipeline : Il établit le premier cadre fonctionnel complet reliant l'image à la stimulation cérébrale (encodage) et la stimulation à la perception (décodage), essentiel pour des prothèses visuelles autonomes.
Réalisme Biologique : En générant des signaux M/EEG biologiquement plausibles, la méthode ouvre la voie à des stimulations plus naturelles, susceptibles d'évoquer des perceptions visuelles (phosphènes) plus riches et plus utiles pour les patients.
Outil de Recherche Neuroscientifique : Au-delà de l'application clinique, ce modèle offre un outil computationnel pour tester des hypothèses sur le traitement visuel hiérarchique et comprendre comment l'information est représentée dans le cerveau humain.

En résumé, cette recherche propose une solution robuste et innovante pour transformer la vision artificielle en stimulation neuronale, comblant un fossé critique dans le développement de technologies de restauration de la vue.