Towards Interpretable Visual Decoding with Attention to Brain Representations

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Défi : Lire les pensées visuelles

Imaginez que vous regardez une photo magnifique, disons un coucher de soleil sur une plage. Votre cerveau s'active, des milliers de neurones s'illuminent pour enregistrer cette image.

Le but des scientifiques est de retrouver cette photo en regardant uniquement l'activité électrique de votre cerveau (via une IRMf, une sorte de "scanner" très puissant). C'est comme essayer de deviner quel film vous regardez en observant juste les mouvements de vos yeux, mais en 3D et à l'intérieur de votre tête.

🚧 Le Problème des anciennes méthodes : Le "Téléphone Arabe"

Jusqu'à présent, la plupart des méthodes fonctionnaient comme un jeu de "téléphone arabe" compliqué :

Étape 1 : On prend l'activité de votre cerveau et on essaie de la traduire en une "liste de mots" ou un "code secret" (des caractéristiques intermédiaires) que l'ordinateur comprend bien (comme si on décrivait la photo avec des mots-clés : "ciel", "orange", "vague").
Étape 2 : On donne ce code à un artiste robot (un générateur d'images) pour qu'il dessine la photo.

Le problème ? Cette étape intermédiaire perd des détails. C'est comme si vous essayiez de dessiner un paysage en vous basant uniquement sur une description textuelle approximative. De plus, on ne sait pas exactement quelle partie de votre cerveau a dit "dessine le ciel" et quelle partie a dit "dessine la mer". C'est une boîte noire.

✨ La Solution : NeuroAdapter (Le Traducteur Direct)

Les auteurs de cette paper (de l'Université Columbia) ont créé une nouvelle méthode appelée NeuroAdapter.

Imaginez que votre cerveau est un chef d'orchestre et que le générateur d'images est un musicien.

L'ancienne méthode : Le chef d'orchestre parlait à un interprète, qui parlait au musicien. Beaucoup d'informations se perdaient en route.
La nouvelle méthode (NeuroAdapter) : Le chef d'orchestre donne des signes directs au musicien, en temps réel. Pas d'interprète, pas de perte d'information.

Le modèle prend les signaux bruts de votre cerveau et les connecte directement à l'outil qui dessine l'image. Il n'a pas besoin de passer par une étape intermédiaire de "mots" ou de "codes".

🔍 La Magie : Voir la "Danse" du Cerveau (IBBI)

Ce qui rend cette recherche vraiment spéciale, c'est qu'elle est transparente. Grâce à leur nouveau système appelé IBBI, les chercheurs peuvent voir comment l'image se construit, pas seulement le résultat final.

C'est comme si, pendant que le musicien joue, on pouvait voir exactement quels instruments (quelles zones du cerveau) jouent à quel moment :

Au début du dessin (quand l'image est floue), on voit que les zones du cerveau liées aux formes simples (comme les bords) sont très actives.
Plus tard, quand les détails apparaissent, on voit que les zones liées aux visages ou aux objets complexes prennent le relais.

Ils ont même créé une carte visuelle (une "carte de chaleur") qui montre quelles parties du cerveau influencent quelles parties de l'image. C'est comme avoir un GPS du cerveau qui nous dit : "Attention, c'est la zone 'Visage' qui dessine les yeux maintenant !"

🎨 Les Résultats

Qualité : Les images reconstruites sont aussi belles et précises que celles des meilleures méthodes actuelles, même sans passer par l'étape intermédiaire.
Compréhension : Pour la première fois, on peut dire avec certitude : "Ah, c'est cette petite zone de votre cerveau qui a permis de dessiner le chat, et cette autre zone qui a dessiné le chaton."
Imagination : Le système fonctionne même quand vous fermez les yeux et imaginez une image (rêve éveillé), pas seulement quand vous regardez une vraie photo.

En résumé

Cette recherche est une révolution parce qu'elle simplifie le processus (en supprimant les étapes inutiles) et ouvre la boîte noire (en nous montrant comment le cerveau "dicte" l'image). C'est un pas de géant vers la compréhension de comment nous voyons le monde, et peut-être un jour, vers la lecture de nos rêves les plus profonds.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le décodage visuel à partir de l'activité cérébrale (fMRI) a fait des progrès significatifs grâce aux modèles génératifs profonds. Cependant, les approches actuelles reposent généralement sur un pipeline en deux étapes :

Cartographie intermédiaire : Les signaux cérébraux sont d'abord mappés vers un espace de caractéristiques intermédiaire (embeddings) dérivé de modèles de fondation pré-entraînés (comme CLIP ou DINO).
Génération : Ces embeddings intermédiaires guident ensuite un modèle génératif (généralement un modèle de diffusion latent) pour reconstruire l'image.

Limites principales :

Goulot d'étranglement informationnel : La dépendance à un espace d'embedding intermédiaire peut filtrer des informations neurales spécifiques.
Manque d'interprétabilité : Cette étape intermédiaire obscurcit la contribution spécifique de différentes zones cérébrales (parcelles) à la reconstruction finale, rendant difficile la compréhension de comment le cerveau influence la génération d'images.

2. Méthodologie : NeuroAdapter

Les auteurs proposent NeuroAdapter, un cadre de décodage de bout en bout (end-to-end) qui conditionne directement un modèle de diffusion latent sur les représentations cérébrales, sans espace de caractéristiques intermédiaire.

A. Architecture et Entraînement

Base : Le modèle utilise une architecture Stable Diffusion pré-entraînée.
Traitement des données fMRI :
- Les données fMRI de surface (espace fsaverage) sont divisées en parcelles corticales utilisant la parcellisation Schaefer (500 parcelles par hémisphère).
- Seules les parcelles avec le meilleur rapport Signal/Bruit (SNR) sont sélectionnées (par exemple, $p=200$ parcelles).
- Une carte linéaire par parcelle transforme les réponses des sommets (vertices) en tokens d'embeddings fMRI ( $E \in \mathbb{R}^{n \times p \times f}$ ).
Mécanisme de conditionnement :
- Les couches d'attention croisée (cross-attention) du U-Net de Stable Diffusion sont remplacées par un module de type IP-Adapter.
- Les tokens fMRI servent de clés (Keys) et de valeurs (Values) pour l'attention croisée, tandis que les tokens spatiaux de l'image latente servent de requêtes (Queries).
- L'encodeur de texte de Stable Diffusion reçoit une entrée vide pour isoler l'effet des signaux cérébraux.
Stratégies d'entraînement :
- Dropout de tokens fMRI : Une stratégie stochastique pour masquer aléatoirement certains tokens de parcelles durant l'entraînement, améliorant la robustesse.
- Pondération Min-SNR : Utilisation d'une stratégie de pondération de la perte pour équilibrer l'apprentissage entre les étapes de diffusion à faible et fort rapport signal/bruit.

B. Sélection de l'image décodée

Pour pallier la variabilité stochastique des modèles de diffusion, les auteurs utilisent un encodeur cérébral (entraîné sur le même jeu de données) pour sélectionner la meilleure reconstruction parmi plusieurs candidats générés. Le candidat dont l'activité cérébrale prédite corrèle le mieux avec la mesure fMRI réelle est retenu.

3. Contributions Clés : Le cadre IBBI

La contribution majeure est l'introduction du cadre IBBI (Image–Brain BI-directional interpretability framework) pour rendre le processus génératif interprétable. Il exploite les poids d'attention croisée à chaque étape de débruitage ( $t$ ) :

Vue dirigée vers le cerveau (Brain-directed View) :
- Agrège les poids d'attention pour calculer la contribution relative de chaque parcelle cérébrale à chaque étape de la génération.
- Permet de visualiser sur la surface corticale quelles régions dominent le processus génératif.
Vue dirigée vers l'image (Image-directed View) :
- Cartographie l'attention d'une région d'intérêt (ROI) spécifique (ex: zone des visages) sur les pixels de l'image générée.
- Génère des cartes de chaleur (heatmaps) montrant où, dans l'image, une région cérébrale spécifique influence la reconstruction à chaque étape de débruitage.
Analyse de perturbation causale :
- Masquage de parcelles spécifiques pour observer l'impact sur la reconstruction (ex: masquer les ROIs de haut niveau change radicalement le contenu sémantique, tandis que les ROIs de bas niveau affectent les détails).

4. Résultats Expérimentaux

Le modèle a été évalué sur trois jeux de données : NSD (Natural Scene Dataset), NSD-Imagery (imagerie mentale) et Deeprecon.

Performance de décodage :
- NeuroAdapter atteint des performances compétitives, voire supérieures, par rapport aux méthodes basées sur l'alignement d'embeddings (comme MindEye1, Brain Diffuser, Takagi & Nishimoto) sur les métriques sémantiques de haut niveau (CLIP, Inception, AlexNet).
- Sur les métriques de bas niveau (PixCorr, SSIM), les performances sont comparables, bien que certaines méthodes concurrentes utilisant des voies dédiées pour les caractéristiques de bas niveau (comme VDVAE) puissent légèrement surpasser NeuroAdapter sur ces métriques spécifiques.
- Le modèle généralise bien aux tâches d'imagerie mentale (NSD-Imagery) et à des classes d'images disjointes (Deeprecon), suggérant une capacité à inférer des propriétés visuelles fines (forme, orientation, couleur).
Interprétabilité (IBBI) :
- Les cartes d'attention montrent une dynamique claire : au début du débruitage, l'attention est diffuse ; à mesure que l'image se précise, l'attention se concentre sur des régions sémantiquement pertinentes (ex: les ROIs "Visage" se concentrent sur les visages).
- Les scores IoU (Intersection over Union) et Dice entre les masques d'attention IBBI et les segmentations sémantiques (via SAM3) sont significativement supérieurs à une ligne de base "tout l'image", validant la précision spatiale de l'interprétabilité.

5. Signification et Impact

Suppression du goulot d'étranglement : En évitant les espaces d'embedding intermédiaires, NeuroAdapter établit un lien plus direct et transparent entre l'activité neuronale et la génération d'images.
Nouvelle perspective neuroscientifique : Le cadre IBBI permet de répondre à des questions fondamentales sur l'organisation fonctionnelle du cerveau : quelles régions contribuent à quelles parties de l'image et à quel moment du processus de reconstruction ?
Au-delà des métriques d'images : L'article souligne que les métriques d'images traditionnelles atteignent un plateau de saturation. L'interprétabilité mécanique (via l'attention) devient un critère essentiel pour évaluer la fidélité du décodage cérébral et comprendre l'interface neurale-générative.

En résumé, ce travail propose une avancée majeure vers un décodage visuel interprétable et anatomiquement fondé, démontrant qu'il est possible de reconstruire des scènes complexes directement à partir de l'activité cérébrale tout en révélant les mécanismes dynamiques sous-jacents.