Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'IA qui "hallucine"

Imaginez un expert très intelligent (le Modèle de Langage) qui regarde une photo grâce à un assistant visuel (le Vision Encoder). Ensemble, ils forment un robot capable de répondre à des questions sur le monde.

Le problème, c'est que ce robot a tendance à halluciner. Il est si confiant dans sa logique verbale qu'il invente des choses qui ne sont pas là.

Exemple : Vous lui montrez une photo d'un parc avec un banc. Il vous dit : "Oui, il y a un chien assis sur le banc !" alors qu'il n'y a aucun chien. Il a "deviné" le chien parce que les chiens et les bancs vont souvent ensemble dans son cerveau, même si la photo ne le montre pas.

🔍 La Découverte : Le "Niveau de Zoom" compte

Les chercheurs ont découvert quelque chose de fascinant : l'assistant visuel ne regarde pas la photo d'une seule façon. Il la regarde à travers plusieurs "lunettes" ou couches de profondeur, un peu comme un oignon :

Les couches superficielles (Shallow) : Elles voient les détails précis, les bords, les textures (comme un crayon qui dessine les contours).
Les couches profondes (Deep) : Elles voient le sens global, les concepts (comme un peintre qui voit "un parc" ou "un chien").

Le problème des modèles actuels, c'est qu'ils utilisent toujours les mêmes lunettes (généralement les couches profondes) pour tout répondre.

Si on demande "Y a-t-il un chien ?", les couches profondes disent "Oui" car c'est un concept probable, même si le chien n'est pas là.
Si on demande "Combien de lignes y a-t-il ?", les couches profondes sont trop floues pour compter, il faut les couches superficielles.

C'est comme si vous essayiez de lire une petite étiquette sur une bouteille en utilisant uniquement votre vue de loin : vous devinerez le mot, mais vous risquez de vous tromper.

💡 La Solution : TGIF (Le Chef d'Orchestre Intelligent)

Les auteurs proposent une nouvelle méthode appelée TGIF (Text-Guided Inter-layer Fusion).

Imaginez que TGIF est un chef d'orchestre ou un traducteur très malin placé entre l'assistant visuel et le cerveau du robot.

Il écoute la question : Avant de regarder la photo, il lit la question posée par l'utilisateur.
Il choisit les bonnes lunettes :
- Si vous demandez "Y a-t-il un chien ?" (une question de vérification), le chef dit : "Attends, ne regarde pas le sens global, regarde les détails précis !" Il active les couches superficielles pour vérifier les contours.
- Si vous demandez "Décris la scène", il dit : "Ok, regarde le sens global, les couleurs et l'ambiance." Il active les couches profondes.
Il mélange intelligemment : Il ne choisit pas juste une couche, il mélange les réponses de toutes les couches en donnant plus de poids à celles qui sont utiles pour la question précise.

🎭 L'Analogie de la Réunion

Imaginez une réunion de travail pour résoudre un mystère :

L'ancien système : Il n'écoute que le directeur général (les couches profondes). Le directeur a une grande vision, mais il rate les petits détails. S'il y a un faux indice, il le croit parce que ça "semble logique".
Le système TGIF : C'est un nouveau manager qui écoute la question.
- Si la question est "Le suspect portait-il une montre ?", le manager dit : "Silence ! Écoutez l'expert en détails (les couches superficielles) qui a vu le poignet !".
- Si la question est "Quelle est l'ambiance de la pièce ?", il dit : "Écoutez le directeur général pour le contexte !".

Grâce à ce manager, l'équipe ne se trompe plus sur les détails (moins d'hallucinations) tout en restant intelligente sur le contexte.

🚀 Les Résultats

En testant cette méthode :

Le robot fait beaucoup moins d'erreurs "fantaisistes" (il ne voit plus de chiens là où il n'y en a pas).
Il devient excellent pour lire du texte dans les images (comme lire une enseigne ou un menu), car il sait quand se concentrer sur les détails fins.
Il reste aussi intelligent pour les raisonnements complexes.

En résumé : TGIF apprend au robot à ne pas utiliser le même "mode de vision" pour tout. Il adapte son regard à la question, ce qui le rend plus fiable, plus précis et moins enclin à inventer des histoires. C'est une façon élégante de rendre l'IA plus "honnête" visuellement sans avoir à tout réapprendre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Hallucination dans les MLLM

Les modèles de langage multimodaux (MLLM) actuels, tels que LLaVA, combinent la puissance de raisonnement des grands modèles de langage (LLM) avec des encodeurs visuels pré-entraînés (comme CLIP). Cependant, ils souffrent d'un problème persistant : l'hallucination. Les modèles génèrent des réponses confiantes mais non ancrées dans la réalité visuelle, souvent parce qu'ils s'appuient trop sur les priors linguistiques plutôt que sur les preuves visuelles.

L'article identifie une cause fondamentale sous-exploitée : la profondeur des représentations visuelles fournies au LLM.

Les architectures standards projettent généralement les tokens visuels d'une seule couche fixe (souvent la couche avant-dernière) de l'encodeur visuel.
Les auteurs démontrent que cette approche est rigide :
- Les couches peu profondes (early layers) contiennent des détails spatiaux et texturaux fins mais manquent de sémantique globale.
- Les couches profondes (late layers) capturent des concepts sémantiques globaux mais peuvent perdre les détails fins et induire des biais sémantiques forts (ex: voir un objet parce qu'il est "probable" dans le contexte linguistique, même s'il n'est pas là).
Le choix d'une seule couche fixe ne permet pas d'adapter le niveau d'abstraction visuelle à la nature spécifique de la requête textuelle, ce qui aggrave les hallucinations.

2. Méthodologie : TGIF (Text-Guided Inter-layer Fusion)

Pour résoudre ce problème, les auteurs proposent TGIF, un module architectural léger qui permet une fusion dynamique des caractéristiques visuelles à travers toutes les couches de l'encodeur visuel, guidée par le texte.

Architecture Principale

Le framework TGIF s'insère dans le connecteur multimodal (généralement un MLP) entre l'encodeur visuel (figé) et le LLM.

Entrées : Le module reçoit l'ensemble des représentations cachées de toutes les couches de l'encodeur visuel (ViT) et l'embedding du texte (la question ou l'instruction).
Routeur (Router) : Un petit réseau de neurones (MLP) agit comme un "routeur". Il analyse l'embedding textuel (et optionnellement une représentation globale de l'image) pour prédire une distribution de poids (softmax) sur les différentes couches de l'encodeur visuel.
Fusion Dynamique : Les caractéristiques visuelles de chaque couche sont pondérées par ces poids appris et fusionnées pour créer une représentation visuelle unique ( $F_{fused}$ $F_{f u se d}$ ).
- Formule : $F_{fused} = \sum_{l=1}^{L} w_l \cdot F_l$ , où $w_l$ est le poids de la couche $l$ déterminé par le texte.
Projection : Cette représentation fusionnée est ensuite projetée dans l'espace d'embedding du LLM via un connecteur léger.

Variantes du Routeur

Routeur uniquement textuel : Utilise uniquement l'embedding de la question pour décider quelles couches activer.
Routeur multimodal : Combine l'embedding de la question et une représentation globale de l'image (token [CLS]) pour une prise de décision plus contextuelle.

Optimisation : Perte d'Équilibrage de Charge (Load Balancing Loss)

Pour éviter que le routeur ne converge vers un état où il sélectionne toujours les mêmes couches "sûres" (effondrement des experts), les auteurs introduisent une perte auxiliaire basée sur l'entropie. Cette perte encourage une utilisation plus uniforme des couches lors de l'entraînement, garantissant que le modèle explore toute la hiérarchie visuelle avant de se spécialiser selon la requête.

3. Contributions Clés

Identification d'une limitation architecturale : Démonstration que l'utilisation d'une seule couche visuelle fixe est inadéquate pour les tâches sensibles aux détails et qu'elle exacerbe les hallucinations sous des priors linguistiques forts.
Proposition de TGIF : Un module de fusion inter-couches guidé par le texte, efficace en paramètres et en tokens, qui permet un contrôle dynamique du niveau d'abstraction visuelle sans modifier l'encodeur visuel ni augmenter le budget de tokens.
Validation Empirique : Preuve que l'adaptation dynamique des représentations visuelles améliore la robustesse aux hallucinations et la perception fine, tout en maintenant des performances de raisonnement général compétitives.

4. Résultats Expérimentaux

Les expériences ont été menées sur LLaVA-1.5 (7B) et évaluées sur plusieurs benchmarks :

Réduction des Hallucinations :
- Sur POPE (détection d'objets), TGIF atteint 87,91 % de précision, surpassant les méthodes de mitigation par décodage (comme VCD, OPERA) et les modèles de base.
- Sur HallusionBench, TGIF obtient 49,94 % de précision globale, dépassant non seulement LLaVA-1.5 (+3,0 %) mais aussi des modèles beaucoup plus grands (13B) et des modèles propriétaires comme GPT-4V dans certains scénarios.
Perception Fine et OCR :
- Amélioration significative sur OCRBench (+16 points) et TextVQA. TGIF réussit mieux à extraire des détails textuels et des structures locales en activant dynamiquement les couches intermédiaires qui préservent ces informations.
Raisonnement Général :
- Sur des benchmarks de raisonnement général (ScienceQA, MMBench, GQA), TGIF maintient des performances compétitives, prouvant que la fusion dynamique n'altère pas la capacité de raisonnement de haut niveau.
Analyse des Couches :
- L'analyse des poids du routeur montre qu'il apprend des stratégies distinctes : il privilégie les couches peu profondes pour les questions de vérification d'existence (pour éviter les biais sémantiques) et les couches intermédiaires/profondes pour les tâches de description ou de reconnaissance de texte.

5. Signification et Impact

Ce travail apporte une contribution majeure à la fiabilité des MLLM en changeant le paradigme de la fusion visuelle :

Passage du statique au dynamique : Au lieu d'agréger statiquement des couches (comme le font DenseConnector ou MMFuser), TGIF adapte la profondeur visuelle à la sémantique de la requête.
Efficacité : La solution est extrêmement légère (ajout de seulement ~0,03 % de paramètres et négligeable sur la latence) car elle ne nécessite pas de ré-entraînement de l'encodeur visuel ni d'augmentation de la complexité de calcul lors de l'inférence.
Interprétabilité : Le mécanisme de routage offre une fenêtre sur la façon dont le modèle "regarde" l'image, révélant que les hallucinations sont souvent le résultat d'un mauvais alignement entre le niveau d'abstraction visuelle utilisé et la nature de la question.

En conclusion, TGIF démontre que le contrôle adaptatif de la profondeur des caractéristiques visuelles est une voie prometteuse pour construire des modèles multimodaux plus fiables, précis et résistants aux hallucinations, sans sacrifier leurs capacités de raisonnement général.