MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre une photo de journal où l'on voit un joueur de basket, et que le texte à côté dit : « Après 4 matchs déséquilibrés, les Heat et les Celtics sont à égalité ».

Votre tâche est de dire : « Quel est le lien entre ce joueur (dans la photo) et l'équipe "Heat" (dans le texte) ? »

C'est ce qu'on appelle l'extraction de relations multimodales. C'est dur pour un ordinateur, un peu comme essayer de résoudre une énigme en ayant les yeux bandés sur une partie de l'image et les oreilles bouchées sur une partie du texte.

Voici comment les chercheurs ont créé MORE-R1, une nouvelle intelligence artificielle (IA) capable de résoudre ce casse-tête, expliquée simplement :

1. Le problème des anciennes méthodes

Avant, les ordinateurs essayaient de deviner la réponse comme un élève qui apprend par cœur une liste de mots.

La méthode "Classification" : C'est comme un QCM. L'IA regarde l'image et le texte, puis choisit une étiquette dans une liste prédéfinie (ex: "ami", "ennemi", "membre"). Le problème ? Si une nouvelle relation apparaît, il faut tout réapprendre. Et si la situation est compliquée, l'IA se trompe souvent car elle ne "réfléchit" pas vraiment, elle devine juste.
La méthode "Génération sans réflexion" : On demande à l'IA de répondre directement. Mais comme elle n'a pas assez pratiqué ce type de logique, elle donne des réponses rapides et fausses, sans pouvoir expliquer pourquoi.

2. La solution : MORE-R1, l'IA qui "réfléchit à voix haute"

Les auteurs ont créé MORE-R1, qui fonctionne comme un détective très méthodique. Au lieu de donner une réponse immédiate, l'IA est obligée de passer par une phase de réflexion étape par étape (comme un brouillon avant de rédiger la copie).

Pour y arriver, ils ont utilisé une méthode en deux temps, un peu comme l'apprentissage d'un sport :

Étape 1 : L'entraînement au "Cold Start" (Le début de saison)

Imaginez que vous apprenez à jouer au basket. Au début, vous ne savez pas courir, dribbler et tirer en même temps.

Les chercheurs ont pris un expert humain (en l'occurrence, une IA très puissante appelée GPT-4o) pour créer des exemples de raisonnement.
Cet expert a écrit des "fiches de travail" détaillées :
1. Regarde la photo : C'est un joueur en maillot vert.
2. Regarde le texte : Il parle des Celtics (équipe verte) et des Heat (équipe rouge).
3. Fais le lien : Le joueur est dans l'équipe verte.
4. Déduis : Si le joueur est dans l'équipe verte et que le texte parle de l'équipe rouge, ils sont rivaux.
L'IA MORE-R1 a lu ces milliers de fiches pour apprendre la méthode de réflexion, pas juste la réponse.

Étape 2 : L'entraînement par Renforcement (Les matchs de championnat)

Maintenant que l'IA connaît la méthode, il faut la perfectionner. C'est là qu'intervient l'apprentissage par renforcement (RL).

L'IA essaie de résoudre des problèmes. Si elle trouve la bonne réponse en suivant les étapes, elle reçoit un "bonbon" (récompense). Si elle se trompe, pas de bonbon.
Le petit secret (La stratégie de mélange progressif) :
- Au début, si on donne à l'IA seulement des problèmes très difficiles, elle va se décourager et ne rien apprendre.
- Si on ne lui donne que des problèmes faciles, elle s'ennuie et ne progresse pas.
- La solution des chercheurs : Ils ont créé un entraînement intelligent. Au début, l'IA fait un mélange de problèmes faciles et difficiles (50/50). Au fur et à mesure qu'elle devient plus forte, on augmente petit à petit la part des problèmes difficiles, comme un entraîneur qui rend l'entraînement plus dur à chaque semaine. Cela permet à l'IA de ne pas abandonner tout en apprenant à gérer les cas complexes.

3. Le résultat final

Grâce à cette méthode, MORE-R1 est devenu le champion actuel (State-of-the-Art) sur ce type de tâche.

Transparence : On peut voir le "brouillon" de l'IA. On voit exactement comment elle a déduit que le joueur et l'équipe Heat étaient rivaux. C'est comme si l'IA vous expliquait son raisonnement avant de donner la réponse.
Flexibilité : Elle n'a pas besoin d'être reprogrammée pour chaque nouvelle relation, elle sait simplement raisonner.
Précision : Elle évite les erreurs grossières en vérifiant chaque étape de son logique.

En résumé :
MORE-R1, c'est comme passer d'un élève qui devine la réponse au hasard, à un élève qui prend un crayon, analyse les indices un par un, écrit son raisonnement, et arrive à la bonne conclusion avec une certitude totale. C'est une avancée majeure pour faire comprendre aux ordinateurs la complexité du monde réel, où les images et les textes sont souvent liés de manière subtile.

Each language version is independently generated for its own context, not a direct translation.

` avant de produire la réponse finale.

Étape 2 : Optimisation par Apprentissage par Renforcement (RL)

Algorithme : Utilisation de l'algorithme GRPO (Group Relative Policy Optimization), qui élimine le besoin d'un modèle de valeur séparé, réduisant ainsi la complexité computationnelle.
Fonction de Récompense : Une récompense composite basée sur des règles évalue trois aspects :
1. Format : Respect de la structure de raisonnement et des balises.
2. Longueur : Encouragement d'un raisonnement approfondi (CoT long).
3. Réponse : Exactitude de la relation prédite par rapport à la vérité terrain.
Stratégie Innovante : Mélange Progressif d'Échantillons (Progressive Sample-Mixing Strategy)
- Les auteurs constatent que l'entraînement RL sur l'ensemble des données restantes (75% du dataset) est inefficace car la majorité sont des échantillons "faciles".
- À l'inverse, l'entraînement uniquement sur les échantillons "difficiles" dès le début déstabilise le modèle.
- Solution : Une stratégie curriculum où la proportion d'échantillons difficiles dans chaque mini-batch augmente progressivement au fil des époques (définie par un facteur de décroissance $\alpha$ ). Cela permet au modèle de consolider ses bases sur des cas simples avant d'explorer des scénarios complexes.

3. Contributions Clés

MORE-R1 : Premier modèle à adapter efficacement un LVLM (Qwen2.5-VL) à la tâche MORE via un raisonnement explicite et un entraînement RL.
Construction Automatique de Données de Raisonnement : Une méthode efficace pour générer des données d'entraînement SFT de haute qualité avec des étapes de raisonnement fines, sans annotation manuelle massive.
Stratégie de Mélange Progressif : Une nouvelle approche pour stabiliser l'entraînement RL sur des tâches complexes, permettant une transition fluide des échantillons faciles vers les échantillons difficiles.
Transparence et Évolutivité : Contrairement aux méthodes de classification, MORE-R1 offre une interprétabilité complète de sa décision via la chaîne de pensée et peut gérer de nouveaux types de relations sans réentraînement structurel.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark MORE (20 264 échantillons).

Performance Globale : MORE-R1 atteint des performances State-of-the-Art (SOTA), surpassant la méthode de référence précédente (REMOTE) de manière significative :
- +1,5% en Précision (Acc).
- +4,2% en Précision (P).
- +8,0% en Rappel (R).
- +6,1% en Score F1.
Comparaison avec les LVLM bruts : Les modèles LVLM (Qwen2.5-VL) en mode "Zero-Shot" ou avec un simple affinement supervisé (SFT sans raisonnement) obtiennent des résultats médiocres, confirmant la nécessité de l'approche par étapes et du RL.
Ablation Studies :
- L'étape 1 (SFT) seule améliore déjà les résultats par rapport au SFT standard, prouvant l'efficacité du paradigme de raisonnement.
- L'étape 2 (RL) apporte le gain final.
- La stratégie de mélange progressif ( $\alpha=0.5$ ) s'avère supérieure aux stratégies "tout mélangé" ou "uniquement difficile", évitant la sur-optimisation sur les cas simples ou la dégradation sur les cas complexes.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de l'extraction d'informations multimodales. Il démontre que les Grands Modèles de Raisonnement (Large Reasoning Models), lorsqu'ils sont correctement adaptés via un entraînement hybride (SFT + RL), surpassent les architectures spécialisées traditionnelles pour des tâches nécessitant une inférence complexe.

L'approche MORE-R1 résout le problème de l'opacité des modèles génératifs en rendant le processus de décision transparent et interprétable. De plus, la stratégie de mélange progressif proposée offre une nouvelle piste méthodologique pour l'entraînement par RL sur des tâches où la difficulté des échantillons est hétérogène, applicable potentiellement à d'autres domaines de l'IA multimodale.

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

1. Le problème des anciennes méthodes

2. La solution : MORE-R1, l'IA qui "réfléchit à voix haute"

Étape 1 : L'entraînement au "Cold Start" (Le début de saison)

Étape 2 : L'entraînement par Renforcement (Les matchs de championnat)

3. Le résultat final

Étape 2 : Optimisation par Apprentissage par Renforcement (RL)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities