RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina di insegnare a un bambino molto intelligente (ma un po' distratto) come leggere una mappa della metropolitana complessa, come quella di Londra o di Tokyo.

Il Problema: Il "Buco Nero" della Ricompensa

Fino a poco tempo fa, i modelli di intelligenza artificiale (chiamati MLLM) erano bravissimi a parlare e a riconoscere oggetti semplici, ma si perdevano completamente quando dovevano ragionare su mappe dettagliate.

Il problema era come li si allenava. Immagina di chiedere al bambino: "Qual è il percorso migliore per andare da casa mia al museo?".

Se il bambino sbaglia anche solo di un solo stop, tu gli dici: "Sbagliato!" (Nessuna ricompensa).
Se indovina tutto perfettamente, gli dai un premio.

Questo è il problema dei prezzi radi (sparse rewards): il bambino prova milioni di percorsi sbagliati, non riceve mai nessun "bravo", si sente frustrato e smette di imparare. Non sa dove ha sbagliato esattamente (era il treno sbagliato? Era la fermata sbagliata?).

La Soluzione: REASONMAP-PLUS (Il Libro di Esercizi Graduali)

Gli autori hanno creato un nuovo "libro di esercizi" chiamato REASONMAP-PLUS. Invece di buttare subito il bambino nella giungla della metropolitana, hanno creato un percorso a gradini:

Livello Facile: "Quante linee ci sono in questa mappa?" (Contare è semplice).
Livello Medio: "Quante fermate ci sono tra A e B?" (Un po' più difficile).
Livello Difficile: "Qual è il percorso migliore?" (Il vero ragionamento complesso).

Invece di aspettare la fine per dare un voto, ora diamo un piccolo "bravo" per ogni risposta corretta a ogni livello. Questo è come dare al bambino un adesivo ogni volta che conta correttamente, prima ancora di fargli risolvere il percorso completo.

Il Metodo: REWARDMAP (L'Allenatore Intelligente)

Qui entra in gioco il vero protagonista: REWARDMAP. È un sistema di allenamento in due fasi che usa l'apprendimento per rinforzo (RL), ma in modo intelligente.

1. L'Allenatore che nota i Dettagli (Ricompense Dettagliate)

Nell'allenamento normale, se il bambino dice "Prendi la Linea Rossa" invece della "Linea Blu", l'allenatore dice solo "Sbagliato".
Con REWARDMAP, l'allenatore è molto più attento:

"Bravo, hai individuato la stazione di partenza giusta!" (+1 punto).
"Ottimo, hai capito il nome della linea!" (+1 punto).
"Peccato, hai sbagliato la fermata di arrivo, ma il resto era giusto." (+0.5 punti).

Invece di un "tutto o niente", diamo punti parziali. Questo aiuta il bambino a capire esattamente cosa sta facendo bene e cosa no, anche quando la risposta finale non è perfetta.

2. Il Percorso a Gradini (Curriculum Multi-Stadio)

Invece di mescolare tutti gli esercizi insieme, REWARDMAP organizza l'allenamento in stadi:

Stadio 1: Si allenano solo con le domande facili (contare le linee). Il bambino prende confidenza e impara a "vedere" bene la mappa.
Stadio 2: Si passa alle domande medie (contare le fermate).
Stadio 3: Solo ora si affrontano i percorsi complessi.

È come imparare a guidare: prima si impara a stare dritti in un parcheggio vuoto, poi si guida in un quartiere tranquillo, e solo alla fine si affronta il traffico della città. Questo evita che il bambino si spaventi o si confonda all'inizio.

Il Risultato: Un Super-Eroe delle Mappe

Grazie a questo metodo, il modello di intelligenza artificiale non solo impara a risolvere i problemi delle mappe della metropolitana, ma diventa anche molto più bravo in generale.

È come se, imparando a navigare nella metropolitana con questo metodo speciale, il bambino diventasse improvvisamente capace di:

Leggere meglio i grafici.
Capire le relazioni spaziali (dove sono le cose rispetto ad altre).
Risolvere problemi logici complessi in molti altri campi.

In Sintesi

Il paper REWARDMAP dice: "Non lasciate che l'IA si perda nel buio aspettando un premio finale. Datele piccoli premi per ogni piccolo passo fatto bene e fatela allenare dai compiti facili a quelli difficili."

Il risultato è un'intelligenza artificiale che non solo risolve i puzzle delle mappe, ma capisce il mondo visivo in modo molto più umano e preciso.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Ragionamento Visivo Fine-Grained e Ricompense Sparse

Il lavoro affronta una sfida fondamentale per i Modelli Linguistici Multimodali (MLLM): il ragionamento visivo fine-grained su input strutturati, in particolare le mappe di transito ad alta risoluzione.

Contesto: Benchmarks recenti come REASONMAP hanno dimostrato che anche i modelli MLLM più avanzati faticano a combinare la comprensione visiva con il ragionamento spaziale (es. pianificazione di percorsi).
La Sfida Principale: L'applicazione diretta del Reinforcement Learning (RL) a questi compiti è ostacolata dal problema delle ricompense sparse. In compiti complessi come la pianificazione di un percorso, il segnale di successo/insuccesso è fornito solo alla fine della catena di ragionamento (risposta finale). Questo rende l'ottimizzazione instabile, rallenta la convergenza e impedisce un'esplorazione efficace, poiché il modello non riceve feedback intermedi su quali passaggi del ragionamento siano corretti.
Limiti degli Approcci Esistenti: Il Supervised Fine-Tuning (SFT) offre supervisione densa ma spesso porta a un adattamento eccessivo (overfitting) e a una rigidità cognitiva, fallendo nell'insegnare processi decisionali a catena lunga tipici del ragionamento visivo.

2. Metodologia: REWARDMAP

Per superare queste limitazioni, gli autori propongono REWARDMAP, un framework di Reinforcement Learning multi-stadio progettato specificamente per colmare il divario tra percezione visiva e ragionamento complesso. La metodologia si basa su due pilastri principali:

A. Costruzione del Dataset: REASONMAP-PLUS

Prima di applicare il RL, gli autori costruiscono un dataset esteso chiamato REASONMAP-PLUS.

Struttura: Include 4.018 domande derivanti da mappe di transito di 30 città in 13 paesi.
Curriculum di Difficoltà: Le domande sono organizzate lungo un continuum di difficoltà (facile, medio, difficile) e coprono 5 categorie:
1. Conteggio Globale: Numero totale di linee.
2. Conteggio Locale 1: Numero di fermate intermedie tra due stazioni.
3. Conteggio Locale 2: Numero di linee che attraversano una stazione specifica.
4. Vero/Falso 1: Relazione spaziale tra due stazioni.
5. Vero/Falso 2: Relazione tra una stazione e una linea.
Scopo: Fornire segnali di ricompensa densi per un "cold-start" efficace, permettendo al modello di apprendere competenze di percezione visiva di base prima di affrontare compiti di ragionamento complesso.

B. Il Framework REWARDMAP

Il framework integra due componenti chiave per ottimizzare il processo di apprendimento:

Design della Ricompensa Consapevole della Difficoltà (Difficulty-Aware Reward Design):
Per mitigare la sparsità delle ricompense, la funzione di ricompensa totale ( $R$ ) è composta da tre termini scalati da un fattore di difficoltà:
$R = W_{difficulty} \times (R_{format} + R_{correctness} + \alpha \times R_{detail})$
- Ricompensa di Formato ( $R_{format}$ ): Garantisce che l'output rispetti lo schema richiesto (es. uso di \boxed{}).
- Ricompensa di Correttezza ( $R_{correctness}$ ): Valuta la risposta finale (esatta per domande Vero/Falso o di conteggio; basata su metriche specifiche per la pianificazione).
- Ricompensa di Dettaglio ( $R_{detail}$ ): Innovazione chiave. Assegna crediti parziali per gli elementi corretti della risposta (es. nome della linea, stazione di partenza, stazioni di trasferimento, numero di segmenti), anche se la risposta finale non è perfetta. Questo fornisce feedback granulare durante il training.
- Ponderazione della Difficoltà ( $W_{difficulty}$ ): Scala la ricompensa totale in base alla difficoltà della mappa e alla complessità della domanda (es. numero di trasferimenti richiesti), premiando di più i compiti difficili.
Strategia RL Multi-Stadio (Multi-Stage RL Scheme):
Invece di un addestramento monolitico, REWARDMAP utilizza un curriculum learning basato su Group Relative Policy Optimization (GRPO):
- Principio Globale: L'addestramento procede da compiti semplici (percezione: conteggio, Vero/Falso) a compiti complessi (ragionamento: pianificazione percorsi).
- Principio Locale Stocastico: All'interno di ogni stadio, i campioni vengono mescolati stocasticamente per evitare l'overfitting su un percorso curricolare rigido.
- Cold-Start: Il training inizia direttamente con il RL sui dati di REASONMAP-PLUS (ricompense dense), evitando la fase di SFT iniziale che spesso limita l'esplorazione.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli Qwen2.5-VL (3B, 7B, 32B, 72B) e Kimi-VL, utilizzando 8 GPU NVIDIA H800.

Performance su REASONMAP e REASONMAP-PLUS:
- REWARDMAP supera sistematicamente le baseline (SFT, RL standard, SFT+RL).
- Sul benchmark REASONMAP, il modello Qwen2.5-VL-7B addestrato con REWARDMAP raggiunge un'accuratezza ponderata del 31.51% (domande brevi) e 31.77% (domande lunghe), superando il modello open-source più grande (Qwen2.5-VL-72B) e avvicinandosi alle performance di modelli proprietari come Seed1.5-VL.
- Su REASONMAP-PLUS, il modello supera tutti i modelli open-source e anche Seed1.5-VL.
Generalizzazione su Altri Benchmark:
- I modelli addestrati con REWARDMAP mostrano miglioramenti coerenti su 6 benchmark esterni che coprono ragionamento spaziale, ragionamento visivo fine-grained e compiti generali.
- Miglioramento Medio: +3.47% su tutti i benchmark.
- Esempi specifici: +13.51% su SpatialEval (in particolare nel task di navigazione in labirinto, da 19.60% a 57.20%) e miglioramenti significativi su HRBench e MMStar.
Analisi Qualitativa:
- REWARDMAP riduce drasticamente le allucinazioni (es. ripetere percorsi inesistenti) e la confusione visiva (es. scambiare linee o stazioni), producendo percorsi corretti anche su mappe visivamente complesse dove le baseline falliscono.

4. Contributi Chiave

REASONMAP-PLUS: Un dataset esteso e curato che organizza i compiti visivi su un continuum di difficoltà, fornendo supervisione densa per l'avvio del training RL.
REWARDMAP: Un nuovo framework RL multi-stadio che combina:
- Un design di ricompensa consapevole della difficoltà e orientato ai dettagli (detail-oriented), che risolve il problema della sparsità delle ricompense.
- Una strategia di cold-start basata su curriculum (dal facile al difficile) che supera i limiti dell'inizializzazione SFT.
Evidenza Sperimentale: Dimostrazione che l'approccio non solo migliora le prestazioni sui compiti target (mappe di transito) ma potenzia le capacità generali di percezione e ragionamento visivo dei MLLM.

5. Significato e Impatto

Questo lavoro è significativo perché offre una soluzione strutturata al problema delle ricompense sparse nel ragionamento visivo complesso, un collo di bottiglia che ha limitato l'adozione del RL in questo dominio.

Principio Generale: La combinazione di ricompense parziali (detail rewards) e curriculum learning multi-stadio sembra essere un approccio universale per insegnare ai modelli a ragionare su dati visivi strutturati.
Applicabilità: Sebbene focalizzato sulle mappe, il framework è estendibile ad altri domini visivi strutturati come grafici, diagrammi e tabelle, come suggerito dai risultati preliminari su ChartQA.
Avanzamento Tecnologico: REWARDMAP dimostra che è possibile colmare il divario tra la capacità di "vedere" (percezione) e la capacità di "ragionare" (logica spaziale) nei modelli multimodali, rendendoli più affidabili per applicazioni reali come la navigazione e i sistemi di trasporto intelligenti.