Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
Il paper propone PRPO, un metodo di ottimizzazione parallela per risolvere i conflitti di addestramento nei modelli LVLM per l'analisi dei grafici, e MCDR-Bench, una nuova benchmark per la valutazione oggettiva delle capacità di ricerca approfondita, stabilendo un quadro unificato che supera le attuali limitazioni nell'intelligenza dei dati visivi.