Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
Dit paper introduceert PRPO, een trainingsmethode die conflicten tussen beloningssignalen en data oplost, en MCDR-Bench, een objectieve evaluatiebenchmark, om de diepe analysecapaciteiten van LVLMs voor diagrammen systematisch te verbeteren.