Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
Este artículo presenta PRPO, un método de optimización de políticas paralelas que resuelve conflictos en el entrenamiento de modelos visuales para el análisis profundo de gráficos, junto con MCDR-Bench, una nueva plataforma de evaluación objetiva que supera las limitaciones de las técnicas actuales al medir capacidades de razonamiento analítico avanzado.