Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
O artigo propõe o PRPO, um método de otimização de política relativa paralela para resolver conflitos de treinamento em LVLMs voltados a gráficos, e o MCDR-Bench, um novo benchmark para avaliação objetiva de capacidades de pesquisa profunda, estabelecendo assim um quadro unificado para avançar a inteligência de dados em visualizações.