Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards
O artigo apresenta o Chart-RL, um método de aprendizado por reforço que utiliza recompensas matematicamente verificáveis para superar as limitações de generalização de modelos de linguagem e visão na compreensão de gráficos, demonstrando que treinar com poucos exemplos complexos é mais eficaz do que usar grandes volumes de dados simples e que essa abordagem melhora tanto a generalização interna quanto a transferência para problemas matemáticos visuais fora do domínio.