VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
O artigo apresenta o VisioMath, um novo benchmark de 1.800 problemas matemáticos do ensino fundamental e médio que avaliam a capacidade de raciocínio comparativo de Modelos Multimodais Grandes (LMMs) ao distinguir diagramas visualmente similares, revelando que falhas frequentes decorrem de desalinhamento entre imagem e texto e demonstrando que estratégias de alinhamento podem melhorar significativamente o desempenho desses modelos.