LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks
Este trabajo presenta LRR-Bench, un nuevo benchmark sintético que demuestra que, a pesar del rendimiento humano casi perfecto, los modelos de visión y lenguaje actuales aún luchan significativamente para comprender relaciones espaciales absolutas y movimientos en 3D, revelando una brecha crítica en estas capacidades.