LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks
Die Studie „LRR-Bench" stellt fest, dass Vision-Language-Modelle bei der räumlichen Erfassung von Objekten und Bewegungen im Vergleich zum menschlichen Leistungsvermögen erhebliche Defizite aufweisen, was durch einen neu entwickelten synthetischen Benchmark untermauert wird.