It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models
本論文は、現実世界の多様な環境におけるアナログ時計の読み取りが現在の視覚言語モデルにとって依然として課題であることを指摘し、実世界データセット「TickTockVQA」と最適化手法「Swap-DPO」を提案することで、モデルの時計読み取り精度と空間的推論能力を大幅に向上させることを示しています。