It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models
Deze paper introduceert het realistische dataset TickTockVQA en het fine-tuning-framework Swap-DPO om de zwakke prestaties van vision-language modellen bij het lezen van analoge klokken in complexe, echte omgevingen aanzienlijk te verbeteren.