Can Vision-Language Models Solve the Shell Game?
Dit paper introduceert VET-Bench, een diagnostische test om het tekort aan objecttracking in Vision-Language Models bloot te leggen, en presenteert SGCoT, een methode die door het genereren van expliciete objecttrajecto's de prestaties op deze taak tot boven de 90% brengt.