Vision Language Models Cannot Reason About Physical Transformation
De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.