From Perception to Action: An Interactive Benchmark for Vision Reasoning
Il paper introduce CHAIN, un nuovo benchmark interattivo 3D basato sulla fisica che valuta la capacità dei modelli Vision-Language di pianificare azioni complesse vincolate da strutture fisiche, rivelando che gli attuali modelli avanzati faticano ancora a comprendere e tradurre in modo affidabile tali vincoli causali in piani d'azione a lungo termine.