Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Questo lavoro propone un metodo di ottimizzazione di texture avversarie 3D, basato su rendering differenziabile e strategie di ottimizzazione come EOT e un curriculum da grezzo a fine, per identificare e sfruttare le vulnerabilità delle politiche visuomotorie robotiche sotto diverse angolazioni di visione, superando i limiti delle tradizionali patch 2D.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL