Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Questo lavoro propone un metodo di ottimizzazione di texture avversarie 3D, basato su rendering differenziabile e strategie di ottimizzazione come EOT e un curriculum da grezzo a fine, per identificare e sfruttare le vulnerabilità delle politiche visuomotorie robotiche sotto diverse angolazioni di visione, superando i limiti delle tradizionali patch 2D.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Il paper presenta MultiGO++, un nuovo framework per la ricostruzione 3D di umani vestiti da una singola immagine che supera i limiti delle metodologie esistenti attraverso una collaborazione sistematica tra geometria e texture, realizzata tramite sintesi multi-sorgente, estrazione di forma consapevole delle regioni e una rete di ricostruzione duale.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Questo studio presenta un'analisi su larga scala delle capacità e dei limiti della Restaurazione Immagini Generativa, rivelando un cambiamento di paradigma dalla scarsità di dettagli verso la necessità di controllarne la qualità e il significato semantico, e proponendo un nuovo modello di valutazione della qualità dell'immagine allineato al giudizio umano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Il paper presenta Tell2Adapt, un innovativo framework unificato per l'adattamento di dominio non supervisionato senza sorgente in ambito medico che sfrutta un Modello Fondamentale Visivo per generare pseudo-etichette di alta qualità e garantire affidabilità clinica attraverso la regolarizzazione dei prompt e la raffinazione della plausibilità visiva, superando gli approcci esistenti su un vasto set di target anatomici.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs