PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

Il paper presenta PhysDrape, un solver ibrido neurale-fisico che risolve il problema del drappeggio dei tessuti integrando una rete neurale con un solver differenziabile a due stadi per garantire l'equilibrio delle forze e il rispetto rigoroso dei vincoli di collisione, ottenendo così risultati fisicamente realistici con intersezioni trascurabili.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

Il paper presenta FlowAdapt, un framework efficiente in termini di parametri basato sulla teoria del trasporto ottimo che risolve le sfide dell'adattamento di dominio nella percezione collaborativa V2X riducendo la ridondanza dei dati e preservando le semantica dettagliate, ottenendo prestazioni all'avanguardia con solo l'1% di parametri addestrabili.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Il paper propone SToRM, un innovativo framework di riduzione supervisionata dei token per modelli linguistici multi-modali che, mediante un predittore di importanza, un addestramento supervisionato e un modulo di fusione contestuale, abilita sistemi di guida autonoma end-to-end efficienti riducendo i costi computazionali fino a 30 volte senza compromettere le prestazioni rispetto all'uso di tutti i token.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Il paper presenta 3DMedAgent, un agente unificato che abilita modelli linguistici multimodali 2D all'analisi medica 3D attraverso la coordinazione di strumenti eterogenei e un ragionamento multi-step guidato da evidenze, superando i limiti delle architetture esistenti e ottenendo prestazioni superiori su oltre 40 compiti diagnostici.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Il paper presenta OVerSeeC, un framework zero-shot modulare che combina modelli linguistici e segmentazione open-vocabulary per generare mappe dei costi globali adattabili da immagini satellitari e istruzioni in linguaggio naturale, permettendo una pianificazione di percorsi autonoma e flessibile per missioni con requisiti variabili.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Questo lavoro presenta un framework di decomposizione delle immagini basato su modelli di diffusione pre-addestrati e adattati tramite LoRA, che utilizza una strategia di tuning ciclicamente coerente e un processo di auto-miglioramento progressivo per separare con precisione elementi complessi come i loghi dalle loro superfici di sfondo, garantendo una ricostruzione fedele di entrambi gli strati.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Il paper introduce Infinite Self-Attention (InfSA) e la sua variante a complessità lineare Linear-InfSA, che riformulano l'attenzione come un processo di diffusione su grafi per superare i limiti computazionali quadratici, consentendo l'elaborazione di risoluzioni estremamente elevate (fino a 9216x9216) con migliori prestazioni, efficienza energetica e robustezza rispetto ai Transformer standard.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs