3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Il paper presenta 3DMedAgent, un agente unificato che abilita modelli linguistici multimodali 2D all'analisi medica 3D attraverso la coordinazione di strumenti eterogenei e un ragionamento multi-step guidato da evidenze, superando i limiti delle architetture esistenti e ottenendo prestazioni superiori su oltre 40 compiti diagnostici.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Il paper presenta OVerSeeC, un framework zero-shot modulare che combina modelli linguistici e segmentazione open-vocabulary per generare mappe dei costi globali adattabili da immagini satellitari e istruzioni in linguaggio naturale, permettendo una pianificazione di percorsi autonoma e flessibile per missioni con requisiti variabili.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Questo lavoro presenta un framework di decomposizione delle immagini basato su modelli di diffusione pre-addestrati e adattati tramite LoRA, che utilizza una strategia di tuning ciclicamente coerente e un processo di auto-miglioramento progressivo per separare con precisione elementi complessi come i loghi dalle loro superfici di sfondo, garantendo una ricostruzione fedele di entrambi gli strati.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Il paper introduce Infinite Self-Attention (InfSA) e la sua variante a complessità lineare Linear-InfSA, che riformulano l'attenzione come un processo di diffusione su grafi per superare i limiti computazionali quadratici, consentendo l'elaborazione di risoluzioni estremamente elevate (fino a 9216x9216) con migliori prestazioni, efficienza energetica e robustezza rispetto ai Transformer standard.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs