cs.CV articoli | Gist.Science

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Il paper presenta UniMatch, un framework innovativo che utilizza un approccio a due stadi basato su segmentazione semantica e guida linguistica per stabilire corrispondenze dense tra forme 3D non isometriche di categorie diverse, superando i limiti dei metodi precedenti.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Il paper propone un metodo di decomposizione e ricomposizione online di oggetti, scene e pose della camera per generare dati di addestramento diversificati e migliorare l'efficienza dei modelli di rilevamento 3D monoculari, riducendo la dipendenza da grandi quantità di dati annotati.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Questo lavoro presenta un framework di decomposizione delle immagini basato su modelli di diffusione pre-addestrati e adattati tramite LoRA, che utilizza una strategia di tuning ciclicamente coerente e un processo di auto-miglioramento progressivo per separare con precisione elementi complessi come i loghi dalle loro superfici di sfondo, garantendo una ricostruzione fedele di entrambi gli strati.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Il paper presenta "See It, Say It, Sorted", un framework iterativo e privo di addestramento che riduce le allucinazioni visive e migliora il ragionamento nei modelli LVLM supervisionando ogni passo del ragionamento con evidenze visive dinamiche estratte dall'immagine.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Questo lavoro presenta un approccio unificato alla segmentazione semantica di immagini e video che utilizza il linguaggio modellato per generare maschere come sequenze di token discreti ottenuti tramite codifica RLE, integrando strategie di compressione e informazioni sulle istanze per raggiungere prestazioni competitive.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Il paper introduce PackUV, un nuovo metodo di rappresentazione 4D basato su Gaussian Splatting che mappa gli attributi volumetrici in atlanti UV strutturati per garantire coerenza temporale, compatibilità con i codec video standard e scalabilità, validato su un vasto dataset di 2 miliardi di frame.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Il paper propone HART, un framework di post-addestramento basato sul reinforcement learning che permette ai Large Multimodal Models di migliorare il ragionamento visivo ad alta risoluzione e la localizzazione delle regioni chiave senza richiedere annotazioni esterne.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Il paper introduce Infinite Self-Attention (InfSA) e la sua variante a complessità lineare Linear-InfSA, che riformulano l'attenzione come un processo di diffusione su grafi per superare i limiti computazionali quadratici, consentendo l'elaborazione di risoluzioni estremamente elevate (fino a 9216x9216) con migliori prestazioni, efficienza energetica e robustezza rispetto ai Transformer standard.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Il paper presenta WildActor, un framework di generazione video che garantisce la coerenza dell'identità umana in condizioni dinamiche e non vincolate, supportato dal nuovo dataset su larga scala Actor-18M e da meccanismi innovativi di attenzione e campionamento.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Questo documento di posizione sostiene che la valutazione dei sistemi di elaborazione visiva debba passare da un approccio basato su metriche singole a uno incentrato sulla percezione umana, sul contesto e sulla granularità, per evitare di limitare l'innovazione e fuorviare il progresso della ricerca.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Il paper propone DeAR, un framework che adatta i modelli visione-linguaggio decomponendo i ruoli delle singole teste di attenzione nelle layer profonde per bilanciare efficacemente l'adattamento al compito e la preservazione della generalizzazione zero-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Il paper propone il framework MSP, che migliora il riconoscimento delle persone con cambio di abbigliamento mitigando la dipendenza dalle acconciature attraverso l'aumento orientato allo stile, l'occlusione controllata dei vestiti e l'attenzione guidata dal parsing per preservare le informazioni strutturali stabili.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Questo studio presenta una pipeline basata su rilevamento e segmentazione che estrae in modo robusto e generalizzabile le onde dell'area glottale da videoendoscopia ad alta velocità, consentendo l'identificazione affidabile di biomarcatori clinici per la valutazione delle patologie laringee in tempo reale.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Questo studio propone un framework innovativo che combina l'architettura CoAtNet con la tecnica "model soups" per classificare immagini del patrimonio culturale immateriale del Delta del Mekong, ottenendo risultati all'avanguardia su dati scarsi riducendo la varianza del modello senza aumentare i costi di inferenza.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Questo studio valuta l'efficacia di DINOv3 come backbone visivo per la raccolta robotica dei mirtilli, dimostrando che, sebbene offra rappresentazioni stabili per la segmentazione, le sue prestazioni nella rilevazione sono limitate dalla variabilità della scala e dalla necessità di un'adeguata modellazione spaziale per gli aggregati.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Questo articolo propone GramCol e le Mappe di Attenzione al Movimento Interpretabili (IMAP) per localizzare spazialmente e temporalmente i concetti di movimento nei Video Diffusion Transformers senza richiedere calcoli di gradiente o aggiornamenti dei parametri.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Il paper propone CGL, un framework di apprendimento continuo per agenti GUI che bilancia adattamento e ritenzione della conoscenza combinando il fine-tuning supervisionato con l'apprendimento per rinforzo, mitigando l'interferenza dei gradienti e introducendo un nuovo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

← Precedente Successivo →