cs.CV articoli | Gist.Science

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Il paper presenta "See It, Say It, Sorted", un framework iterativo e privo di addestramento che riduce le allucinazioni visive e migliora il ragionamento nei modelli LVLM supervisionando ogni passo del ragionamento con evidenze visive dinamiche estratte dall'immagine.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Questo lavoro presenta un approccio unificato alla segmentazione semantica di immagini e video che utilizza il linguaggio modellato per generare maschere come sequenze di token discreti ottenuti tramite codifica RLE, integrando strategie di compressione e informazioni sulle istanze per raggiungere prestazioni competitive.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Il paper introduce PackUV, un nuovo metodo di rappresentazione 4D basato su Gaussian Splatting che mappa gli attributi volumetrici in atlanti UV strutturati per garantire coerenza temporale, compatibilità con i codec video standard e scalabilità, validato su un vasto dataset di 2 miliardi di frame.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Il paper propone HART, un framework di post-addestramento basato sul reinforcement learning che permette ai Large Multimodal Models di migliorare il ragionamento visivo ad alta risoluzione e la localizzazione delle regioni chiave senza richiedere annotazioni esterne.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Il paper introduce Infinite Self-Attention (InfSA) e la sua variante a complessità lineare Linear-InfSA, che riformulano l'attenzione come un processo di diffusione su grafi per superare i limiti computazionali quadratici, consentendo l'elaborazione di risoluzioni estremamente elevate (fino a 9216x9216) con migliori prestazioni, efficienza energetica e robustezza rispetto ai Transformer standard.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Il paper presenta WildActor, un framework di generazione video che garantisce la coerenza dell'identità umana in condizioni dinamiche e non vincolate, supportato dal nuovo dataset su larga scala Actor-18M e da meccanismi innovativi di attenzione e campionamento.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Questo documento di posizione sostiene che la valutazione dei sistemi di elaborazione visiva debba passare da un approccio basato su metriche singole a uno incentrato sulla percezione umana, sul contesto e sulla granularità, per evitare di limitare l'innovazione e fuorviare il progresso della ricerca.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Il paper propone DeAR, un framework che adatta i modelli visione-linguaggio decomponendo i ruoli delle singole teste di attenzione nelle layer profonde per bilanciare efficacemente l'adattamento al compito e la preservazione della generalizzazione zero-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Il paper propone il framework MSP, che migliora il riconoscimento delle persone con cambio di abbigliamento mitigando la dipendenza dalle acconciature attraverso l'aumento orientato allo stile, l'occlusione controllata dei vestiti e l'attenzione guidata dal parsing per preservare le informazioni strutturali stabili.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Questo studio presenta una pipeline basata su rilevamento e segmentazione che estrae in modo robusto e generalizzabile le onde dell'area glottale da videoendoscopia ad alta velocità, consentendo l'identificazione affidabile di biomarcatori clinici per la valutazione delle patologie laringee in tempo reale.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Questo studio propone un framework innovativo che combina l'architettura CoAtNet con la tecnica "model soups" per classificare immagini del patrimonio culturale immateriale del Delta del Mekong, ottenendo risultati all'avanguardia su dati scarsi riducendo la varianza del modello senza aumentare i costi di inferenza.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Questo studio valuta l'efficacia di DINOv3 come backbone visivo per la raccolta robotica dei mirtilli, dimostrando che, sebbene offra rappresentazioni stabili per la segmentazione, le sue prestazioni nella rilevazione sono limitate dalla variabilità della scala e dalla necessità di un'adeguata modellazione spaziale per gli aggregati.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Questo articolo propone GramCol e le Mappe di Attenzione al Movimento Interpretabili (IMAP) per localizzare spazialmente e temporalmente i concetti di movimento nei Video Diffusion Transformers senza richiedere calcoli di gradiente o aggiornamenti dei parametri.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Il paper propone CGL, un framework di apprendimento continuo per agenti GUI che bilancia adattamento e ritenzione della conoscenza combinando il fine-tuning supervisionato con l'apprendimento per rinforzo, mitigando l'interferenza dei gradienti e introducendo un nuovo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Il paper presenta LDP-Slicing, un framework leggero e privo di addestramento che supera i limiti della Privacy Differenziale Locale sulle immagini decomponendo i valori dei pixel in piani di bit e ottimizzando la distribuzione del budget di privacy, garantendo così un'elevata utilità per compiti di downstream come il riconoscimento facciale e la classificazione.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Il paper presenta OptiRoulette, un nuovo meta-ottimizzatore stocastico che seleziona dinamicamente le regole di aggiornamento durante l'addestramento, garantendo una convergenza più rapida e affidabile e migliorando significativamente l'accuratezza rispetto a AdamW su diverse suite di classificazione di immagini.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Questo paper propone una rappresentazione unificata per i modelli di diffusione e il flow matching tramite equazioni lineari, evidenziando attraverso l'analisi teorica come la debole correlazione tra i dati rumorosi e l'obiettivo previsto possa compromettere il processo di apprendimento.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Il paper presenta RECAP, una strategia di apprendimento bio-ispirata che combina dinamiche di reservoir non addestrate con un meccanismo di lettura Hebbiano auto-organizzante per ottenere una classificazione di immagini robusta senza ricorrere alla retropropagazione dell'errore.

Heng Zhang2026-03-10🤖 cs.LG

← Precedente Successivo →