cs.CV articoli | Gist.Science

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Questo articolo propone GramCol e le Mappe di Attenzione al Movimento Interpretabili (IMAP) per localizzare spazialmente e temporalmente i concetti di movimento nei Video Diffusion Transformers senza richiedere calcoli di gradiente o aggiornamenti dei parametri.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Il paper propone CGL, un framework di apprendimento continuo per agenti GUI che bilancia adattamento e ritenzione della conoscenza combinando il fine-tuning supervisionato con l'apprendimento per rinforzo, mitigando l'interferenza dei gradienti e introducendo un nuovo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Il paper presenta LDP-Slicing, un framework leggero e privo di addestramento che supera i limiti della Privacy Differenziale Locale sulle immagini decomponendo i valori dei pixel in piani di bit e ottimizzando la distribuzione del budget di privacy, garantendo così un'elevata utilità per compiti di downstream come il riconoscimento facciale e la classificazione.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Il paper presenta OptiRoulette, un nuovo meta-ottimizzatore stocastico che seleziona dinamicamente le regole di aggiornamento durante l'addestramento, garantendo una convergenza più rapida e affidabile e migliorando significativamente l'accuratezza rispetto a AdamW su diverse suite di classificazione di immagini.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Questo paper propone una rappresentazione unificata per i modelli di diffusione e il flow matching tramite equazioni lineari, evidenziando attraverso l'analisi teorica come la debole correlazione tra i dati rumorosi e l'obiettivo previsto possa compromettere il processo di apprendimento.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Il paper presenta RECAP, una strategia di apprendimento bio-ispirata che combina dinamiche di reservoir non addestrate con un meccanismo di lettura Hebbiano auto-organizzante per ottenere una classificazione di immagini robusta senza ricorrere alla retropropagazione dell'errore.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Questo studio rivela che l'approccio di "unlearning" basato sulla potatura dei pesi nei modelli di diffusione è vulnerabile a un attacco di risveglio dei concetti cancellati, poiché le posizioni dei pesi rimossi fungono da segnale secondario che permette la loro completa ricostruzione senza dati aggiuntivi o riaddestramento.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Il paper introduce ObjChangeVR-Dataset e il framework ObjChangeVR, un sistema basato su modelli linguistici multimodali che combina recupero temporale e viewpoint-aware con ragionamento incrociato per rilevare e spiegare i cambiamenti di stato degli oggetti in ambienti VR da prospettive egocentriche continue, superando le limitazioni delle interazioni dirette e delle assenze di benchmark precedenti.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Il paper propone un framework di consistenza del margine e un punteggio di fedeltà alle perturbazioni per migliorare l'affidabilità e la generalizzabilità della sottomissione profonda dell'adenocarcinoma polmonare invasivo nell'analisi di immagini intere, ottenendo significativi miglioramenti nell'accuratezza e nella robustezza rispetto ai modelli di base.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Il paper presenta PaLMR, un framework che allinea il processo di ragionamento multimodale attraverso dati percettivamente coerenti e una funzione di ricompensa gerarchica, riducendo le allucinazioni visive e migliorando l'affidabilità dei modelli senza comprometterne le prestazioni.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Il paper introduce FCBNet, un modello efficiente per la segmentazione delle infestanti basato su un backbone ConvNeXt congelato e un blocco di correzione delle caratteristiche, che supera le prestazioni di modelli esistenti in termini di accuratezza e efficienza computazionale su immagini aeree multispettrali.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Il paper presenta GameVerse, un benchmark che dimostra come i modelli visione-linguaggio possano migliorare le proprie strategie di gioco attraverso un ciclo di riflessione basato su video, combinando traiettorie di fallimento e tutorial esperti in un approccio privo di addestramento analogo al reinforcement learning e al fine-tuning supervisionato.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Il paper introduce ASMIL, un nuovo framework unificato che stabilizza le dinamiche di attenzione nel deep learning per l'analisi di immagini digitali intere (WSI) mediante un modello di riferimento e funzioni di attivazione modificate, superando così i problemi di instabilità, sovraccarico e sovrapposizione per ottenere prestazioni superiori rispetto agli stati dell'arte.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Il paper presenta EnsAug, un nuovo paradigma di addestramento che utilizza un ensemble di modelli specializzati, ciascuno allenato su una specifica trasformazione geometrica dei dati, per superare i limiti delle tecniche di aumento generiche e raggiungere prestazioni superiori nel riconoscimento di movimenti umani e della lingua dei segni.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Il paper introduce HyperTokens, un metodo basato su un generatore di token che produce prompt su richiesta e utilizza regolarizzatori ispirati al meta-apprendimento e supervisione multimodale ausiliaria per migliorare l'apprendimento continuo nel VideoQA riducendo il dimenticamento e i costi di memoria.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Il paper propone Graph-of-Mark (GoM), una tecnica di prompting visivo basata su grafi che sovrappone scene grafiche alle immagini per migliorare le capacità di ragionamento spaziale dei modelli linguistici multimodali, ottenendo risultati significativamente superiori rispetto ai metodi esistenti.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Questo paper presenta un sistema di inferenza ottimizzato per la generazione video basato su trasformatori di diffusione, che utilizza un'incodifica posizionale 3D sequenziale-parallela con un indice temporale globale per ridurre la latenza e l'uso di memoria, permettendo la generazione di video in tempo reale con qualità comparabile.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Questo studio rivela che, nel contesto medico, il ragionamento a catena di pensiero (CoT) spesso peggiora le prestazioni rispetto alla risposta diretta a causa di un collo di bottiglia nella percezione visiva, ma dimostra che interventi di ancoraggio percettivo e grounding descrittivo possono ripristinare l'accuratezza migliorando l'allineamento cross-modale.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Il paper presenta SJD-PV, un metodo di accelerazione senza addestramento per la generazione di immagini autoregressiva che riduce la latenza fino al 30% verificando speculativamente gruppi di token correlati (frasi) invece di singoli token, preservando al contempo la qualità visiva.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

← Precedente Successivo →