cs.CV articoli | Gist.Science

Word-Anchored Temporal Forgery Localization

Il paper propone WAFL, un nuovo approccio per la localizzazione temporale di falsificazioni che, abbandonando la regressione temporale a favore di una classificazione binaria a livello di parole, utilizza un modulo di riallineamento delle caratteristiche forensi e una funzione di perdita asimmetrica per ottenere prestazioni superiori con maggiore efficienza computazionale.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Il paper propone SSLA-Det, un modello di rilevamento di oggetti basato su eventi che utilizza l'attenzione lineare spazialmente rara (SSLA) per ottenere uno stato dell'arte in termini di accuratezza e ridurre la computazione per evento di oltre 20 volte, risolvendo i compromessi tra latenza, efficienza e precisione nelle reti neurali asincrone.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Il paper presenta TaPD, un framework unificato e plug-and-play che utilizza la distillazione progressiva temporale-adattiva e un modulo di riempimento temporale per migliorare l'accuratezza della previsione delle traiettorie in scenari di guida autonoma con storie di osservazione variabili o estremamente brevi.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

Il paper introduce DC-Merge, un metodo innovativo per la fusione di modelli che migliora il mantenimento delle conoscenze multi-task bilanciando la distribuzione energetica dei vettori e allineando le loro geometrie direzionali in un sottospazio ortogonale condiviso, ottenendo così prestazioni all'avanguardia in ambiti visivi e vision-language.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

Il paper propone HCF-RES, un nuovo framework multimodale che utilizza la decomposizione semantica visiva gerarchica e la fusione collaborativa progressiva per migliorare la segmentazione di istanze 3D basata su espressioni referenziali, ottenendo risultati all'avanguardia su ScanRefer e Multi3DRefer.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Il paper introduce NOVA, un nuovo paradigma di autoregressione open-vocabulary che sfrutta i modelli linguistici su larga scala per trasformare il tracciamento 3D di oggetti multipli in un compito di completamento di sequenze spaziotemporali, ottenendo prestazioni superiori nel tracciamento di categorie sconosciute rispetto ai metodi tradizionali.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Il paper presenta GazeMoE, un nuovo framework end-to-end che utilizza un meccanismo Mixture-of-Experts su modelli visivi pre-addestrati per stimare con stato dell'arte i target dello sguardo umano integrando segnali multi-modali e affrontando lo sbilanciamento delle classi.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

Il paper presenta ODD-SEC, un sistema di rilevamento in tempo reale di droni progettato per carrier in movimento che utilizza una camera a eventi rotante per ottenere un campo visivo orizzontale di 360 gradi e una stima precisa della direzione, superando i limiti delle soluzioni basate su fotogrammi tradizionali in condizioni di movimento e illuminazione avverse.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Il paper presenta HiPP-Prune, un framework di pruning strutturato gerarchico condizionato dalle preferenze che ottimizza l'allocazione delle risorse nei modelli visione-linguaggio per bilanciare efficienza, utilità del compito e robustezza all'allucinazione, mitigando la degradazione della comprensione visiva attraverso segnali di sensibilità visiva e ottimizzazione multi-obiettivo.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Il paper presenta StrSR, un nuovo framework di distillazione avversariale in un singolo passo che, integrando regolarizzazione spettrale e di traiettoria, risolve le sfide degli artefatti e del disallineamento nelle architetture Diffusion Transformer per il super-risoluzione delle immagini reali, ottenendo prestazioni all'avanguardia.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Questo lavoro introduce il benchmark OccNL e il framework DPR-Occ per affrontare la previsione dell'occupazione semantica 3D in presenza di rumore di etichetta, dimostrando che le strategie esistenti falliscono in spazi voxel sparsi e proponendo un metodo innovativo basato sul ragionamento su etichette parziali che mantiene prestazioni elevate anche con un rumore del 90%.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

Il paper propone ADiVA, un approccio innovativo per l'apprendimento zero-shot generativo che risolve le sfide della variabilità intra-classe e del divario semantico-visivo modellando distribuzioni di attributi e allineando esplicitamente le rappresentazioni semantiche e visive, ottenendo prestazioni superiori sui principali benchmark.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

FlowMotion è un nuovo framework senza addestramento che migliora il trasferimento di movimento nei video sfruttando direttamente le previsioni latenti dei modelli T2V basati su flusso, garantendo così maggiore efficienza e flessibilità rispetto ai metodi esistenti.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Questo articolo propone un metodo innovativo basato su modelli di diffusione basati su punteggio per l'inpainting tridimensionale degli impianti dentali nel dominio delle proiezioni, che combina due modelli 2D ortogonali per eliminare gli artefatti nelle immagini CBCT preservando la coerenza spaziale tra le proiezioni.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Il paper presenta DEX-AR, un nuovo metodo di spiegabilità dinamica per modelli visione-linguaggio autoregressivi che genera mappe di calore 2D per-token e a livello di sequenza, identificando le regioni visive cruciali attraverso un meccanismo di filtraggio dinamico delle attention heads e un'aggregazione differenziata dei token, migliorando così le metriche di valutazione su diversi dataset.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

Il paper propone LTA, un attacco avversario di trasferimento che ottimizza le perturbazioni nello spazio latente di un modello generativo preaddestrato per produrre esempi robusti e coerenti che superano i limiti dei metodi tradizionali basati sullo spazio dei pixel.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Il paper propone WMoE-CLIP, un nuovo metodo per il rilevamento di anomalie a zero-shot che combina prompt learning potenziato da un autoencoder variazionale, decomposizione wavelet per l'estrazione di caratteristiche multi-frequenza e un modulo misto di esperti sensibile al contesto, superando i limiti degli approcci esistenti su 14 dataset industriali e medici.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Il paper propone P-SLCR, un metodo non supervisionato per la segmentazione semantica di nuvole di punti che, sfruttando l'apprendimento strutturale basato su prototipi e il ragionamento coerente, raggiunge prestazioni superiori rispetto alle tecniche esistenti e persino al metodo supervisionato PointNet sul dataset S3DIS.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Questo studio valuta la capacità di ChatGPT di creare pastiche di opere d'arte contemporanea, rivelando attraverso il feedback di dodici artisti e analisi computazionali che, sebbene vi sia una certa somiglianza cromatica e testuale, le generazioni AI mancano di profondità concettuale e intenzionalità, richiedendo pertanto metriche di valutazione complementari rispetto a un singolo indicatore stilistico.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Il paper presenta WorldCache, un framework di caching che accelera i modelli di mondo basati su diffusione fino a 3,7 volte mantenendo il 98% della qualità, risolvendo le sfide dell'eterogeneità dei token e delle dinamiche temporali non uniformi attraverso una previsione guidata dalla curvatura e un'elusione adattiva prioritaria per i token caotici.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

← Precedente Successivo →