Word-Anchored Temporal Forgery Localization

Il paper propone WAFL, un nuovo approccio per la localizzazione temporale di falsificazioni che, abbandonando la regressione temporale a favore di una classificazione binaria a livello di parole, utilizza un modulo di riallineamento delle caratteristiche forensi e una funzione di perdita asimmetrica per ottenere prestazioni superiori con maggiore efficienza computazionale.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Il paper propone SSLA-Det, un modello di rilevamento di oggetti basato su eventi che utilizza l'attenzione lineare spazialmente rara (SSLA) per ottenere uno stato dell'arte in termini di accuratezza e ridurre la computazione per evento di oltre 20 volte, risolvendo i compromessi tra latenza, efficienza e precisione nelle reti neurali asincrone.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Il paper presenta TaPD, un framework unificato e plug-and-play che utilizza la distillazione progressiva temporale-adattiva e un modulo di riempimento temporale per migliorare l'accuratezza della previsione delle traiettorie in scenari di guida autonoma con storie di osservazione variabili o estremamente brevi.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

Il paper introduce DC-Merge, un metodo innovativo per la fusione di modelli che migliora il mantenimento delle conoscenze multi-task bilanciando la distribuzione energetica dei vettori e allineando le loro geometrie direzionali in un sottospazio ortogonale condiviso, ottenendo così prestazioni all'avanguardia in ambiti visivi e vision-language.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Il paper introduce NOVA, un nuovo paradigma di autoregressione open-vocabulary che sfrutta i modelli linguistici su larga scala per trasformare il tracciamento 3D di oggetti multipli in un compito di completamento di sequenze spaziotemporali, ottenendo prestazioni superiori nel tracciamento di categorie sconosciute rispetto ai metodi tradizionali.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Il paper presenta HiPP-Prune, un framework di pruning strutturato gerarchico condizionato dalle preferenze che ottimizza l'allocazione delle risorse nei modelli visione-linguaggio per bilanciare efficienza, utilità del compito e robustezza all'allucinazione, mitigando la degradazione della comprensione visiva attraverso segnali di sensibilità visiva e ottimizzazione multi-obiettivo.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Il paper presenta StrSR, un nuovo framework di distillazione avversariale in un singolo passo che, integrando regolarizzazione spettrale e di traiettoria, risolve le sfide degli artefatti e del disallineamento nelle architetture Diffusion Transformer per il super-risoluzione delle immagini reali, ottenendo prestazioni all'avanguardia.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Questo lavoro introduce il benchmark OccNL e il framework DPR-Occ per affrontare la previsione dell'occupazione semantica 3D in presenza di rumore di etichetta, dimostrando che le strategie esistenti falliscono in spazi voxel sparsi e proponendo un metodo innovativo basato sul ragionamento su etichette parziali che mantiene prestazioni elevate anche con un rumore del 90%.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Questo articolo propone un metodo innovativo basato su modelli di diffusione basati su punteggio per l'inpainting tridimensionale degli impianti dentali nel dominio delle proiezioni, che combina due modelli 2D ortogonali per eliminare gli artefatti nelle immagini CBCT preservando la coerenza spaziale tra le proiezioni.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Il paper presenta DEX-AR, un nuovo metodo di spiegabilità dinamica per modelli visione-linguaggio autoregressivi che genera mappe di calore 2D per-token e a livello di sequenza, identificando le regioni visive cruciali attraverso un meccanismo di filtraggio dinamico delle attention heads e un'aggregazione differenziata dei token, migliorando così le metriche di valutazione su diversi dataset.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Il paper propone P-SLCR, un metodo non supervisionato per la segmentazione semantica di nuvole di punti che, sfruttando l'apprendimento strutturale basato su prototipi e il ragionamento coerente, raggiunge prestazioni superiori rispetto alle tecniche esistenti e persino al metodo supervisionato PointNet sul dataset S3DIS.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Questo studio valuta la capacità di ChatGPT di creare pastiche di opere d'arte contemporanea, rivelando attraverso il feedback di dodici artisti e analisi computazionali che, sebbene vi sia una certa somiglianza cromatica e testuale, le generazioni AI mancano di profondità concettuale e intenzionalità, richiedendo pertanto metriche di valutazione complementari rispetto a un singolo indicatore stilistico.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Il paper presenta WorldCache, un framework di caching che accelera i modelli di mondo basati su diffusione fino a 3,7 volte mantenendo il 98% della qualità, risolvendo le sfide dell'eterogeneità dei token e delle dinamiche temporali non uniformi attraverso una previsione guidata dalla curvatura e un'elusione adattiva prioritaria per i token caotici.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs