Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Il paper introduce il Cumulative Consensus Score (CCS), un metodo agnostico e privo di etichette che valuta l'affidabilità dei modelli di rilevamento oggetti in fase di deployment misurando la coerenza spaziale delle previsioni su immagini con aumentazioni di dati, offrendo così una robusta metrica di monitoraggio per scenari reali privi di annotazioni.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Il paper introduce WHU-STree, un nuovo dataset multi-modale e ricco di annotazioni raccolto in due città diverse che integra nuvole di punti e immagini ad alta risoluzione per supportare oltre 10 compiti di inventario degli alberi stradali, superando i limiti dei dataset esistenti e fornendo un benchmark per la classificazione delle specie e la segmentazione degli alberi individuali.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Il paper introduce ORIC, un framework e un benchmark per valutare come l'incongruenza contestuale comprometta il riconoscimento degli oggetti nei Large Vision-Language Models, dimostrando che l'addestramento su dati generati da questo metodo migliora significativamente l'affidabilità e riduce le allucinazioni dei modelli.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Questo articolo presenta un innovativo sistema di navigazione "Visual Teach-and-Repeat" basato su una camera a eventi che, sfruttando la correlazione incrociata nel dominio di Fourier e la compressione delle immagini, raggiunge una latenza di elaborazione estremamente bassa (2,88 ms) e permette una navigazione autonoma precisa e robusta in diverse condizioni di illuminazione su percorsi di oltre 3000 metri.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Il paper propone QuantVGGT, il primo framework di quantizzazione post-allenamento per i transformer VGGT su larga scala, che supera le sfide specifiche legate alle distribuzioni di attivazione e alla selezione dei campioni di calibrazione attraverso tecniche innovative di quantizzazione e campionamento, ottenendo riduzioni significative della memoria e accelerazioni nell'inferenza hardware mantenendo un'alta accuratezza nella ricostruzione 3D.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Il paper presenta FAMDA, un framework di adattamento di dominio non supervisionato che sfrutta i modelli fondazionali visivi come insegnanti in un paradigma di auto-addestramento per generare etichette pseudo di alta qualità, permettendo così di addestrare reti studente efficienti e compatte che raggiungono prestazioni all'avanguardia nella previsione densa multi-task per applicazioni robotiche.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Il paper presenta PHASE-Net, un modello di rete neurale leggero e teoricamente fondato sulle equazioni di Navier-Stokes che integra attenzione armonica spaziale e dinamica temporale per migliorare l'accuratezza e la robustezza della misurazione della fotopletismografia remota (rPPG) in condizioni di movimento e variazioni di illuminazione.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Il paper propone REVEL, un nuovo compito di manipolazione video interattiva in streaming che permette di modificare qualsiasi elemento in qualsiasi momento, e DragStream, un metodo senza addestramento che risolve i problemi di deriva latente e interferenza contestuale per garantire risultati visivamente coerenti nei modelli di diffusione video autoregressivi.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Questa revisione sistematica esamina l'applicazione dei modelli generativi profondi non supervisionati per il rilevamento di anomalie nelle neuroimmagini, evidenziando il loro potenziale per la localizzazione di patologie senza annotazioni voxel-level, pur sottolineando le sfide legate all'eterogeneità metodologica e alla validazione esterna.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Questo lavoro introduce il nuovo compito di Segmentazione Audio-Visiva Continuale (CAVS) e propone il framework Collision-based Multi-modal Rehearsal (CMR) per mitigare la deriva semantica e la confusione da co-occorrenza, ottenendo risultati superiori rispetto ai metodi a modalità singola in scenari di apprendimento incrementale.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Il paper introduce Dream4Drive, un nuovo framework di generazione di dati sintetici che, decomponendo i video in mappe guida 3D e adattando modelli di mondo guidati, migliora significativamente le prestazioni dei modelli di percezione per la guida autonoma, specialmente nella gestione di casi limite, superando i limiti delle attuali strategie di addestramento.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs