Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Questo articolo presenta un innovativo sistema di navigazione "Visual Teach-and-Repeat" basato su una camera a eventi che, sfruttando la correlazione incrociata nel dominio di Fourier e la compressione delle immagini, raggiunge una latenza di elaborazione estremamente bassa (2,88 ms) e permette una navigazione autonoma precisa e robusta in diverse condizioni di illuminazione su percorsi di oltre 3000 metri.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Il paper propone QuantVGGT, il primo framework di quantizzazione post-allenamento per i transformer VGGT su larga scala, che supera le sfide specifiche legate alle distribuzioni di attivazione e alla selezione dei campioni di calibrazione attraverso tecniche innovative di quantizzazione e campionamento, ottenendo riduzioni significative della memoria e accelerazioni nell'inferenza hardware mantenendo un'alta accuratezza nella ricostruzione 3D.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Questo lavoro presenta un framework autonomo per l'attracco di UAV e robot quadrupedi in ambienti complessi privi di GPS, che combina un modello ibrido appreso tramite reinforcement learning per stabilizzare il torso del quadrupede e una strategia di controllo UAV a tre fasi con vincoli di sicurezza, permettendo con successo l'atterraggio su scale e pendii accidentati.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Il paper presenta FAMDA, un framework di adattamento di dominio non supervisionato che sfrutta i modelli fondazionali visivi come insegnanti in un paradigma di auto-addestramento per generare etichette pseudo di alta qualità, permettendo così di addestrare reti studente efficienti e compatte che raggiungono prestazioni all'avanguardia nella previsione densa multi-task per applicazioni robotiche.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Il paper presenta PHASE-Net, un modello di rete neurale leggero e teoricamente fondato sulle equazioni di Navier-Stokes che integra attenzione armonica spaziale e dinamica temporale per migliorare l'accuratezza e la robustezza della misurazione della fotopletismografia remota (rPPG) in condizioni di movimento e variazioni di illuminazione.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Il documento propone una nuova funzione di barriera di controllo parabolica dinamica (DPCBF) che, adattando i vincoli di sicurezza in base alla distanza e alla velocità relativa, supera i limiti di fattibilità dei metodi tradizionali basati sui coni di collisione, permettendo a robot non olonomi di navigare con successo in ambienti dinamici densamente affollati.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs