ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

Il paper presenta ReTac-ACT, un modello di apprendimento per imitazione che fonde visione e tatto tramite un meccanismo di gating stato-dipendente e un obiettivo di ricostruzione tattile, ottenendo prestazioni superiori nel montaggio di precisione anche in condizioni di occlusione visiva e tolleranze industriali strette.

Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin Fang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Il paper presenta GeoAlignCLIP, un framework unificato che migliora l'allineamento visione-linguaggio fine-granulare nelle immagini di telerilevamento attraverso l'apprendimento di allineamenti semantici multi-granulari e la coerenza intra-modale, supportato dal nuovo dataset RSFG-100k, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Questo lavoro introduce il paradigma di Panorama-Language Modeling (PLM) e il dataset PanoVQA per gestire scene panoramiche avverse, proponendo un modulo di attenzione sparsa che permette ai modelli visione-linguaggio esistenti di comprendere l'intero contesto 360° senza riaddestramento, superando i limiti della semplice aggregazione di immagini a campo visivo ristretto.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Il paper presenta BinaryAttention, un metodo innovativo che utilizza l'attenzione QK a 1 bit per i Transformer visivi e di diffusione, sostituendo i prodotti scalari in virgola mobile con operazioni bitwise e tecniche di addestramento avanzate per ottenere un'accelerazione superiore a 2x rispetto a FlashAttention2 mantenendo o superando l'accuratezza dei modelli full-precision.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

A Generalized Voronoi Graph based Coverage Control Approach for Non-Convex Environment

Questo articolo propone un approccio di controllo per la copertura basato sul Grafico di Voronoi Generalizzato (GVG) per sistemi multi-robot in ambienti non convessi, che combina un algoritmo di bilanciamento del carico per l'allocazione ottimale dei robot in sottoregioni ponderate e un nuovo controller collaborativo per garantire una copertura efficiente con convergenza dimostrata.

Zuyi Guo, Ronghao Zheng, Meiqin Liu, Senlin Zhang2026-03-11💻 cs

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Il paper presenta Nemo, una nuova architettura di cache per dispositivi flash che riduce l'amplificazione di scrittura nei carichi di lavoro con oggetti di piccole dimensioni aumentando la probabilità di collisione hash e utilizzando un indicizzazione basata su filtro di Bloom e un tracciamento ibrido della "calorezza" per garantire alta efficienza di memoria e basso tasso di mancate.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu Shu2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Questo studio propone un metodo di classificazione delle immagini ispirato ai movimenti saccadici oculari umani, che utilizza le mappe di attenzione del modello Vision Transformer DINO per selezionare e processare solo le regioni visive più informative, ottenendo prestazioni pari o superiori all'elaborazione dell'immagine completa con maggiore efficienza.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Il paper presenta OTPL-VIO, un sistema di odometria visivo-inerziale stereo robusto che combina descrittori profondi senza addestramento per le linee con un'associazione basata sul trasporto ottimo e un pesamento adattivo dell'incertezza, migliorando significativamente accuratezza e stabilità in scenari a bassa texture e con variazioni di illuminazione.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Il paper presenta DiffWind, un framework differenziabile basato sulla fisica che unisce ricostruzione video e simulazione per modellare con alta precisione le dinamiche di oggetti mossi dal vento, integrando metodi come MPM e LBM e introducendo il nuovo dataset WD-Objects.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs