GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Le papier présente GeoSolver, un cadre innovant qui améliore le raisonnement étape par étape dans l'interprétation de l'imagerie satellitaire en utilisant une supervision de processus granulaire et un apprentissage par renforcement pour garantir la fidélité visuelle et permettre une mise à l'échelle efficace du temps de test.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

On the Cost of Evolving Task Specialization in Multi-Robot Systems

Cette étude démontre que, dans le cadre d'un scénario de fourragement avec un budget d'évaluation limité, l'évolution de comportements spécialisés pour des sous-tâches dans des essaims de robots peut échouer à assurer une coopération efficace et se révéler moins performante que des comportements généralistes, remettant ainsi en cause l'avantage systématique de la spécialisation sans analyse coût-bénéfice approfondie.

Paolo Leopardi, Heiko Hamann, Jonas Kuckling, Tanja Katharina Kaiser2026-03-11💻 cs

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

Le papier présente ReTac-ACT, une politique d'apprentissage par imitation vision-tactile intégrant un mécanisme de fusion bidirectionnel, un réseau de commutation conditionné à la proprioception et un objectif de reconstruction tactile, qui surpasse les méthodes existantes pour atteindre une précision sub-millimétrique dans des tâches d'assemblage complexes malgré les occlusions visuelles.

Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin Fang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Le papier présente GeoAlignCLIP, un cadre unifié qui améliore l'alignement vision-langage à granularité fine dans la télédétection grâce à l'apprentissage de cohérence multi-granulaire et à un nouveau jeu de données nommé RSFG-100k, surpassant ainsi les méthodes existantes sur divers benchmarks.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Ce papier présente BinaryAttention, une méthode innovante qui remplace les produits scalaires flottants par des opérations binaires sur les signes des requêtes et des clés pour accélérer les Transformers de vision et de diffusion d'un facteur supérieur à deux tout en préservant, voire en surpassant, la précision du modèle complet grâce à un biais apprenable et à des techniques d'entraînement quantification-conscient.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

A Generalized Voronoi Graph based Coverage Control Approach for Non-Convex Environment

Cet article propose une approche de contrôle de couverture pour des systèmes multi-robots dans des environnements non convexes, basée sur un graphe de Voronoï généralisé et articulée en deux phases : un algorithme d'équilibrage de charge pondéré pour l'allocation optimale des robots et un contrôleur collaboratif pour la couverture efficace des sous-régions.

Zuyi Guo, Ronghao Zheng, Meiqin Liu, Senlin Zhang2026-03-11💻 cs

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Ce papier présente Nemo, une nouvelle conception de cache pour les objets minuscules sur les dispositifs flash à structure journalisée qui réduit l'amplification d'écriture au niveau de l'application en augmentant la probabilité de collisions de hachage pour améliorer le taux de remplissage des ensembles, tout en maintenant une haute efficacité mémoire et un faible taux de défauts grâce à un indexage par filtre de Bloom et un suivi hybride de la chaleur des données.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu Shu2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Le papier présente ParTY, un cadre novateur qui améliore l'expressivité des mouvements de synthèse texte-à-mouvement en alignant sémantiquement les descriptions textuelles sur des parties spécifiques du corps tout en assurant la cohérence du mouvement global grâce à un réseau guidé par les parties, un ancrage textuel adaptatif et une fusion holistique-partielle.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Cette étude propose une méthode de classification d'images inspirée des mouvements saccadiers humains, utilisant les cartes d'attention du modèle auto-supervisé DINO pour cibler sélectivement les régions pertinentes et ainsi atteindre, voire dépasser, les performances de l'analyse d'image complète tout en optimisant l'efficacité computationnelle.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs