GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Le papier présente GeoSense, un cadre qui permet aux modèles de langage multimodaux de percevoir leurs insuffisances perceptuelles et d'activer de manière autonome des canaux géométriques pour le raisonnement spatial uniquement lorsque les indices 2D sont jugés inadéquats, améliorant ainsi l'efficacité et la robustesse sans compromettre les capacités visuelles existantes.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

ScanDP: Generalizable 3D Scanning with Diffusion Policy

Ce papier propose ScanDP, un cadre de numérisation 3D généralisable et efficace en données qui utilise une politique de diffusion pour imiter les stratégies de balayage humaines, en s'appuyant sur la cartographie par grille d'occupation et une optimisation hybride de trajectoire pour obtenir une meilleure couverture et une plus grande robustesse face au bruit et aux objets inédits.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Cet article propose OCpose, une nouvelle métrique d'évaluation pour l'estimation de pose multi-personnes basée sur le transport optimal, qui assure une évaluation équitable en considérant tous les poses détectés indépendamment de leur score de confiance tout en les utilisant pour améliorer la fiabilité de l'appariement avec les annotations.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Cet article présente SpatioCoupledNet, une méthode de contrôle de forme hybride combinant cinématique et apprentissage profond pour stabiliser et améliorer la précision d'un robot planaire hyper-redundant flexible, surpassant les approches purement analytiques ou basées sur les données dans des environnements incertains et dynamiques.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Ce papier propose la méthode DGI (Differentiable Geometric Indexing) pour résoudre les blocages d'optimisation et les conflits géométriques de la recherche générative en unifiant l'indexation et la récupération via une formation différentiable et une optimisation géométrique isotrope, surpassant ainsi les approches existantes, notamment dans les scénarios à longue traîne.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Le papier propose Frames2Residual (F2R), une méthode d'apprentissage auto-supervisé pour le débruitage vidéo qui surmonte les limitations des réseaux à trou aveugle en découplant l'apprentissage en deux étapes distinctes : une modélisation temporelle aveugle pour assurer la cohérence inter-images, suivie d'une récupération spatiale non aveugle pour restaurer les détails texturaux.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

Le papier présente World2Act, un cadre d'entraînement postérieur qui améliore la généralisation des agents incarnés en alignant directement les actions des politiques VLA sur des latents de dynamique vidéo via un objectif contrastif, tout en surmontant les limites de durée des modèles du monde grâce à une pipeline de décomposition automatique des compétences par LLM.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

Cet article présente un algorithme déterministe qui reconstruit les graphes connexes à degré et longueur arborescente bornés en utilisant un nombre de requêtes de distance O(nlogn)O(n \log n), améliorant ainsi les résultats précédents d'un facteur logarithmique et atteignant la borne inférieure connue pour les graphes à chordalité bornée.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Le papier présente COHORT, un cadre d'inférence collaborative de réseaux de neurones profonds pour systèmes multi-robots qui utilise une stratégie d'apprentissage par renforcement hybride (offline AWR et online MAPPO) pour optimiser la répartition des tâches, réduisant ainsi la consommation d'énergie et augmentant l'utilisation du GPU tout en respectant les contraintes temps réel.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Cet article propose une stratégie d'accélération et de sécurisation des transports TCP/QUIC pour les réseaux interplanétaires, basée sur une architecture de proxy non transparent (NTSP) et une politique de transport adaptative, qui améliore significativement les performances de débit et de livraison dans des scénarios à forte latence et à liens intermittents.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Le papier présente AsyncMDE, un système de perception de profondeur monoculaire asynchrone et léger qui amortit le coût computationnel des modèles de base en réutilisant les caractéristiques spatiales entre les trames, permettant ainsi un déploiement temps réel sur des plateformes embarquées avec une précision quasi équivalente.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

Le papier propose KnowDiffuser, un cadre de planification de mouvement guidé par la connaissance qui intègre la compréhension sémantique des modèles de langage avec la puissance générative des modèles de diffusion pour combler l'écart entre la décision sémantique et la faisabilité physique dans la conduite autonome.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs