ScanDP: Generalizable 3D Scanning with Diffusion Policy

Ce papier propose ScanDP, un cadre de numérisation 3D généralisable et efficace en données qui utilise une politique de diffusion pour imiter les stratégies de balayage humaines, en s'appuyant sur la cartographie par grille d'occupation et une optimisation hybride de trajectoire pour obtenir une meilleure couverture et une plus grande robustesse face au bruit et aux objets inédits.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Cet article propose OCpose, une nouvelle métrique d'évaluation pour l'estimation de pose multi-personnes basée sur le transport optimal, qui assure une évaluation équitable en considérant tous les poses détectés indépendamment de leur score de confiance tout en les utilisant pour améliorer la fiabilité de l'appariement avec les annotations.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Cet article présente SpatioCoupledNet, une méthode de contrôle de forme hybride combinant cinématique et apprentissage profond pour stabiliser et améliorer la précision d'un robot planaire hyper-redundant flexible, surpassant les approches purement analytiques ou basées sur les données dans des environnements incertains et dynamiques.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Ce papier propose la méthode DGI (Differentiable Geometric Indexing) pour résoudre les blocages d'optimisation et les conflits géométriques de la recherche générative en unifiant l'indexation et la récupération via une formation différentiable et une optimisation géométrique isotrope, surpassant ainsi les approches existantes, notamment dans les scénarios à longue traîne.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Le papier propose Frames2Residual (F2R), une méthode d'apprentissage auto-supervisé pour le débruitage vidéo qui surmonte les limitations des réseaux à trou aveugle en découplant l'apprentissage en deux étapes distinctes : une modélisation temporelle aveugle pour assurer la cohérence inter-images, suivie d'une récupération spatiale non aveugle pour restaurer les détails texturaux.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

Le papier présente World2Act, un cadre d'entraînement postérieur qui améliore la généralisation des agents incarnés en alignant directement les actions des politiques VLA sur des latents de dynamique vidéo via un objectif contrastif, tout en surmontant les limites de durée des modèles du monde grâce à une pipeline de décomposition automatique des compétences par LLM.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

Cet article présente un algorithme déterministe qui reconstruit les graphes connexes à degré et longueur arborescente bornés en utilisant un nombre de requêtes de distance O(nlogn)O(n \log n), améliorant ainsi les résultats précédents d'un facteur logarithmique et atteignant la borne inférieure connue pour les graphes à chordalité bornée.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Le papier présente COHORT, un cadre d'inférence collaborative de réseaux de neurones profonds pour systèmes multi-robots qui utilise une stratégie d'apprentissage par renforcement hybride (offline AWR et online MAPPO) pour optimiser la répartition des tâches, réduisant ainsi la consommation d'énergie et augmentant l'utilisation du GPU tout en respectant les contraintes temps réel.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Cet article propose une stratégie d'accélération et de sécurisation des transports TCP/QUIC pour les réseaux interplanétaires, basée sur une architecture de proxy non transparent (NTSP) et une politique de transport adaptative, qui améliore significativement les performances de débit et de livraison dans des scénarios à forte latence et à liens intermittents.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Le papier présente AsyncMDE, un système de perception de profondeur monoculaire asynchrone et léger qui amortit le coût computationnel des modèles de base en réutilisant les caractéristiques spatiales entre les trames, permettant ainsi un déploiement temps réel sur des plateformes embarquées avec une précision quasi équivalente.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

Le papier propose KnowDiffuser, un cadre de planification de mouvement guidé par la connaissance qui intègre la compréhension sémantique des modèles de langage avec la puissance générative des modèles de diffusion pour combler l'écart entre la décision sémantique et la faisabilité physique dans la conduite autonome.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Le papier présente SignSparK, un cadre d'apprentissage multilingue novateur qui utilise des repères temporels clés et un modèle de flux conditionnel pour générer des avatars de langue des signes 3D fluides et photoréalistes, surmontant ainsi les compromis entre précision linguistique et naturel du mouvement.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Le papier présente DiT4DiT, un modèle end-to-end couplant des transformateurs de diffusion vidéo et d'action pour améliorer l'apprentissage des politiques robotiques en exploitant la structure spatio-temporelle et la physique implicite des vidéos, ce qui permet d'atteindre des performances de pointe avec une efficacité d'échantillonnage bien supérieure.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Ce papier présente « Machinagogy », un système de tutorat IA fondé sur la reconnaissance hégélienne et la psychodynamique freudienne, dont la conception, l'évaluation et la documentation ont été réalisées en collaboration avec une IA selon une méthodologie réflexive appelée « scholarship de vibe », démontrant que des prompts enrichis par la reconnaissance améliorent significativement et universellement les performances des tuteurs.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Ce papier présente LCAMV, une méthode de reconstruction 3D haute précision pour les objets colorés qui corrige la aberration chromatique latérale et fusionne les données de phase des canaux RVB par estimation à variance minimale, permettant d'obtenir des résultats supérieurs sans matériel supplémentaire ni contraintes d'acquisition.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

Ce papier présente SUBTA, un cadre de téléopération bimanuelle assistée qui combine l'estimation d'intentions, la planification de tâches par graphe de scène et des aides au mouvement contextuelles pour améliorer significativement la précision et l'expérience utilisateur lors d'assemblages structurés.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs