Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Cet article propose un cadre fermé intégrant une estimation haptique, une planification en ligne et un contrôle adaptatif de la raideur, basé sur une variété d'équilibre paramétrée, pour réaliser une manipulation d'outils robuste et précise en milieu encombré, comme démontré par des essais réels de desserrage de vis.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Le papier présente StyleGallery, un cadre de transfert de style personnalisé sans entraînement et conscient du sémantique qui, en utilisant des images de référence arbitraires et un processus en trois étapes (segmentation, appariement et optimisation), surpasse les méthodes existantes en préservant la structure du contenu tout en assurant une stylisation précise et adaptable.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Cette proposition de cadre unifié sans entraînement combat les hallucinations des modèles multimodaux en manipulant les tokens visuels via deux modules complémentaires, la calibration visuelle synergique et la calibration causale, pour rétablir l'équilibre vision-langage et améliorer la précision POPE de 2 % sur LLaVA-1.5 avec une surcharge d'inférence négligeable.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Le papier présente GeoSense, un cadre qui permet aux modèles de langage multimodaux de percevoir leurs insuffisances perceptuelles et d'activer de manière autonome des canaux géométriques pour le raisonnement spatial uniquement lorsque les indices 2D sont jugés inadéquats, améliorant ainsi l'efficacité et la robustesse sans compromettre les capacités visuelles existantes.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

ScanDP: Generalizable 3D Scanning with Diffusion Policy

Ce papier propose ScanDP, un cadre de numérisation 3D généralisable et efficace en données qui utilise une politique de diffusion pour imiter les stratégies de balayage humaines, en s'appuyant sur la cartographie par grille d'occupation et une optimisation hybride de trajectoire pour obtenir une meilleure couverture et une plus grande robustesse face au bruit et aux objets inédits.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Cet article propose OCpose, une nouvelle métrique d'évaluation pour l'estimation de pose multi-personnes basée sur le transport optimal, qui assure une évaluation équitable en considérant tous les poses détectés indépendamment de leur score de confiance tout en les utilisant pour améliorer la fiabilité de l'appariement avec les annotations.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Cet article présente SpatioCoupledNet, une méthode de contrôle de forme hybride combinant cinématique et apprentissage profond pour stabiliser et améliorer la précision d'un robot planaire hyper-redundant flexible, surpassant les approches purement analytiques ou basées sur les données dans des environnements incertains et dynamiques.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Ce papier propose la méthode DGI (Differentiable Geometric Indexing) pour résoudre les blocages d'optimisation et les conflits géométriques de la recherche générative en unifiant l'indexation et la récupération via une formation différentiable et une optimisation géométrique isotrope, surpassant ainsi les approches existantes, notamment dans les scénarios à longue traîne.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Le papier propose Frames2Residual (F2R), une méthode d'apprentissage auto-supervisé pour le débruitage vidéo qui surmonte les limitations des réseaux à trou aveugle en découplant l'apprentissage en deux étapes distinctes : une modélisation temporelle aveugle pour assurer la cohérence inter-images, suivie d'une récupération spatiale non aveugle pour restaurer les détails texturaux.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs