RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Le papier présente RecThinker, un cadre agentique novateur qui améliore les systèmes de recommandation en passant d'une acquisition passive d'informations à une investigation autonome via un paradigme « Analyser-Planifier-Agir », l'utilisation dynamique d'outils pour combler les lacunes informationnelles et un pipeline d'entraînement combinant affinage supervisé et apprentissage par renforcement.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Le papier présente MissBench, un nouveau cadre et benchmark pour l'analyse affective multimodale qui standardise les protocoles de données manquantes déséquilibrées et introduit deux métriques diagnostiques (MEI et MLI) pour révéler les inégalités modales et les déséquilibres d'optimisation souvent masqués par les évaluations traditionnelles.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Cet article propose un système de cohérence des capacités (CCS) qui établit une équivalence structurelle entre les modèles de cohérence mémoire et la révocation d'autorisations multi-agents, démontrant que la stratégie RCC réduit drastiquement les opérations non autorisées par rapport aux méthodes basées sur le temps, indépendamment de la vitesse d'exécution des agents.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Cette étude comparative évalue cinq approches de localisation coopérative en environnements sans caractéristiques, révélant que la méthode CI offre le meilleur équilibre entre précision et cohérence, tandis que les méthodes StCL et Standard-CL, bien que plus précises, souffrent d'incohérences critiques pour les applications de sécurité.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Cet article présente CourtSI, le premier jeu de données à grande échelle et le benchmark CourtSI-Bench dédiés à l'évaluation et à l'amélioration de l'intelligence spatiale des modèles vision-langage dans les sports de raquette, démontrant ainsi leur potentiel pour combler l'écart de performance entre l'IA et l'humain dans des scénarios dynamiques complexes.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Cet article propose un cadre d'adaptation de domaine non supervisé innovant basé sur une reformulation de la divergence de disparité des marges (MDD) pour améliorer la segmentation du foie en imagerie CBCT interventionnelle en exploitant des données CT annotées, comblant ainsi le manque de données étiquetées spécifiques à cette modalité.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs