Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Le papier présente AlphaApollo, un système de raisonnement agentic qui surmonte les limites des modèles de fondation en matière de résolution de problèmes complexes et d'évolution fiable grâce à une orchestration combinant raisonnement multi-tours, apprentissage par renforcement et évolution itérative avec vérification assistée par outils.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Le papier présente RL-100, un cadre d'apprentissage par renforcement réel basé sur des politiques visuo-motrices par diffusion qui unifie imitation et renforcement pour atteindre une fiabilité de 100 % sur huit tâches robotiques complexes, surpassant les opérateurs experts et démontrant une robustesse exceptionnelle en déploiement zéro-shot.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

L'article présente SynHLMA, un cadre novateur générant des séquences de manipulation manuelle d'objets articulés à partir d'instructions langagières en utilisant une représentation discrète des interactions main-objet et un modèle d'apprentissage aligné sur le langage pour assurer la cohérence fonctionnelle et dynamique.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Le papier propose GraphKeeper, une méthode novatrice pour l'apprentissage incrémental de domaine sur les graphes qui résout l'oubli catastrophique grâce à la disentanglement et la préservation des connaissances, surpassant les approches existantes tout en s'intégrant à divers modèles de base graphiques.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Ce papier propose LTSV, une méthode légère d'évaluation de la qualité des données temporelles pour les modèles fondationnels, qui utilise un ajustement fin en contexte et une agrégation de blocs temporels pour estimer efficacement la contribution des échantillons tout en préservant les dépendances temporelles.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Cet article propose le module Adaptive Diversity Cache (ADC), une méthode sans entraînement et plug-and-play qui atténue le biais à longue traîne dans la détection d'interactions humain-objet en accumulant des représentations de caractéristiques diversifiées et en allouant dynamiquement la capacité des caches pour améliorer la détection des catégories rares.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Ce papier présente UPA-RFAS, un cadre unifié qui génère des patches adversariaux universels et transférables capables de compromettre divers modèles Vision-Language-Action (VLA) dans des scénarios boîte noire et des transitions simulation-réalité en exploitant des mécanismes spécifiques aux caractéristiques, à l'attention et à la sémantique.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Cet article propose un cadre d'apprentissage par renforcement multi-agent généralisé qui utilise des priors contraints par la communication et un estimateur d'information mutuelle dual pour distinguer les messages perdus des messages intacts, afin d'améliorer la robustesse et l'évolutivité des politiques coopératives dans des environnements réels complexes.

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI