GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Le papier présente GTR-Turbo, une méthode efficace qui fusionne les checkpoints d'un modèle pendant son entraînement par renforcement pour créer un « enseignant gratuit », éliminant ainsi la dépendance aux modèles propriétaires coûteux tout en améliorant significativement les performances et en réduisant les coûts de calcul pour les agents VLM.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Cette étude présente un cadre intégrant YOLOv8 et Finer-CAM pour classifier les espèces d'arbres à partir de nuages de points TLS, démontrant une précision de 96 % et révélant que les modèles s'appuient principalement sur les cimes, bien que les troncs soient déterminants pour certaines espèces, améliorant ainsi l'interprétabilité des décisions du modèle.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

Geometric Scaling of Bayesian Inference in LLMs

Cette étude démontre que les grands modèles de langage modernes conservent un substrat géométrique favorisant l'inférence bayésienne, où les représentations de la dernière couche s'organisent selon un axe dominant corrélé à l'entropie prédictive, bien que cette géométrie constitue davantage une lecture privilégiée de l'incertitude qu'un goulot d'étranglement computationnel unique.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Cette étude examine le phénomène de « sur-recherche » dans les modèles de langage augmentés par la recherche, propose une nouvelle métrique d'évaluation nommée Tokens Per Correctness (TPC) pour quantifier ce problème, et présente des stratégies d'atténuation ainsi qu'un nouveau jeu de données, OverSearchQA, pour améliorer l'efficacité de ces systèmes.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Cet article présente une attaque de déni de service économique furtive et multi-tours contre les agents LLM, exploitant le protocole MCP pour déclencher des chaînes d'appels d'outils excessivement longues via des modifications textuelles optimisées par recherche arborescente, augmentant ainsi considérablement les coûts et la consommation de ressources tout en contournant les filtres de sécurité traditionnels.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Cet article présente une approche d'apprentissage par renforcement dans Dark Souls III qui utilise un graphe de compétences dirigé et un curriculum hiérarchique pour décomposer le contrôle en cinq compétences réutilisables, permettant ainsi un apprentissage continu et une adaptation sélective efficace lors des changements de phase de jeu sans réentraînement complet.

Ali Najar2026-03-12🤖 cs.AI

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Ce papier présente EverMemBench, le premier benchmark conçu pour évaluer la mémoire à long terme des LLM dans des dialogues collaboratifs multi-parties réalistes, révélant ainsi les limites fondamentales des systèmes actuels en matière de raisonnement multi-hop, de gestion temporelle et de conscience contextuelle.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Ce papier présente DEFT, une méthode de génération de trajectoires basée sur des politiques de diffusion qui permet aux robots de continuer à accomplir leurs tâches de manière sûre et efficace même en cas de défaillances d'actionnement, surpassant les méthodes classiques tant en simulation que dans des scénarios réels.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

Le papier présente UniWeTok, un tokeniseur binaire unifié doté d'un codebook massif de taille $2^{128}$ et d'une architecture hybride innovante, qui atteint des performances de pointe en génération et en compréhension multimodale tout en réduisant considérablement les coûts de calcul par rapport aux modèles existants.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Le papier présente TikArt, un agent multimodal entraîné par apprentissage par renforcement qui améliore le raisonnement visuel fin en intercalant la réflexion linguistique avec des actions de zoom et de segmentation pour acquérir séquentiellement des preuves locales, stabilisées par une récompense de réduction d'incertitude relative.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI