cs.AI articles | Gist.Science

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Le papier présente CostNav, le premier benchmark ancré dans la physique qui évalue la viabilité économique des agents d'IA physiques en intégrant des données financières et réglementaires réelles, révélant ainsi que les méthodes actuelles de navigation, bien que performantes sur des tâches simplifiées, génèrent toutes des pertes économiques dans des scénarios commerciaux complexes.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Ce papier présente IndiMathBench, un benchmark de 312 théorèmes Lean 4 vérifiés par des experts et issus des Olympiades indiennes de mathématiques, conçu pour évaluer les défis persistants de l'autoformalisation et de la preuve de théorèmes par les modèles de langage actuels.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Ce papier propose C3, une méthode d'quantification de l'incertitude qui permet aux modèles de génération vidéo contrôlable d'estimer et de visualiser avec précision leur propre fiabilité au niveau des sous-patchs, afin de détecter les hallucinations et d'améliorer la sécurité dans des applications comme la robotique.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Le framework Trio propose une approche de découverte moléculaire en boucle fermée intégrant la modélisation linguistique, l'apprentissage par renforcement et la recherche arborescente pour générer des ligands ciblés à la fois valides, synthétisables et dotés d'une affinité de liaison améliorée, surpassant ainsi les méthodes de l'état de l'art.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Cet article propose des variantes de forêts aléatoires basées sur le principe de minimisation du risque maximal (MaxRM) pour améliorer la généralisation hors distribution, en fournissant des algorithmes efficaces, des preuves de consistance statistique et des garanties théoriques pour divers risques, y compris le regret.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Le papier présente GTR-Turbo, une méthode efficace qui fusionne les checkpoints d'un modèle pendant son entraînement par renforcement pour créer un « enseignant gratuit », éliminant ainsi la dépendance aux modèles propriétaires coûteux tout en améliorant significativement les performances et en réduisant les coûts de calcul pour les agents VLM.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Cet article présente le PBT (Pretrained Battery Transformer), un modèle fondamental pré-entraîné sur des données hétérogènes qui surpasse les méthodes existantes de 21,8 % en moyenne pour prédire universellement la durée de vie des batteries à travers diverses chimies et conditions de vieillissement.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Cette étude présente un cadre intégrant YOLOv8 et Finer-CAM pour classifier les espèces d'arbres à partir de nuages de points TLS, démontrant une précision de 96 % et révélant que les modèles s'appuient principalement sur les cimes, bien que les troncs soient déterminants pour certaines espèces, améliorant ainsi l'interprétabilité des décisions du modèle.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

En construisant des « tunnels de vent bayésiens » où la vraisemblance est connue, cette étude démontre que les transformateurs réalisent un inférence bayésienne rigoureuse grâce à un mécanisme géométrique précis impliquant des flux résiduels et une attention hiérarchique, une capacité que les architectures plates ne peuvent reproduire.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Ce papier établit que l'entraînement par entropie croisée sculpte la géométrie interne des transformateurs via une boucle de rétroaction couplée entre le routage et le contenu, agissant comme une procédure EM à deux échelles de temps qui transforme l'optimisation en raisonnement probabiliste bayésien.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Cette étude démontre que les grands modèles de langage modernes conservent un substrat géométrique favorisant l'inférence bayésienne, où les représentations de la dernière couche s'organisent selon un axe dominant corrélé à l'entropie prédictive, bien que cette géométrie constitue davantage une lecture privilégiée de l'incertitude qu'un goulot d'étranglement computationnel unique.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Cette étude examine le phénomène de « sur-recherche » dans les modèles de langage augmentés par la recherche, propose une nouvelle métrique d'évaluation nommée Tokens Per Correctness (TPC) pour quantifier ce problème, et présente des stratégies d'atténuation ainsi qu'un nouveau jeu de données, OverSearchQA, pour améliorer l'efficacité de ces systèmes.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Cette étude propose une architecture multi-locataire sécurisée combinée à un mécanisme « Burn-After-Use » pour prévenir les fuites de données dans les environnements d'LLM d'entreprise en assurant l'isolation stricte des instances et la destruction automatique des contextes éphémères après utilisation.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Cet article présente une attaque de déni de service économique furtive et multi-tours contre les agents LLM, exploitant le protocole MCP pour déclencher des chaînes d'appels d'outils excessivement longues via des modifications textuelles optimisées par recherche arborescente, augmentant ainsi considérablement les coûts et la consommation de ressources tout en contournant les filtres de sécurité traditionnels.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Cet article présente une approche d'apprentissage par renforcement dans Dark Souls III qui utilise un graphe de compétences dirigé et un curriculum hiérarchique pour décomposer le contrôle en cinq compétences réutilisables, permettant ainsi un apprentissage continu et une adaptation sélective efficace lors des changements de phase de jeu sans réentraînement complet.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Le papier présente MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long terme sous contraintes de contexte en convertissant l'historique des interactions en une image structurée qui priorise visuellement les informations cruciales tout en compressant les détails superflus.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Ce papier présente MHDash, une plateforme open-source conçue pour évaluer et auditer les assistants IA en santé mentale, révélant que les métriques d'agrégation masquent des défaillances critiques sur les cas à haut risque et les interactions multi-tours, ce qui rend nécessaire une analyse plus fine pour garantir la sécurité.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Ce papier démontre que les hallucinations des grands modèles de langage sont une conséquence inévitable de l'optimisation de l'espace mémoire, car la compression d'informations dans un univers de faits clairsemés force théoriquement le modèle à attribuer une haute confiance à certains non-facts pour minimiser la perte d'information.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Ce papier présente EverMemBench, le premier benchmark conçu pour évaluer la mémoire à long terme des LLM dans des dialogues collaboratifs multi-parties réalistes, révélant ainsi les limites fondamentales des systèmes actuels en matière de raisonnement multi-hop, de gestion temporelle et de conscience contextuelle.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Ce papier présente DEFT, une méthode de génération de trajectoires basée sur des politiques de diffusion qui permet aux robots de continuer à accomplir leurs tâches de manière sûre et efficace même en cas de défaillances d'actionnement, surpassant les méthodes classiques tant en simulation que dans des scénarios réels.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

← Précédent Suivant →