cs.AI articles | Gist.Science

Geometric Scaling of Bayesian Inference in LLMs

Cette étude démontre que les grands modèles de langage modernes conservent un substrat géométrique favorisant l'inférence bayésienne, où les représentations de la dernière couche s'organisent selon un axe dominant corrélé à l'entropie prédictive, bien que cette géométrie constitue davantage une lecture privilégiée de l'incertitude qu'un goulot d'étranglement computationnel unique.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Cette étude examine le phénomène de « sur-recherche » dans les modèles de langage augmentés par la recherche, propose une nouvelle métrique d'évaluation nommée Tokens Per Correctness (TPC) pour quantifier ce problème, et présente des stratégies d'atténuation ainsi qu'un nouveau jeu de données, OverSearchQA, pour améliorer l'efficacité de ces systèmes.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Cette étude propose une architecture multi-locataire sécurisée combinée à un mécanisme « Burn-After-Use » pour prévenir les fuites de données dans les environnements d'LLM d'entreprise en assurant l'isolation stricte des instances et la destruction automatique des contextes éphémères après utilisation.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Cet article présente une attaque de déni de service économique furtive et multi-tours contre les agents LLM, exploitant le protocole MCP pour déclencher des chaînes d'appels d'outils excessivement longues via des modifications textuelles optimisées par recherche arborescente, augmentant ainsi considérablement les coûts et la consommation de ressources tout en contournant les filtres de sécurité traditionnels.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Cet article présente une approche d'apprentissage par renforcement dans Dark Souls III qui utilise un graphe de compétences dirigé et un curriculum hiérarchique pour décomposer le contrôle en cinq compétences réutilisables, permettant ainsi un apprentissage continu et une adaptation sélective efficace lors des changements de phase de jeu sans réentraînement complet.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Le papier présente MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long terme sous contraintes de contexte en convertissant l'historique des interactions en une image structurée qui priorise visuellement les informations cruciales tout en compressant les détails superflus.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Ce papier présente MHDash, une plateforme open-source conçue pour évaluer et auditer les assistants IA en santé mentale, révélant que les métriques d'agrégation masquent des défaillances critiques sur les cas à haut risque et les interactions multi-tours, ce qui rend nécessaire une analyse plus fine pour garantir la sécurité.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Ce papier démontre que les hallucinations des grands modèles de langage sont une conséquence inévitable de l'optimisation de l'espace mémoire, car la compression d'informations dans un univers de faits clairsemés force théoriquement le modèle à attribuer une haute confiance à certains non-facts pour minimiser la perte d'information.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Ce papier présente EverMemBench, le premier benchmark conçu pour évaluer la mémoire à long terme des LLM dans des dialogues collaboratifs multi-parties réalistes, révélant ainsi les limites fondamentales des systèmes actuels en matière de raisonnement multi-hop, de gestion temporelle et de conscience contextuelle.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Ce papier présente DEFT, une méthode de génération de trajectoires basée sur des politiques de diffusion qui permet aux robots de continuer à accomplir leurs tâches de manière sûre et efficace même en cas de défaillances d'actionnement, surpassant les méthodes classiques tant en simulation que dans des scénarios réels.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

Ce papier présente DMS2F-HAD, un réseau de fusion spatiale-spectrale basé sur une architecture Mamba à double branche qui surpasse les méthodes existantes en matière de précision et d'efficacité pour la détection d'anomalies dans les images hyperspectrales.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Ce papier propose FGO, un algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'utilisation des données et prévient l'effondrement de l'entropie pour compresser les chaînes de pensée des grands modèles de langage sans dégrader leurs performances.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Le papier présente UniWeTok, un tokeniseur binaire unifié doté d'un codebook massif de taille $2^{128}$ et d'une architecture hybride innovante, qui atteint des performances de pointe en génération et en compréhension multimodale tout en réduisant considérablement les coûts de calcul par rapport aux modèles existants.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Le papier présente TikArt, un agent multimodal entraîné par apprentissage par renforcement qui améliore le raisonnement visuel fin en intercalant la réflexion linguistique avec des actions de zoom et de segmentation pour acquérir séquentiellement des preuves locales, stabilisées par une récompense de réduction d'incertitude relative.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Le papier présente GOT-JEPA, un cadre de pré-entraînement par prédiction de modèles qui améliore la généralisation et la gestion des occlusions dans le suivi d'objets génériques, complété par OccuSolver pour affiner l'estimation de la visibilité et la capture des motifs d'occlusion.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Cette étude démontre que des analystes IA autonomes peuvent reproduire à grande échelle la diversité analytique observée chez les humains, révélant ainsi une incertitude méthodologique significative et plaidant pour une nouvelle norme de transparence exigeant la divulgation des prompts et l'utilisation de rapports de type « multivers » pour les analyses générées par l'IA.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Le papier présente LAVIDA, un cadre de détection d'anomalies vidéo en zéro-shot qui utilise un échantillonneur d'exposition aux anomalies et un modèle de langage multimodal pour atteindre des performances de pointe sans aucun entraînement sur des données réelles d'anomalies.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

Le papier présente PatchDenoiser, un cadre de débruitage ultra-léger et économe en énergie basé sur l'apprentissage multi-échelle de patches, qui surpasse les méthodes existantes en préservant les détails anatomiques tout en réduisant considérablement la complexité computationnelle et la consommation énergétique pour l'imagerie CT à faible dose.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Ce papier présente Hubscan, un scanner de sécurité open-source conçu pour détecter le « hubness poisoning » dans les systèmes de génération augmentée par récupération (RAG) en utilisant une architecture multi-détecteurs pour identifier les vecteurs malveillants qui faussent les résultats de recherche.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Ce papier propose AMLRIS, une stratégie d'apprentissage masqué sensible à l'alignement qui améliore la segmentation d'images par référence en filtrant dynamiquement les pixels visuellement non alignés avec la description textuelle durant l'entraînement, atteignant ainsi des performances de pointe sur les benchmarks RefCOCO.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

← Précédent Suivant →

cs.AI