cs.AI articles | Gist.Science

Arbiter: Detecting Interference in LLM Agent System Prompts

Ce papier présente Arbiter, un cadre d'évaluation combinant des règles formelles et un balayage multi-modèles pour détecter des interférences dans les prompts système d'agents de codage LLM, révélant ainsi des vulnérabilités structurelles et des corrélations entre l'architecture des prompts et les types d'échecs.

Tony Mason2026-03-11🤖 cs.AI

Security Considerations for Multi-agent Systems

Cette étude caractérise systématiquement le paysage des menaces des systèmes multi-agents et évalue quantitativement 16 cadres de sécurité, révélant que les solutions actuelles, bien que menées par l'initiative OWASP Agentic Security, offrent une couverture insuffisante, en particulier face aux risques de non-déterminisme et de fuite de données.

Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty2026-03-11🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Cette étude analyse les disparités de genre dans la détection des deepfakes audio en démontrant que l'évaluation basée uniquement sur des métriques globales comme le taux d'erreur égalisé masque des biais démographiques significatifs, soulignant ainsi la nécessité d'adopter des mesures d'équité spécifiques pour développer des systèmes plus justes et fiables.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila2026-03-11🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Cette présentation propose l'algorithme CMA-ES-IG, qui améliore l'apprentissage des préférences des utilisateurs non experts pour les robots en intégrant explicitement l'expérience utilisateur via la sélection de trajectoires informatives et perceptuellement distinctes, surpassant ainsi les méthodes existantes en termes d'évolutivité, de robustesse et de préférence utilisateur.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja Mataric2026-03-11🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

Le papier présente Meissa, un modèle multimodal médical léger de 4 milliards de paramètres capable de fonctionner hors ligne avec des capacités agentiques, qui rivalise avec les agents propriétaires en apprenant des stratégies d'interaction complexes via une supervision hiérarchisée et une modélisation unifiée de trajectoires, tout en réduisant considérablement les coûts, la latence et les risques de confidentialité.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille2026-03-11🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Ce papier propose l'« AI phenomenology » comme un cadre de recherche pratique et des outils méthodologiques pour comprendre et aligner les expériences vécues et évolutives des humains avec les systèmes d'IA, au-delà des métriques traditionnelles de performance.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi Wang2026-03-11🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Le papier présente MEMO, un cadre d'auto-jeu qui améliore la robustesse et les performances des modèles de langage dans les jeux multi-agents à long terme en optimisant le contexte d'inférence via une mémoire persistante et une exploration adaptative, réduisant ainsi la variance des résultats et augmentant significativement les taux de victoire.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang Wang2026-03-11🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Ce papier présente Pichay, un système de pagination à la demande transparent pour les fenêtres de contexte des LLM qui, en appliquant des principes de hiérarchie mémoire virtuel, réduit drastiquement la consommation de contexte en évitant le gaspillage de tokens et en gérant dynamiquement les données obsolètes.

Tony Mason2026-03-11🤖 cs.AI

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Cet article présente une pipeline automatisée utilisant des modèles de langage (LLM) pour détecter et analyser les causes racines des tests flous dans les logiciels quantiques, ayant permis d'identifier 25 nouveaux cas et d'atteindre une précision élevée avec le modèle Google Gemini.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei Zhang2026-03-11🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

Le papier présente PlayWorld, un pipeline autonome et évolutif qui entraîne des simulateurs vidéo de monde robotique à partir de l'auto-jeu non supervisé, permettant de prédire avec précision les interactions physiques complexes et d'améliorer significativement les performances des politiques d'apprentissage par renforcement dans le monde réel par rapport aux données collectées par des humains.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha Majumdar2026-03-11🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Ce papier présente WS-Net, un cadre d'analyse de démixage hyperspectral innovant qui combine la modélisation par espace d'états et une attention dédiée aux signaux faibles pour surmonter l'effacement des réponses spectrales subtiles et améliorer significativement la précision de l'estimation des abondances, même dans des conditions de faible rapport signal sur bruit.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

Ce papier propose un outil d'évaluation conservateur pour la conscience des agents de modèles linguistiques, qui distingue la simple capacité à parler d'un soi stable de l'organisation réelle d'une identité persistante en appliquant la théorie de la pile pour séparer les occurrences temporelles des co-instantiations objectives.

Elija Perrier, Michael Timothy Bennett2026-03-11🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Le papier présente EPOCH, un protocole d'ingénierie unifié qui structure l'optimisation autonome des systèmes en plusieurs phases et rôles distincts pour garantir la stabilité, la traçabilité et l'amélioration itérative de composants hétérogènes tels que les prompts, le code et les configurations de modèles.

Zhanlin Liu, Yitao Li, Munirathnam Srikanth2026-03-11🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Le papier propose Sim2Act, un cadre d'apprentissage robuste de la simulation à la décision qui améliore la fiabilité des politiques dans des domaines critiques comme la chaîne d'approvisionnement en combinant une calibration adversaire des erreurs de simulation et une stratégie de perturbation relative de groupe pour stabiliser l'apprentissage sans sacrifier les actions à haut risque et haut rendement.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Ce papier présente Doki, une interface d'écriture de vidéos génératives axée sur le texte qui permet aux utilisateurs de créer, structurer et éditer des histoires visuelles directement dans un document textuel, rendant ainsi la création vidéo aussi accessible que l'écriture.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li2026-03-11🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Cette étude démontre que l'intégration de scores de sentiment extraits par un modèle de langage finetuné (Qwen3) à partir de titres d'actualités améliore considérablement la prévision des prix de l'aluminium et la performance des stratégies de trading lors des périodes de forte volatilité, surpassant les modèles basés uniquement sur des données tabulaires.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Cet article propose un cadre unifié pour les modèles de monde latents en conduite automatisée, établissant une taxonomie, des mécanismes internes et des protocoles d'évaluation pour améliorer la robustesse, la généralisation et l'efficacité des systèmes de décision.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Cet article propose un cadre basé sur les transformers pour la recherche de cas de cancer de la peau en combinant une image de référence et un texte descriptif, en alignant simultanément des représentations globales et locales pour améliorer la précision du diagnostic.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

← Précédent Suivant →