cs.AI articles | Gist.Science

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Cet article propose un cadre hybride léger intégrant des modèles de langage et des mécanismes d'attention graphique pour surmonter les contraintes de ressources dans le jeu des Amazones, démontrant une amélioration significative de la précision décisionnelle et une capacité à surpasser le modèle de base (GPT-4o-mini) grâce à l'apprentissage à partir de données synthétiques bruitées.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Ce papier présente IH-Challenge, un ensemble de données d'apprentissage par renforcement conçu pour améliorer la hiérarchie des instructions des modèles de langage avancés, permettant ainsi de renforcer leur robustesse face aux attaques tout en préservant leur utilité.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Cet article présente un cadre d'apprentissage par renforcement multi-agents basé sur l'algorithme PPO pour coordonner efficacement des flottes de drones dans la livraison de fournitures médicales critiques, en optimisant l'allocation des ressources et la priorisation des tâches au sein d'environnements dynamiques et partiellement observables.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Cette étude évalue la sensibilité de onze modèles fondationnels promptables à la segmentation CT musculo-squelettique, révélant que leurs performances varient considérablement selon les stratégies d'incitation et les structures anatomiques, et que l'utilisation de prompts humains réels entraîne une baisse de performance par rapport aux résultats obtenus avec des prompts idéaux, rendant le choix du modèle optimal pour un usage clinique humain complexe.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

Ce papier propose SCORE, une architecture récurrente discrète et contractive qui remplace l'empilement de couches par l'itération d'un bloc neuronal partagé, offrant une convergence accélérée et une réduction des paramètres sans recourir à des solveurs d'équations différentielles.

Guillaume Godin2026-03-12✓ Author reviewed ⓘ🤖 cs.LG

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Cet article propose un cadre novateur de détection de défauts en zéro-shot pour les polymères renforcés de fibres de carbone en thermographie infrarouge active, utilisant des modèles vision-langage préentraînés adaptés via un connecteur léger pour éliminer le besoin de jeux de données d'entraînement coûteux tout en obtenant des performances de localisation élevées.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Cet article propose un cadre novateur d'auto-affinement sans récompense pour les agents génératifs, permettant un contrôle adaptatif continu dans le découpage de réseaux d'accès radio (RAN) en internalisant l'expérience via un mécanisme de réflexion bi-perspective, surpassant ainsi les méthodes d'apprentissage par renforcement traditionnelles en efficacité et en stabilité.

Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao2026-03-12🤖 cs.AI

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Ce papier présente CUAAudit, une méta-évaluation de cinq modèles vision-langage en tant qu'auditeurs autonomes des agents d'utilisation d'ordinateurs, révélant que bien que ces modèles affichent une bonne précision, ils souffrent de limitations significatives dans des environnements complexes et d'un manque de consensus, soulignant ainsi la nécessité de prendre en compte leur fiabilité et leur incertitude pour un déploiement réel.

Marta Sumyk, Oleksandr Kosovan2026-03-12🤖 cs.AI

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Cette étude empirique démontre que, contrairement à l'hypothèse initiale, l'alignement des modèles de langage sur des tâches de raisonnement moral ne nécessite pas d'algorithmes favorisant la diversité, car les méthodes de maximisation de récompense (RLVR) s'avèrent tout aussi efficaces grâce à une distribution de réponses à haute récompense plus concentrée que dans le raisonnement mathématique.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Cet article établit un cadre mathématique unifiant les modèles de dérive générative avec les flots de gradient de Wasserstein de divergences approchées par estimation de densité noyale (KDE), prouvant leur équivalence et proposant une stratégie de divergence mixte pour éviter à la fois l'effondrement et le floutage des modes.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

Ce papier propose le cadre PRF, une méthode d'apprentissage rétrospectif progressif qui améliore la prédiction de trajectoires de longueur variable en alignant graduellement les caractéristiques d'observations incomplètes avec celles d'observations complètes grâce à des modules de distillation et de récupération.

Hao Zhou, Lu Qi, Jason Li, Jie Zhang, Yi Liu, Xu Yang, Mingyu Fan, Fei Luo2026-03-12🤖 cs.AI

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Cet article présente un cadre novateur permettant aux agents autonomes pilotés par des LLM d'améliorer leurs performances futures en extrayant automatiquement des enseignements structurés de leurs trajectoires d'exécution pour les intégrer dynamiquement dans leur contexte via une mémoire adaptative.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi Thomas2026-03-12🤖 cs.AI

Reinforcement Learning with Conditional Expectation Reward

Cet article propose la Récompense d'Espérance Conditionnelle (CER), une méthode d'apprentissage par renforcement qui utilise le modèle de langage lui-même comme vérificateur implicite pour fournir un signal de récompense gradué et applicable à divers domaines de raisonnement, éliminant ainsi le besoin de règles de vérification externes.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Ce papier présente une approche novatrice et explicable pour détecter et éliminer les portes dérobées dans les réseaux de neurones en s'appuyant sur l'analyse des chemins actifs, avec des résultats prometteurs démontrés sur un système de détection d'intrusions.

Eirik Høyheim, Magnus Wiik Eckhoff, Gudmund Grov, Robert Flood, David Aspinall2026-03-12🤖 cs.AI

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Cet article propose un cadre novateur qui intercale l'ordonnancement et la planification de mouvement dans une boucle d'apprentissage incrémental, permettant de générer des plans exécutables et sans collision pour la navigation multi-objets dans des espaces partagés en utilisant des retours symboliques pour guider l'ordonnancement vers des solutions réalisables.

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi, Alessandro Valentini, Andrea Micheli2026-03-12🤖 cs.AI

Are Video Reasoning Models Ready to Go Outside?

Ce papier présente ROVA, un cadre d'entraînement novateur et le benchmark PVRBench conçus pour améliorer la robustesse des modèles de raisonnement vidéo face aux perturbations du monde réel, comblant ainsi l'écart entre les évaluations contrôlées et les déploiements pratiques.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

FAME: Formal Abstract Minimal Explanation for Neural Networks

Ce papier propose FAME, une nouvelle méthode d'explications abductives formelles basée sur l'interprétation abstraite qui permet d'obtenir des explications minimales plus concises et plus rapides pour les grands réseaux de neurones, tout en offrant une procédure pour évaluer la qualité de ces explications par rapport à la solution optimale.

Ryma Boumazouza, Raya Elsaleh, Melanie Ducoffe, Shahaf Bassan, Guy Katz2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Le papier présente DxEvolve, un agent diagnostique auto-évoluant qui comble le décalage entre l'intelligence artificielle actuelle et la cognition clinique en simulant un processus de recherche interactive pour acquérir des examens et transformer l'expérience en apprentissage gouvernable, atteignant ainsi une précision comparable à celle des cliniciens sur des benchmarks comme MIMIC-CDM.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Cet article présente un cadre de modélisation numérique d'humain (DHM) indépendant de la plateforme qui intègre le casque OpenBCI Galea pour le capteur multimodal et l'environnement SuperTux pour l'interaction, afin de fournir une infrastructure reproductible et éthique pour la recherche future en interaction homme-machine et en accessibilité.

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. Brown2026-03-12🤖 cs.AI

Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

Cet article propose la méthode « Contract And Conquer » (CAC), une approche de type boîte noire qui garantit de manière prouvée la génération d'exemples adversariaux pour des réseaux de neurones en combinant la distillation de connaissances sur un jeu de données expansif et une contraction précise de l'espace de recherche, surpassant ainsi les méthodes actuelles sur ImageNet.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.LG

← Précédent Suivant →