cs.AI articles | Gist.Science

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Cet article propose de repenser les fondements des dossiers de sécurité pour les systèmes d'IA de pointe en intégrant des méthodologies rigoureuses issues des industries critiques, afin de combler les lacunes des approches actuelles de l'alignement et d'établir un cadre plus robuste et défendable, illustré par une étude de cas sur l'alignement trompeur et les capacités CBRN.

Shaun Feakins, Ibrahim Habli, Phillip Morgan2026-03-11🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

Cet article propose un cadre d'apprentissage par renforcement méta multi-niveaux intégrant un curriculum basé sur des compétences, qui comprime efficacement les processus de décision markoviens en hiérarchisant les politiques pour réduire la stochasticité, accélérer la convergence et faciliter le transfert de compétences entre différents problèmes et niveaux de complexité.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Cet article présente un cadre automatisé utilisant un modèle de langage pour générer et exécuter des protocoles de contrôle et de mesure pour les qubits supraconducteurs, permettant ainsi une caractérisation autonome et une reproduction efficace d'expériences complexes.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Ce papier présente TDAD, une méthodologie qui traite les prompts d'agents IA comme des artefacts compilés en générant des tests exécutables à partir de spécifications comportementales pour garantir la conformité et prévenir les régressions lors du déploiement d'agents utilisant des outils.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Le papier présente Scale-Plan, un cadre évolutif assisté par les grands modèles de langage qui génère des représentations de problèmes compactes et pertinentes pour surmonter les défis de la planification à long terme dans les systèmes multi-robots hétérogènes, tout en introduisant le benchmark MAT2-THOR pour évaluer ces systèmes avec fiabilité.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Cette étude démontre que les métriques de couverture dans les systèmes de récupération peuvent servir d'indicateurs fiables de la couverture informationnelle des réponses générées par les systèmes RAG, particulièrement lorsque les objectifs de récupération s'alignent avec ceux de la génération.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

En introduisant le cadre modulaire GenGNN, cette étude démontre que les encodeurs expressifs complexes ne sont pas indispensables à la génération de graphes discrets, car des modèles de diffusion basés sur GenGNN atteignent des performances comparables à celles des transformateurs tout en étant nettement plus rapides.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Le papier présente MASEval, une bibliothèque agnostique qui évalue les systèmes d'agents LLM dans leur ensemble en démontrant que le choix du framework impacte la performance autant que celui du modèle, comblant ainsi le vide des benchmarks centrés uniquement sur les modèles.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Ce papier présente MuCTaL, un cadre d'apprentissage profond léger et généralisable entraîné sur quatre types de cancers pour localiser avec précision les tumeurs dans les images de pathologie numérique et générer des cartes de probabilité spatiales.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Ce papier présente le LLM Delegate Protocol (LDP), un protocole de communication natif pour l'IA qui introduit des mécanismes d'identité et de gouvernance pour optimiser la délégation entre agents, démontrant par une implémentation et des évaluations des gains significatifs en latence et en efficacité des tokens, bien que la métadonnée de confiance sans vérification puisse nuire à la qualité.

Sunil Prakash2026-03-11🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Cette étude identifie que les préférences humaines pour des solutions d'optimisation combinatoire interprétables, même lorsque celles-ci sont équivalentes en performance, reposent principalement sur l'alignement avec des heuristiques simples, la simplicité de composition et une représentation visuelle ordonnée.

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip Melinscak2026-03-11🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Cette étude présente une évaluation contrôlée du système BCAS pour quantifier l'impact des décisions de conception, telles que la profondeur de recherche et les stratégies de récupération, sur la précision et le coût des systèmes RAG agissants soumis à des contraintes budgétaires.

Kyle McCleary, James Ghawaly2026-03-11🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Cet article propose un nouveau modèle de sélection de caractéristiques nommé FSbuHD, basé sur la théorie des ensembles flous-rough et fonctionnant en modes normal et optimiste, qui reformule le problème en une optimisation via des méta-heuristiques pour surmonter les limitations des méthodes existantes dans les systèmes d'information hybrides.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

Ce papier présente NetDiffuser, un cadre novateur utilisant des modèles de diffusion et un algorithme de catégorisation des fonctionnalités pour générer des exemples adverses naturels capables de tromper efficacement les systèmes de détection d'intrusion basés sur l'apprentissage profond.

Pratyay Kumar, Abu Saleh Md Tayeen, Satyajayant Misra, Huiping Cao, Jiefei Liu, Qixu Gong, Jayashree Harikumar2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Cet article propose une ablation complète de neuf familles de bornes pour la prédiction sélective et introduit le « Transfer-Informed Betting », une méthode novatrice qui améliore la quantification de l'incertitude en contextes de données limitées en warm-startant le processus de richesse WSR avec le profil de risque d'un domaine source, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Le papier présente FedLECC, une stratégie légère de sélection de clients pour l'apprentissage fédéré qui regroupe les appareils par similarité de distribution d'étiquettes et privilégie ceux ayant une perte locale élevée, améliorant ainsi la précision et réduisant les coûts de communication dans des environnements aux données non indépendantes et non identiquement distribuées (non-IID).

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Cet article propose une méthode entièrement différentiable utilisant des portes de Bernoulli relaxées pour découvrir des tickets de loterie forts dans des réseaux de neurones sur-optimisés, permettant d'atteindre jusqu'à 90 % de parcimonie avec une perte de précision minimale sans nécessiter d'estimateurs de gradient non différentiables ni de cycles d'élagage itératifs.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Cette étude démontre que la visibilité des domaines dans les moteurs de recherche génératifs est intrinsèquement stochastique et sujette à une grande variabilité, rendant les mesures ponctuelles trompeuses et soulignant la nécessité d'adopter un cadre statistique incluant des intervalles de confiance pour quantifier correctement l'incertitude.

Ronald Sielinski2026-03-11🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Cette étude présente un nouveau cadre utilisant des modèles de vision-langage fondationnels pour générer automatiquement des configurations de simulation de plantes à partir d'images de drones, offrant ainsi une solution évolutive pour la création de jumeaux numériques agricoles.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

← Précédent Suivant →