cs.LG articles | Gist.Science

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Le papier présente MASEval, une bibliothèque agnostique qui évalue les systèmes d'agents LLM dans leur ensemble en démontrant que le choix du framework impacte la performance autant que celui du modèle, comblant ainsi le vide des benchmarks centrés uniquement sur les modèles.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

Cette étude démontre théoriquement et empiriquement que les modèles hybrides combinant Transformers et modèles d'espace d'états surpassent leurs contreparties non hybrides en surmontant leurs limitations fondamentales en termes de paramètres et de mémoire, tout en offrant une meilleure généralisation et une robustesse accrue.

John Cooper, Ilias Diakonikolas, Mingchen Ma, Frederic Sala2026-03-11🤖 cs.LG

APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model

Ce papier présente APPLV, une méthode qui utilise des modèles vision-langage-action pour prédire dynamiquement les paramètres de planificateurs classiques, améliorant ainsi la navigation autonome et la généralisation dans des environnements contraints.

Yuanjie Lu, Beichen Wang, Zhengqi Wu, Yang Li, Xiaomin Lin, Chengzhi Mao, Xuesu Xiao2026-03-11🤖 cs.LG

Why Channel-Centric Models are not Enough to Predict End-to-End Performance in Private 5G: A Measurement Campaign and Case Study

Cette étude démontre que les modèles centrés sur le canal, y compris les simulateurs de ray-tracing, échouent à prédire avec précision le débit de bout en bout dans les réseaux 5G privés en raison d'une surestimation des couches spatiales MIMO, et recommande l'adoption d'approches pilotées par les données pour garantir une planification robotique fiable.

Nils Jörgensen2026-03-11🤖 cs.LG

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Cet article propose un nouveau modèle de sélection de caractéristiques nommé FSbuHD, basé sur la théorie des ensembles flous-rough et fonctionnant en modes normal et optimiste, qui reformule le problème en une optimisation via des méta-heuristiques pour surmonter les limitations des méthodes existantes dans les systèmes d'information hybrides.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Cet article propose une ablation complète de neuf familles de bornes pour la prédiction sélective et introduit le « Transfer-Informed Betting », une méthode novatrice qui améliore la quantification de l'incertitude en contextes de données limitées en warm-startant le processus de richesse WSR avec le profil de risque d'un domaine source, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Le papier présente FedLECC, une stratégie légère de sélection de clients pour l'apprentissage fédéré qui regroupe les appareils par similarité de distribution d'étiquettes et privilégie ceux ayant une perte locale élevée, améliorant ainsi la précision et réduisant les coûts de communication dans des environnements aux données non indépendantes et non identiquement distribuées (non-IID).

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Quantifying Memorization and Privacy Risks in Genomic Language Models

Cet article présente un cadre d'évaluation de confidentialité multi-vecteurs conçu pour quantifier les risques de mémorisation dans les modèles de langage génomique, démontrant que ces modèles mémorisent effectivement des séquences sensibles et que l'audit de sécurité doit combiner plusieurs méthodes pour évaluer pleinement ces risques.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman Ayday2026-03-11🤖 cs.LG

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Cet article propose une méthode entièrement différentiable utilisant des portes de Bernoulli relaxées pour découvrir des tickets de loterie forts dans des réseaux de neurones sur-optimisés, permettant d'atteindre jusqu'à 90 % de parcimonie avec une perte de précision minimale sans nécessiter d'estimateurs de gradient non différentiables ni de cycles d'élagage itératifs.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Le papier présente MedCBR, un cadre de raisonnement basé sur des concepts qui intègre les directives cliniques aux modèles vision-langage pour améliorer l'interprétabilité et la fiabilité des diagnostics médicaux en générant des narratifs cliniques structurés.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Cet article propose un cadre d'apprentissage par renforcement hiérarchique intégrant une perte adversariale robuste et l'optimisation de politique proximale (PPO) pour entraîner un modèle sur un réseau numérique jumeau multi-fidélité, afin d'optimiser conjointement l'ajustement des angles d'inclinaison des antennes et la stratégie de collecte de données, réduisant ainsi la latence de collecte jusqu'à 28,01 % tout en maximisant les débits des utilisateurs.

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Le système Guardian propose une approche décisionnelle interprétable pour la recherche d'enfants disparus, combinant des chaînes de Markov pour la modélisation des risques spatiotemporels, l'apprentissage par renforcement pour l'optimisation des plans de recherche et des modèles de langage pour la validation automatique de la qualité.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Le papier présente BiCLIP, un cadre simple et efficace qui améliore l'adaptation de domaine des modèles vision-langage en appliquant une transformation géométrique structurée aux caractéristiques multimodales, permettant d'atteindre des performances de pointe sur plusieurs benchmarks avec un nombre minimal de paramètres.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Kernel Debiased Plug-in Estimation based on the Universal Least Favorable Submodel

Cet article propose ULFS-KDPE, un estimateur de plug-in débiaisé basé sur un modèle défavorable universel dans un espace de Hilbert à noyau, qui permet d'estimer efficacement des paramètres différentiables dans des modèles non paramétriques sans nécessiter le calcul explicite des fonctions d'influence efficaces.

Haiyi Chen, Yang Liu, Ivana Malenica2026-03-11🤖 cs.LG

Towards Reliable Simulation-based Inference

Cette thèse propose des méthodes pour améliorer la fiabilité de l'inférence basée sur la simulation en introduisant une régularisation par équilibrage et l'utilisation de réseaux de neurones bayésiens afin de prévenir les conclusions excessivement confiantes générées par les approximations d'apprentissage automatique.

Arnaud Delaunoy2026-03-11🤖 cs.LG

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

A Survey of Reinforcement Learning For Economics

Ce sondage réintroduit les méthodes d'apprentissage par renforcement aux économistes comme une extension échantillonnée de la programmation dynamique permettant de résoudre des modèles économiques complexes à haute dimension, tout en soulignant leurs limites pratiques telles que l'inefficacité échantillonnaire et l'absence de garanties de convergence globale.

Pranjal Rawat2026-03-11🤖 cs.LG

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité $qs$ pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan Jayasena2026-03-11🤖 cs.LG

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

Ce papier présente le cadre SLoD, qui utilise la diffusion par noyau de chaleur sur des variétés hyperboliques pour définir un opérateur de zoom continu permettant de contrôler la résolution sémantique et de détecter automatiquement les niveaux d'abstraction dans les graphes de connaissances.

Edward Izgorodin2026-03-11🤖 cs.AI

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

Cet article propose MAcPNN, une approche d'apprentissage mutuel assisté inspirée de la théorie socioculturelle de Vygotsky, qui permet aux appareils IoT autonomes équipés de réseaux de neurones progressifs continus (cPNN) de collaborer de manière dynamique et économe en ressources pour surmonter le dérive conceptuelle et l'oubli dans les flux de données temporelles.

Federico Giannini, Emanuele Della Valle2026-03-11🤖 cs.LG

← Précédent Suivant →

cs.LG