Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Cet article présente CoHet, un algorithme de reinforcement learning multi-agents décentralisé qui utilise une motivation intrinsèque pilotée par des réseaux de neurones graphiques pour améliorer la coopération entre agents hétérogènes dans des environnements à observabilité partielle et à récompenses rares.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Cet article présente les Processus de Student-t Variationnels Épars (SVTP), un cadre novateur qui étend la méthode des points d'induction aux processus de Student-t pour offrir une modélisation robuste des queues lourdes et des valeurs aberrantes, surpassant les processus gaussiens épars en précision et en vitesse de convergence tout en restant efficace sur de grands jeux de données.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Ce papier propose un cadre unifié qui modélise la quantification et l'éparpillement comme du bruit additif et introduit une transformée de déquantification débruyante pour établir un chemin de gradient explicite, permettant ainsi l'entraînement robuste de réseaux de neurones à des précisions arbitraires et à des niveaux d'éparpillement extrêmes, y compris en dessous d'un bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Le papier présente DRUPI, une méthode de condensation de dataset qui améliore l'efficacité de l'apprentissage en synthétisant, en plus des données réduites, des informations privilégiées (telles que des étiquettes de caractéristiques ou d'attention) servant de supervision auxiliaire.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

Le papier présente HyConEx, un classifieur basé sur des hyperréseaux conçu pour les données tabulaires, qui génère simultanément des prédictions et des explications locales sous forme d'exemples contrefactuels, comblant ainsi le vide laissé par l'absence de classifieurs interprétables produisant directement des échantillons contrefactuels.

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek SmiejaWed, 11 Ma🤖 cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Le papier présente GateLens, un agent LLM innovant qui utilise l'algèbre relationnelle comme représentation intermédiaire formelle pour améliorer la fiabilité et l'efficacité de l'analyse de données tabulaires complexes dans le secteur automobile, surpassant les approches traditionnelles tout en réduisant considérablement le temps d'analyse.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Cet article propose une critique conséquentialiste des méthodes d'évaluation binaire en machine learning, démontrant par une revue empirique et un nouveau cadre théorique que les règles de score appropriées comme le score Brier sont supérieures aux métriques à seuil fixe, tout en fournissant l'outil logiciel `briertools` et une variante tronquée pour faciliter leur adoption pratique.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Ce papier présente MCP Bridge, un proxy RESTful léger et agnostique aux LLM qui surmonte les limitations des implémentations MCP actuelles en permettant leur exécution sur des environnements contraints avec des contrôles de sécurité avancés, tout en démontrant qu'un modèle Qwen3 finement ajusté avec des techniques d'apprentissage par renforcement dépasse les performances des modèles baselines sur le benchmark MCPToolBench++.

Arash Ahmadi, Sarah Sharif, Yaser M. BanadWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

L'article présente la SGPO, une méthode qui améliore l'optimisation par politique relative de groupe (GRPO) en intégrant un juge étape par étape pour exploiter les signaux d'apprentissage des groupes de réponses entièrement incorrects, comblant ainsi une lacune majeure de l'apprentissage par renforcement dans le raisonnement des grands modèles de langage.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

L'article présente UltraEdit, une méthode de mise à jour des connaissances dans les grands modèles de langage qui, sans nécessiter de réentraînement, de suivi des sujets ni de mémoire externe, permet une édition en temps réel ultra-rapide et économe en ressources tout en supportant jusqu'à deux millions de modifications grâce à une stratégie de normalisation continue.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Cette présentation propose CORA, une méthode d'attribution de crédit pour l'apprentissage par renforcement multi-agent coopératif qui utilise l'allocation du noyau de la théorie des jeux coopératifs et l'échantillonnage aléatoire de coalitions pour optimiser l'apprentissage des politiques en attribuant les avantages globaux aux stratégies de coalition.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Ce papier propose ChannelTokenFormer, un cadre de prévision basé sur les Transformers conçu pour gérer simultanément les dépendances inter-canaux, l'échantillonnage asynchrone et les valeurs manquantes afin d'améliorer la robustesse des prévisions de séries temporelles multivariées dans des conditions réelles.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI