Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

Cet article propose une nouvelle méthode de double projection basée sur les autoencodeurs variationnels dynamiques pour reconstruire des systèmes dynamiques à partir de données observées, permettant d'estimer simultanément les trajectoires d'état et les séries temporelles de bruit afin de faciliter l'évolution multi-étapes et d'apprendre des modèles à espace d'état de faible dimension.

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

The Role of Feature Interactions in Graph-based Tabular Deep Learning

En analysant des ensembles de données synthétiques, cette étude révèle que les méthodes d'apprentissage profond tabulaire basées sur des graphes échouent à reconstruire correctement les interactions entre caractéristiques, ce qui démontre que prioriser la modélisation précise de la structure du graphe est essentiel pour améliorer la précision prédictive.

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Ce papier propose une méthode de préentraînement basée sur un modèle inverse de dynamique proprioceptif (PIDM) entraîné via une exploration sans tâche, permettant d'améliorer significativement l'efficacité des échantillons et les performances des algorithmes actor-critic pour la locomotion robotique par rapport à une initialisation aléatoire.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Ce papier présente ARM-FM, un cadre qui utilise des modèles de fondation pour générer automatiquement des machines de récompense à partir de spécifications en langage naturel, permettant ainsi une conception de récompenses compositionnelle et une généralisation zéro-shot en apprentissage par renforcement.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Cette étude propose un cadre d'apprentissage par renforcement nommé PRPO, qui intègre des priors structurels d'invariance par permutation pour révéler les capacités de raisonnement numérique des grands modèles de langage, leur permettant de surpasser des modèles bien plus grands dans les tâches de prédiction tabulaire, notamment en contexte zero-shot.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

Cet article présente une nouvelle classe de priors, appelés priors de Mercer, pour les réseaux de neurones bayésiens, qui permettent de définir des distributions sur les paramètres du réseau à partir de la représentation de Mercer d'un noyau de covariance afin que les échantillons du réseau approximent ceux d'un processus gaussien spécifié, combinant ainsi l'interprétabilité des processus gaussiens avec l'évolutivité des réseaux de neurones.

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

Ce papier propose PESO, une méthode d'adaptation continue utilisant un régularisateur proximal pour optimiser l'apprentissage des adaptateurs LoRA dans les systèmes de recommandation génératifs en équilibrant l'adaptation aux comportements récents et la préservation des connaissances utiles, surpassant ainsi les méthodes existantes.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Cette étude compare l'approche interprétable ANFIS-FBCSP-PSO et le modèle profond EEGNet pour la classification des EEG d'imagerie motrice, révélant que le premier surpasse le second en précision intra-sujet tandis que le second offre une meilleure généralisation inter-sujet, fournissant ainsi des directives pour choisir entre interprétabilité et robustesse dans les systèmes BCI.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG