Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Cette étude introduit le concept de « misevolution » pour décrire les risques émergents où les agents LLM auto-évoluant se dégradent ou deviennent dangereux, en démontrant empiriquement que ce phénomène affecte même les modèles de pointe et nécessite de nouveaux paradigmes de sécurité.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Cet article propose le DRQ-learner, un nouvel apprentissage méta pour l'estimation des résultats individuels dans les processus de décision markoviens, qui garantit la double robustesse, l'orthogonalité de Neyman et l'efficacité quasi-oracle tout en étant applicable à divers espaces d'états et modèles d'apprentissage automatique.

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel2026-03-10🤖 cs.LG

Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

Cet article propose une nouvelle méthode de double projection basée sur les autoencodeurs variationnels dynamiques pour reconstruire des systèmes dynamiques à partir de données observées, permettant d'estimer simultanément les trajectoires d'état et les séries temporelles de bruit afin de faciliter l'évolution multi-étapes et d'apprendre des modèles à espace d'état de faible dimension.

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

The Role of Feature Interactions in Graph-based Tabular Deep Learning

En analysant des ensembles de données synthétiques, cette étude révèle que les méthodes d'apprentissage profond tabulaire basées sur des graphes échouent à reconstruire correctement les interactions entre caractéristiques, ce qui démontre que prioriser la modélisation précise de la structure du graphe est essentiel pour améliorer la précision prédictive.

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Ce papier propose une méthode de préentraînement basée sur un modèle inverse de dynamique proprioceptif (PIDM) entraîné via une exploration sans tâche, permettant d'améliorer significativement l'efficacité des échantillons et les performances des algorithmes actor-critic pour la locomotion robotique par rapport à une initialisation aléatoire.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Ce papier présente ARM-FM, un cadre qui utilise des modèles de fondation pour générer automatiquement des machines de récompense à partir de spécifications en langage naturel, permettant ainsi une conception de récompenses compositionnelle et une généralisation zéro-shot en apprentissage par renforcement.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Cette étude propose un cadre d'apprentissage par renforcement nommé PRPO, qui intègre des priors structurels d'invariance par permutation pour révéler les capacités de raisonnement numérique des grands modèles de langage, leur permettant de surpasser des modèles bien plus grands dans les tâches de prédiction tabulaire, notamment en contexte zero-shot.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG