Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Dit paper introduceert de DRQ-learner, een nieuw meta-leraar voor het schatten van individuele potentiële uitkomsten in Markov-beslissingsprocessen met observationele data, die dubbel robuust, Neyman-orthogonaal en quasi-orakel-efficiënt is en hiermee de prestaties van bestaande methoden verbetert.

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Deze paper introduceert CroSTAta, een transformer-architectuur met een nieuwe State Transition Attention-mechanisme die door het modelleren van tijdsafhankelijke overgangspatronen en het gebruik van temporale masking de robuustheid van robotmanipulatiepoliën aanzienlijk verbetert, zelfs bij uitvoeringsvariaties die niet tijdens het trainen zijn gezien.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

Deze paper introduceert een nieuwe 'double projection'-methode binnen dynamische variatie-automatische coderers om zowel systeemtrajecten als ruisreeksen te schatten uit data, wat leidt tot effectieve meervoudige-stapvoorspellingen en het leren van modellen met een lage-dimensionale toestandsruimte voor zowel stochastische als deterministische dynamische systemen.

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

SwiftTS is een efficiënt raamwerk dat gebruikmaakt van multi-task meta-learning en een lichtgewicht dual-encoder architectuur om de meest geschikte tijdreeks-pre-trained modellen te selecteren zonder kostbare individuele fine-tuning, waardoor de prestaties op onbekende datasets en horizonten aanzienlijk worden verbeterd.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG