Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Reinforcement Learning

Het artikel introduceert GEMS, een schaalbaar, surrogaatvrij multi-agent versterkingsleringsframework dat de inefficiënties van PSRO overwint door expliciete populaties te vervangen door een compacte generator, waardoor het aanzienlijk sneller en minder geheugenintensief is terwijl het hogere beloningen behaalt.

Alakh Sharma, Gaurish Trivedi, Kartikey Singh Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa2026-03-10🤖 cs.LG

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Deze paper introduceert CroSTAta, een transformer-architectuur met een nieuwe State Transition Attention-mechanisme die door het modelleren van tijdsafhankelijke overgangspatronen en het gebruik van temporale masking de robuustheid van robotmanipulatiepoliën aanzienlijk verbetert, zelfs bij uitvoeringsvariaties die niet tijdens het trainen zijn gezien.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Dit paper introduceert NANOMIND, een hardware-software co-design raamwerk dat grote multimodale modellen op batterij-aangedreven apparaten efficiënt uitvoert door modulaire componenten dynamisch toe te wijzen aan de meest geschikte versnellers, wat resulteert in een aanzienlijke verbetering van energie-efficiëntie en doorvoersnelheid zonder netwerkverbinding.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Deze paper introduceert een trainingsvrije plugin die hallucinaties in multimodale redeneringsmodellen vermindert door de aandacht tussen perceptie- en redeneerlagen dynamisch te herverdelen, wat leidt tot een verbeterde consistentie en visuele betrouwbaarheid zonder extra training of architecturale wijzigingen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Dit artikel presenteert een framework dat een geleerde wereldmodel combineert met modelvoorspellende regeling om mensachtige robots in staat te stellen robuust fysiek contact te plannen in ongestructureerde omgevingen, wat leidt tot verbeterde sample-efficiëntie en multi-taakcapaciteit vergeleken met traditionele methoden.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs