Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Dit paper introduceert NANOMIND, een hardware-software co-design raamwerk dat grote multimodale modellen op batterij-aangedreven apparaten efficiënt uitvoert door modulaire componenten dynamisch toe te wijzen aan de meest geschikte versnellers, wat resulteert in een aanzienlijke verbetering van energie-efficiëntie en doorvoersnelheid zonder netwerkverbinding.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Het artikel introduceert R-WoM, een op retrieval gebaseerde wereldmodel voor computergebruiksagenten die hallucinaties en fouten in langetermijnplanning van grote taalmodellen aanpakt door simulaties te verankeren met feitelijke, actuele kennis uit externe tutorials, wat leidt tot significante prestatieverbeteringen op benchmarks zoals OSWorld en WebArena.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Dit paper introduceert HypoSpace, een diagnostische suite die de creativiteit van taalmodellen evalueert door hun vermogen te meten om diverse, unieke en volledige sets van hypotheses te genereren in onderbepaalde wetenschappelijke scenario's, waarbij wordt aangetoond dat modellen vaak in een 'mode collapse' terechtkomen die door traditionele correctheidsmetingen onopgemerkt blijft.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG