Can RL Improve Generalization of LLM Agents? An Empirical Study

Deze empirische studie toont aan dat hoewel Reinforcement Fine-Tuning (RFT) LLM-agenten goed laat generaliseren binnen een omgeving, de overdracht naar onbekende omgevingen beperkt blijft door semantische en interface-verschuivingen, terwijl sequentiële training en mix-training veelbelovende oplossingen bieden voor robuustere generalisatie.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Het artikel introduceert Slow-Fast Inference, een trainingsvrij raamwerk dat de inferentieversnelling bereikt door generatie te splitsen in frequente snelle stappen met een compacte geheugengebruik en zeldzame langzame stappen die de context bij semantische grenzen ververst, waardoor de doorvoer met 1,6 tot 14,4 keer toeneemt zonder kwaliteitsverlies.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

LoV3D is een geavanceerde pipeline die longitudinale 3D-hersenen-MRI-scans analyseert door regionale volumetrische beoordelingen te koppelen aan een cognitieve prognose, waardoor hallucinaties worden verminderd en de diagnose van neurodegeneratieve ziekten zoals Alzheimer aanzienlijk nauwkeuriger en biologisch plausibeler wordt.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Dit artikel presenteert een robuust multi-agent versterkingsleringsframework voor verkeerslichtregeling dat door middel van draairatio-randomisatie, een exponentiële fase-aanpassingsactie en een op buren gebaseerde observatiestrategie de generalisatie en stabiliteit verbetert, wat resulteert in een reductie van de gemiddelde wachttijd met meer dan 10% vergeleken met bestaande methoden.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

SommBench: Assessing Sommelier Expertise of Language Models

Dit paper introduceert SommBench, een meertalige benchmark die de sommelier-expertise van taalmodellen test op wijntheorie, kenmerkvolleding en voedsel-wijncombinaties om te evalueren of tekstuele training voldoende is voor zintuiglijke oordelen.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL