To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Dit artikel introduceert de Mean Velocity Policy (MVP), een generatieve beleidsfunctie die een gemiddeld snelheidsveld modelleert met een onmiddellijke snelheidsbeperking om expressieve, deterministische actiegeneratie in één stap te bereiken, wat resulteert in state-of-the-art prestaties en aanzienlijke snelheidswinst in robuuste manipulatietaken.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Het paper introduceert CogitoRAG, een cognitief gestuurd RAG-framework dat hallucinaties vermindert door menselijk episodisch geheugen na te bootsen via gist-gebaseerde kennisgrafiekconstructie, query-decompositie en semantische diffusie, wat leidt tot superieure prestaties op complexe vraag- en antwoordtaken.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Dit paper introduceert CondMedQA, het eerste benchmark voor conditioneel biomedisch vragen beantwoorden, en Condition-Gated Reasoning (CGR), een nieuw raamwerk dat kennisgrafiek-paden selectief activeert of verwijdert op basis van patiëntspecifieke omstandigheden om de betrouwbaarheid van medische redenering te verbeteren.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Dit artikel introduceert een uitgebreid benchmarkkader voor multi-agent reinforcement learning in de CityLearn-omgeving, waarbij wordt vastgesteld dat decentrale training en uitvoering (DTDE) samen met tijdsafhankelijk leren superieure prestaties leveren op diverse duurzaamheids- en robuustheidskpi's voor stedelijke energiesystemen.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Deze paper introduceert MrBERT, een familie van moderne meertalige encodermodellen die door middel van vocabulaire-, domein- en dimensionale aanpassing, inclusief Matryoshka Representation Learning, state-of-the-art prestaties bereikt op Catalaanse en Spaanse taken en gespecialiseerde domeinen zoals biomedische en juridische toepassingen.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Dit paper introduceert ARLArena, een gestructureerd raamwerk voor het analyseren van trainingsstabiliteit in agentic reinforcement learning, en presenteert SAMPO, een nieuwe methode die instabiliteit aanpakt en robuuste prestaties garandeert voor LLM-gebaseerde agenten.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Dit artikel introduceert het concept 'vibe researching' en analyseert hoe AI-agenten met gespecialiseerde vaardigheden, zoals de scholar-skill-plugin, sociale wetenschappers kunnen versterken door repetitieve taken te automatiseren, terwijl ze beperkt blijven in theoretische originaliteit en tacite kennis, wat leidt tot nieuwe professionele uitdagingen en pedagogische crises.

Yongjun Zhang2026-03-10💻 cs