Accelerating Robotic Reinforcement Learning with Agent Guidance

Die Arbeit stellt AGPS vor, ein Framework, das die skalierbare robotische Reinforcement-Learning-Training durch den Ersatz menschlicher Betreuer durch einen multimodalen Agenten beschleunigt, der als semantisches Weltmodell fungiert und die Exploration durch präzise Korrekturen und räumliche Einschränkungen effizient steuert.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Die Arbeit M2RL analysiert und vergleicht die Trainingsparadigmen des gemischten Multi-Task-Reinforcement-Learning mit Verifizierbaren Belohnungen (RLVR) und des separaten Trainings mit nachfolgendem Modell-Merging für Large Language Models, wobei sie feststellt, dass domainspezifisches RLVR sich gegenseitig kaum beeinträchtigt und in rechenintensiven Bereichen synergistische Effekte zeigt.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Die Studie „SkillsBench" stellt ein Benchmark-System vor, das zeigt, dass kuratierte Agenten-Skills die Erfolgsrate von LLM-Agenten in 86 Aufgaben über 11 Domänen im Durchschnitt um 16,2 Prozentpunkte steigern, wobei selbstgenerierte Skills jedoch keinen Vorteil bieten und der Nutzen stark domänenspezifisch variiert.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Die Studie zeigt, dass ein leichtgewichtiger, automatisierter KI-Pipeline, der fortschrittliche Sprachmodelle mit zitationsbasierten Verifikationsmethoden kombiniert, in der Lage ist, komplexe mathematische Forschungsprobleme zu lösen und deren Lösungen erfolgreich zu verifizieren.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Die Arbeit stellt die Mean Velocity Policy (MVP) vor, eine neue generative Politik, die durch die Modellierung eines mittleren Geschwindigkeitsfeldes unter einer instantanen Geschwindigkeitsbeschränkung (IVC) sowohl eine hochexpressive als auch extrem schnelle Ein-Schritt-Aktionsgenerierung in der robotischen Manipulation ermöglicht.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Das Paper stellt CogitoRAG vor, ein RAG-Framework, das menschliche kognitive Gedächtnisprozesse nachahmt, indem es semantische Gist-Extraktion, einen multidimensionalen Wissensgraphen und einen Diffusionsmechanismus nutzt, um bei komplexen Fragen die semantische Integrität zu bewahren und die Leistung gegenüber bestehenden Methoden signifikant zu steigern.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Die Autoren stellen mit CondMedQA den ersten Benchmark für kontextabhängige biomedizinische Fragen vor und entwickeln das Condition-Gated Reasoning (CGR)-Framework, das durch bedingungsbasierte Pfadsteuerung in Wissensgraphen zuverlässigere medizinische Schlussfolgerungen ermöglicht.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Diese Arbeit stellt einen umfassenden Multi-KPI-Benchmark für Multi-Agenten-Reinforcement-Learning-Algorithmen im CityLearn-Umfeld vor und zeigt, dass dezentralisiertes Training mit dezentraler Ausführung (DTDE) zentrale Ansätze in Bezug auf Leistung und Robustheit übertrifft.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Die Autoren stellen MrBERT vor, eine Familie effizienter multilingualer Encoder auf ModernBERT-Basis, die durch gezielte Anpassung an 35 Sprachen sowie spezialisierte Domänen und die Integration von Matryoshka-Repräsentationslernen sowohl state-of-the-art-Leistung als auch kosteneffiziente Inferenz ermöglicht.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Die Arbeit stellt ARLArena vor, ein einheitliches Framework zur Analyse und Stabilisierung des agentic Reinforcement Learning, das auf Basis einer detaillierten Untersuchung der Trainingsinstabilität die neue Methode SAMPO entwickelt, um zuverlässiges und leistungsfähiges Training von LLM-basierten Agenten zu ermöglichen.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine ist ein auf einem einstufigen Diffusionsmodell basierendes Deep-Learning-Framework, das die automatische und schnelle Verfeinerung von Protein- sowie DNA/RNA-Protein-Komplexen mittels Cryo-EM-Dichtekarten ermöglicht und dabei sowohl die Übereinstimmung mit den experimentellen Daten als auch die geometrische Qualität gegenüber herkömmlichen Methoden wie Phenix.real_space_refine signifikant verbessert.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs