Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Die Studie zeigt, dass die Struktur der Schwartz-Höherwert-Kategorien als induktive Verzerrung nützlich ist, jedoch die Kalibrierung und Ensemble-Methoden im Vergleich zu starren hierarchischen Gating-Mechanismen oder eigenständigen kompakten LLMs die entscheidenden Verbesserungen bei der Erkennung menschlicher Werte auf Satzebene liefern.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Die Arbeit stellt T2T (Thickening-to-Thinning) vor, ein dynamisches Belohnungsframework für das Reinforcement Learning von Large Language Models, das menschliche Lernprozesse nachahmt, indem es bei fehlerhaften Versuchen längere Suchpfade fördert und bei korrekten Lösungen Redundanzen bestraft, um so die mathematische Reasoning-Leistung signifikant zu steigern.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Semantic Search over 9 Million Mathematical Theorems

Diese Arbeit stellt ein skalierbares semantisches Suchsystem für über 9 Millionen mathematische Theoreme vor, das durch die Verwendung natürlicher Sprachbeschreibungen und optimierter Embeddings die präzise Wiederauffindung spezifischer Sätze in großen Forschungsdatenbeständen im Vergleich zu herkömmlichen Methoden deutlich verbessert.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

Accelerating Robotic Reinforcement Learning with Agent Guidance

Die Arbeit stellt AGPS vor, ein Framework, das die skalierbare robotische Reinforcement-Learning-Training durch den Ersatz menschlicher Betreuer durch einen multimodalen Agenten beschleunigt, der als semantisches Weltmodell fungiert und die Exploration durch präzise Korrekturen und räumliche Einschränkungen effizient steuert.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Die Arbeit M2RL analysiert und vergleicht die Trainingsparadigmen des gemischten Multi-Task-Reinforcement-Learning mit Verifizierbaren Belohnungen (RLVR) und des separaten Trainings mit nachfolgendem Modell-Merging für Large Language Models, wobei sie feststellt, dass domainspezifisches RLVR sich gegenseitig kaum beeinträchtigt und in rechenintensiven Bereichen synergistische Effekte zeigt.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Die Studie „SkillsBench" stellt ein Benchmark-System vor, das zeigt, dass kuratierte Agenten-Skills die Erfolgsrate von LLM-Agenten in 86 Aufgaben über 11 Domänen im Durchschnitt um 16,2 Prozentpunkte steigern, wobei selbstgenerierte Skills jedoch keinen Vorteil bieten und der Nutzen stark domänenspezifisch variiert.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Die Studie zeigt, dass ein leichtgewichtiger, automatisierter KI-Pipeline, der fortschrittliche Sprachmodelle mit zitationsbasierten Verifikationsmethoden kombiniert, in der Lage ist, komplexe mathematische Forschungsprobleme zu lösen und deren Lösungen erfolgreich zu verifizieren.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Die Arbeit stellt die Mean Velocity Policy (MVP) vor, eine neue generative Politik, die durch die Modellierung eines mittleren Geschwindigkeitsfeldes unter einer instantanen Geschwindigkeitsbeschränkung (IVC) sowohl eine hochexpressive als auch extrem schnelle Ein-Schritt-Aktionsgenerierung in der robotischen Manipulation ermöglicht.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG