Real-Time Aligned Reward Model beyond Semantics

Dit paper introduceert R2M, een nieuw lichtgewicht RLHF-framework dat reward-overoptimalisatie aanpakt door real-time gebruik te maken van de evoluerende verborgen toestanden van het beleidsmodel in plaats van uitsluitend te vertrouwen op oppervlakkige semantische informatie.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Deze studie toont aan dat het gebruik van LLM-gebaseerde nieuwsgevoelensanalyse, met name met het DeBERTa-model of een ensemble van drie modellen, de nauwkeurigheid van de voorspelling van aandelenkoersbewegingen significant kan verbeteren.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Deze studie concludeert dat de Schwartz-hoogwaardige waardenstructuur bij het detecteren van menselijke waarden op zinneniveau vooral nuttig is als inductieve bias en dat de grootste prestatiewinsten worden behaald via kalibratie en ensemble-methoden, terwijl harde hiërarchische poortmodellen en compacte LLM's als standalone-systemen minder effectief blijken.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Semantic Search over 9 Million Mathematical Theorems

De auteurs introduceren een schaalbaar semantisch zoeksysteem voor wiskundige stellingen dat op een corpus van 9,2 miljoen stellingen is getraind en door middel van geoptimaliseerde representaties en zoekstrategieën een aanzienlijke verbetering biedt ten opzichte van bestaande methoden voor het vinden van specifieke wiskundige resultaten.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Deze paper introduceert een principieel raamwerk voor conditionele diffusiemodellen onder harde constraints, gebaseerd op Doob's h-transformatie en martingaaltheorie, dat twee nieuwe off-policy leeralgoritmes biedt om de driftcorrectie te schatten zonder het vooraf getrainde score-netwerk aan te passen, terwijl niet-asymptotische garanties worden geleverd voor de kwaliteit van de gegenereerde steekproeven.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Dit paper introduceert CoCoA, een trainingsvrije decoderingsalgoritme dat hallucinaties in grote taalmodellen vermindert door de inconsistentie van representaties tussen de interne lagen te detecteren en te straffen, waardoor de feitelijke juistheid van de output zonder hertraining wordt verbeterd.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math