Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

Dit artikel introduceert Group Relative Reward Rescaling (GR³), een methode die lengte-inflatie in versterkingslerende taalmodellen effectief tegengaat zonder prestatie-inlevering door het probleem te herformuleren als een multiplicatief herschalingsschema in plaats van additieve straffen.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Deze empirische studie toont aan dat LLM-afstemming op morele redenering geen diversiteitsbevorderende algoritmen vereist, omdat standaard RLVR-methode voor beloningsmaximalisatie even effectief zijn dankzij de geconcentreerde aard van hoogwaardige morele antwoorden.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Dit paper introduceert het 'Gradient Flow Drifting'-framework, dat wiskundig aantoont dat het recente Drifting-model equivalent is aan een Wasserstijn-gradiëntstroom voor de forward KL-divergentie onder KDE-approximatie, en biedt een theoretisch onderbouwde strategie voor het combineren van divergenties om zowel modusinstorting als modusvervaging te voorkomen.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

Dit artikel presenteert een data-gedreven framework dat Singular Value Decomposition combineert met SHRED-neurale netwerken om de volledige magnetohydrodynamische toestand van fusie-relevante systemen nauwkeurig en efficiënt te reconstrueren op basis van slechts drie temperatuursensoren, zelfs voor niet-getrainde magnetische veldintensiteiten.

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG