Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning
Dit artikel introduceert Group Relative Reward Rescaling (GR³), een methode die lengte-inflatie in versterkingslerende taalmodellen effectief tegengaat zonder prestatie-inlevering door het probleem te herformuleren als een multiplicatief herschalingsschema in plaats van additieve straffen.