Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
Deze empirische studie toont aan dat LLM-afstemming op morele redenering geen diversiteitsbevorderende algoritmen vereist, omdat standaard RLVR-methode voor beloningsmaximalisatie even effectief zijn dankzij de geconcentreerde aard van hoogwaardige morele antwoorden.