Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
Deze paper introduceert RAD, een nieuw framework voor veilig Reinforcement Learning from Human Feedback dat in plaats van gemiddelde kosten First-Order Stochastic Dominance-constraints toepast via Optimal Transport om zeldzame catastrofale risico's te beheersen en de robuustheid van het model te verbeteren.