Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
O artigo propõe o RAD, um novo framework de alinhamento em Aprendizado por Reforço com Feedback Humano (RLHF) que substitui restrições de custo esperado por restrições de Dominância Estocástica de Primeira Ordem dentro de um quadro de Transporte Ótimo, permitindo o controle universal de riscos espectrais e oferecendo maior robustez contra falhas catastróficas e distribuições fora do padrão.