Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
이 논문은 기대값 기반의 안전성 제약을 전체 비용 분포를 비교하는 1 차 확률적 우세 (FSD) 제약으로 대체하고, 최적 수송 프레임워크와 양자 가중치를 통해 보편적 스펙트럼 위험 측도를 통제하는 새로운 정렬 프레임워크인 RAD 를 제안하여 안전 RLHF 의 강건성과 위험 민감성을 향상시킵니다.