What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects
이 논문은 비준수 (noncompliance) 가 있는 밴딧 문제에서 추천과 실제 치료 간 불일치를 해결하기 위해 BRACE 알고리즘을 제안하며, 이는 다양한 학습 목표 (추천 복지 대 치료 학습) 를 동시에 고려하고 약한 식별성 하에서도 안전하고 유효한 불확실성 추정을 가능하게 합니다.