원저자: Aishwarya Mandyam, Jason Meng, Ge Gao, Jiankai Sun, Mac Schwager, Barbara E. Engelhardt, Emma Brunskill

게시일 2026-06-15

📖 4 분 읽기☕ 가벼운 읽기

원저자: Aishwarya Mandyam, Jason Meng, Ge Gao, Jiankai Sun, Mac Schwager, Barbara E. Engelhardt, Emma Brunskill

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 새로운 치료 계획을 결정하려는 의사라고 상상해 보십시오. 당신에게는 과거의 환자 기록(행동 데이터)이 담긴 방대한 노트가 있습니다. 이 노트에는 의사들이 기존 치료법을 사용했을 때 어떤 결과가 나타났는지가 기록되어 있습니다. 이제 당신은 다음과 같은 질문을 던지고 싶습니다: "만약 우리가 이 새로운 치료법으로 바꾼다면, 얼마나 효과적일까?"

이것을 **오프-폴리시 평가(Off-Policy Evaluation, OPE)**라고 부릅니다. 이는 마치 우리가 만들고자 하는 미래와는 다른 과거를 바탕으로 미래를 예측하려는 것과 같습니다.

문제는 당신의 노트에 몇몇 시나리오가 빠져 있을 수 있다는 점입니다. 예를 들어, 과거의 의사들이 특정 희귀 증상을 가진 환자를 치료한 경우가 거의 없었다면, 새로운 치료법이 그들에게 어떻게 작용할지 예측할 충분한 데이터가 없을 수 있습니다.

이를 해결하기 위해 연구자들은 빈 공간을 채우기 위해 가짜(합성) 환자 기록을 생성하는 **AI "생성기(Generator)"**를 사용하기 시작했습니다. 이는 마치 시뮬레이터를 사용하여 수천 개의 추가 테스트 케이스를 실행하는 것과 같습니다. 하지만 여기에는 함정이 있습니다. 가짜 데이터는 편향될 수 있습니다. 만약 시뮬레이터가 실수를 한다면, 당신의 예측은 위험할 정도로 틀릴 수 있습니다. 의료와 같이 이해관계가 걸린 고위험 분야에서는 단순히 추측해서는 안 됩니다. 당신은 자신의 답에 대해 얼마나 확신하는지 알아야 합니다.

이 논문인 PERRY는 가짜 데이터를 활용하면서도 **신뢰 구간(Confidence Interval)**이라는 형태의 신뢰할 수 있는 "안전망"을 제공하는 두 가지 새로운 방법을 소개합니다. 신뢰 구간을 단 하나의 숫자가 아니라 하나의 범위(예: "새로운 치료법은 아마도 80%에서 90% 사이의 환자를 살릴 것이다")로 생각하십시오. 만약 범위가 너무 넓으면 쓸모가 없고, 너무 좁은데 틀린다면 위험합니다. PERRY는 이 범위가 정확하면서도 믿을 수 있도록 만드는 것을 목표로 합니다.

이들이 발명한 두 가지 방법은 비유를 통해 다음과 같이 설명할 수 있습니다.

1. CP-Gen: "특정 환자" 탐정

목표: 때때로 당신은 평균적인 환자가 아니라 특정한 유형의 환자(예: "고혈압이 있는 65세 노인에게 이 새로운 약이 어떻게 작용할까?")에게 관심이 있습니다.

문제: 이 특정 유형의 사람에 대한 실제 기록은 매우 적을 수 있습니다. AI 생성기는 수천 개의 유사한 가짜 기록을 만들어낼 수 있지만, 이 기록들은 약간 "어긋나" 있을 수 있습니다.

해결책 (CP-вGen):
실제 환자 기록(실제 궤적)과 동일한 증상으로 시작하는 AI 생성 가짜 기록(합성 궤적)이 있다고 상상해 보십시오.

기술: CP-Gen은 가짜 기록의 최종 점수를 그대로 믿는 대신, 실제 기록과 가짜 기록 사이의 차이를 살펴봅니다.
비유: 이것은 **교정 저울(Calibration Scale)**과 같습니다. 한쪽에는 알려진 무게(실제 데이터)를 두고, 다른 한쪽에는 "시뮬레이션된" 무게(가짜 데이터)를 둡니다. 그리고 그 둘 사이의 간격을 측정합니다.
마법: 이 논문은 **컨포멀 예측(Conformal Prediction)**이라는 기술을 사용합니다. 이것은 마치 스마트한 자(Ruler)와 같아서, "과거에 가짜 데이터가 실제 데이터와 보통 얼마나 차이가 났는지를 바탕으로, 우리는 95%의 확신으로 실제 답이 이 특정 간격 안에 있다고 말할 수 있다"라고 알려줍니다.
결과: 상태 공간(가능한 환자 조건의 수)이 거대하고 연속적이더라도, 해당 특정 환자 유형에 대한 신뢰 구간을 제공합니다.

2. DR-PPI: "인구 집단" 감사관

목표: 때때로 당신은 단지 모든 사람에 대한 새로운 정책의 평균적인 성능을 알고 싶을 뿐입니다(예: "이 새로운 약이 병원 전체 인구에게 얼마나 잘 작용할까?").

문제: 가짜 데이터를 단순히 평균 내기만 하면, AI 생성기가 완벽하지 않기 때문에 편향된 결과가 나올 수 있습니다.

해결책 (DR-PPI):
이 방법은 두 가지 강력한 아이디어인 **이중 강건 추정(Doubly Robust Estimation)**과 **예측 기반 추론(Prediction-Powered Inference)**을 결사합니다.

비유: 당신에게 **감사팀(Team of Auditors)**이 있다고 상상해 보십시오.
1. 감사관 A (모델): AI 생성기를 사용하여 전체 인구에 대한 결과를 예측합니다. 이는 빠르고 모든 사람을 포괄하지만, 약간 틀릴 수 있습니다.
2. 감사관 B (교정): 소량의 실제 데이터를 가져와서 감사관 A가 예측한 것과 실제로 일어난 일 사이의 차이를 확인합니다.
마법: DR-PPI는 감사관 A의 큰 예측값에 감사관 B의 "교정 계수"를 더합니다.
- 만약 AI 모델이 완벽하다면, 교정값은 0이 되며 훌륭한 추정치를 얻게 됩니다.
- 만약 AI 모델이 형편없다면, 실제 데이터로부터 얻은 교정값이 이를 바로잡습니다.
- 결정적으로, 이 방법은 **이중 강건(Doubly Robust)**합니다. 즉, 두 감사관 중 한 명이 실수를 하더라도 다른 한 명이 옳다면 제대로 작동한다는 의미입니다.
결과: 합성 데이터를 사용하더라도 유효한, 전체 인구에 대한 신뢰 구간을 만들어냅니다.

무엇을 발견했는가?

저자들은 네 가지 다른 "세계"에서 이 방법들을 테스트했습니다:

재고 관리 (Inventory Control): 창고의 재고 관리.
패혈증 치료 (Sepsis Treatment): 패혈증 치료 시뮬레이션.
로보틱스 (Robotics): 가상의 치타가 빠르게 달리도록 하기.
실제 의료 데이터 (MIMIC-IV): 칼륨 투여를 받는 환자들의 실제 전자 건강 기록.

결론:

가짜 데이터를 사용하려고 했던 기존 방식들은 신뢰 구간이 너무 넓거나(쓸모없음), 진실을 포함하지 못하는(위험함) 결과를 낳았습니다.
PERRY의 방법들은 가짜 데이터를 성공적으로 사용하여 신뢰 구간을 더 좁게(정밀하게) 만드는 동시에, 여전히 진실을 포함하도록(안전하게) 만들었습니다.
이들은 데이터가 지저지고 "가짜" 데이터가 완벽하지 않더라도 이 방법들이 작동한다는 것을 수학적으로 증명했습니다.

요약

PERRY는 연구자들이 새로운 정책이 어떻게 작동할지 예측하기 위해 AI가 생성한 가짜 데이터를 안전하게 사용할 수 있게 해주는 도구 모음입니다. 이는 고위험 결정 상황에서 우리가 "실제 세계에서의 수년간의 시행착오를 기다릴 필요 없이, 새로운 정책이 이 범위 내에서 수행될 것이라고 확신한다"라고 말할 수 있도록 보장된 안전 마진(신뢰 구간)을 제공합니다.

기술 요약: PERRY – 보조 데이터를 활용한 신뢰 구간 기반 정책 평가

문제 정의

오프-폴리시 평가(Off-policy evaluation, OPE)는 새로운 강화 학습(RL) 정책을 실제 배포하기 전, 그 가치를 추정하는 데 있어 매우 중요하며, 특히 직접적인 실험이 위험한 의료와 같은 고위험 도메인에서는 필수적입니다. 표준 OPE 방법들은 데이터 커버리지가 제한적인 경우, 타겟 정책이 행동 정책(behavior policy)과 크게 다를 때 어려움을 겪는 경우가 많습니다. 최근의 연구들은 생성 모델로 생성된 합성 궤적(synthetic trajectories)과 같은 보조 데이터셋을 활용하면 OPE 정확도를 높일 수 있다는 점을 시사합니다. 그러나 이러한 보조 데이터셋은 편향(bias)을 유발할 수 있으며, 데이터 증강을 사용하는 기존의 OPE 방식들은 원칙적인 불확실성 정량화(uncertainty quantification)가 부족합니다. 고위험 환경에서는 신뢰할 수 있는 신뢰 구간(confidence intervals, CI)을 확보하는 것이 필수적입니다. 현재까지 오프라인(실제) 데이터와 합성 궤적을 결합한 OPE 설정에서 신뢰 구간에 대한 공식적인 보증을 제공하는 방법론은 존재하지 않습니다.

방법론

본 논문은 실 데이터와 합성 데이터를 모두 활용하여 MDP(Markov Decision Processes)에서의 OPE를 위한 유효한 신뢰 구간을 구축하는 두 가지 방법인 CP-Gen과 DR-PPI를 제안합니다.

1. CP-Gen: 상태 조건부 가치에 대한 컨포멀 예측(Conformal Prediction)

CP-Gen은 특정 초기 상태에 대한 정책 가치 $V^\pi(s)$ 를 추정하는 과제를 다룹니다. 이는 동일한 질병 단계에 있는 환자들처럼 동일한 상태에서 시작하는 개인들을 위해 정책을 선택해야 하는 시나리오에서 매우 중요합니다.

핵심 개념: 이 방법은 정책 가치를 시뮬레이터 추정치(합성 궤적 사용)와 "모델 편향(model bias)" 항(실제 궤적과 동일한 상태에서 시작하는 대응되는 합성 궤적 간의 차이)으로 분해합니다.
메커니즘: MDP의 연속적인 상태 공간을 위해 설계된 새로운 컨포멀 예측 프레임워크를 채택합니다.
- 동일한 상태에서 시작하는 실제 궤적과 그에 대응하는 합성 궤적 사이의 **리턴 차이(return difference)**에 대한 예측 구간을 구축합니다.
- 행동 정책( $\pi_b$ )과 타겟 정책( $\pi_e$ ) 사이의 분포 변화(distribution shift) 및 상태 공간의 연속성을 처리하기 위해, 저자들은 $\epsilon$ -근사( $\epsilon$ -approximation) 기법을 도입합니다. 이는 중요도 가중치(importance weights)를 정확한 지점이 아닌 국소적 근방(상태 주변의 반지름 $\epsilon_s$ 인 구(ball)와 리턴 차이 주변의 반지름 $\epsilon_r$ 인 구)을 기준으로 조건화하여 근사함으로써 가중치 추정을 실행 가능하게 만듭니다.
- $V^\pi(s)$ 에 대한 최종 신뢰 구간은 합성 추정치에 리턴 불일치(return discrepancy)의 컨포멀 밴드를 더하여 형성됩니다.

2. DR-PPI: 무조건부 가치를 위한 이중 강건 추정(Doubly Robust Estimation)

DR-PPI는 초기 상태의 분포에 따른 평균 정책 성능인 $V^\pi = \mathbb{E}_{s_0}[V^\pi(s_0)]$ 를 추정하는 더 일반적인 과제를 목표로 합니다.

핵심 개념: 이 방법은 이중 강건(Doubly Robust, DR) 추정과 **예측 기반 추론(Prediction-Powered Inference, PPI)**에서 영감을 얻었습니다.
메커니즘:
- 행동 데이터셋을 교차 적합(cross-fitting)을 위해 두 부분( $D_1, D_2$ )으로 나눕니다.
- 생성 모델을 한쪽 분할 데이터로 학습시켜 타겟 정책 하에서의 합성 궤적(rollouts)을 생성합니다.
- 이 추정치는 모델 기반 항(합성 궤적의 리턴 평균)과 실제 데이터로부터 유도된 보정 항을 결합합니다. 보정 항은 생성 모델에 의해 도입된 편향을 조정하기 위해 실제 궤적에 대한 중요도 샘플링(IS)을 사용합니다.
- 구체적으로, 각 실제 궤적에 대해 동일한 초기 상태로부터 여러 개의 합성 궤적을 생성하여 기대 합성 리턴을 추정하고, 이를 재가중된 실제 리턴에서 차감합니다.
- 최종 추정치는 두 교차 적합 추정치의 평균이며, 분산을 계산하여 점근적(asymptotic) 신뢰 구간을 구성합니다.

주요 기여

정형화: 저자들은 합성 궤적을 활용하는 MDP에서의 불확실성 정량화를 위한 문제를 정형화했습니다.
새로운 알고리즘: 상태 조건부 및 무조건부 정책 가치 추정을 위해 각각 설계된 CP-Gen과 DR-PPI라는 두 가지 방법을 도입했습니다.
이론적 보증:
- CP-Gen: 연속 상태 공간에서도 점근적으로 유효하거나 유한 샘플 내에서 작은 오차 범위 내에서 커버리지 보증이 유지되는 유효한 컨포멀 예측 구간을 생성함을 입증했습니다. 오차 범위는 근사 반지름( $\epsilon_s, \epsilon_r$ )의 함수로서 명시적으로 경계가 정해집니다.
- DR-PPI: 생성 모델이 잘못 지정(misspecified)되더라도, 중요도 샘플링 보정이 일관적(consistent)이라면 점근적으로 유효한 신뢰 구간을 제공함을 입증했습니다.
실험적 검증: 네 가지 도메인(재고 관리, 패혈증 치료, 로봇 제어, MIMIC-IV EHR 데이터)에 걸친 광범위한 실험을 통해, 이 방법들이 실제 데이터만을 사용하는 베이스라인보다 종종 더 좁은 구간을 가지면서도 실제 값을 포함하는 신뢰 구간을 생성하여 보조 데이터를 효과적으로 활용함을 보여주었습니다.

실험 결과

저자들은 IS(Importance Sampling), DM(Direct Method), DR(Doubly Robust) 및 그 증강 변형들(AugIS, AugDR), 그리고 이전 연구(Foffano et al., 2023)의 컨포멀 베이스라인을 포함한 여러 베이스라인과 비교 평가했습니다.

커버리지(Coverage): CP-Gen과 DR-PPI 모두 모든 테스트 도메인에서 실제 정책 가치를 포함하는 신뢰 구간을 일관되게 생성했습니다.
구간 너비(Interval Width): 연속 상태 공간(Inventory, D4RL HalfCheetah, MIMIC-IV)을 가진 많은 설정에서, 제안된 방법들은 베이스라인보다 현저히 좁은 구간을 생성했습니다. 예를 들어, Inventory 도메인에서 CP-Gen은 Foffano et al.의 베이스라인이 8550.00의 길이를 가질 때 5531.60의 구간 길이를 생성하면서도 실제 값을 커버했습니다.
강건성(Robustness): 이 방법들은 행동 정책의 중간 정도의 오설정(misspecification)과 합성 궤적의 품질(노이즈) 변화에 대해 강건한 것으로 나타났습니다.
베이스라인 실패 사례: 원칙적인 불확실성 보정 없이 단순히 데이터를 증강한 베이스라인(예: AugIS, AugDR)은 편향된 구간을 생성하여 실제 값을 커버하지 못하거나, Q-러닝의 분산 문제로 인해 지수적으로 큰 구간을 생성하는 경우가 많았습니다.

의의 및 주장

본 논문은 실제 궤적과 합성 궤적을 모두 사용하는 영역에서 **불확실성을 인지하는 OPE(uncertainty-aware OPE)**를 가능하게 하는 중요한 진전이라고 주장합니다. 저자들은 안전한 RL 정책 배포를 위해 엄격한 불확실성 추정이 필요한 고위험 도메인에서 본 연구가 기초가 될 것임을 강조합니다.

격차 해소: 이 연구는 데이터 증강을 사용하는 기존 OPE 방법들이 추정 품질에 대한 공식적인 보증이 부족하다는 비판적 공백을 해결합니다.
확장성: $\epsilon$ -근사를 도입함으로써, CP-Gen은 이전의 컨포멀 OPE 방법들이 어려움을 겪었던 연속적이고 고차원적인 상태 공간을 가진 MDP로 컨포멀 예측을 확장했습니다.
실용적 유용성: 실험 결과는 이러한 특정 불확실성 정량화 기술과 결합될 때, 합성 데이터를 활용하는 것이 유효성을 희생하지 않으면서도 OPE 추정의 정밀도를 높일 수 있음을 시사합니다.

저자들은 한계점에 대해 겸허한 태도를 유지하며, 하이퍼파라미터( $\epsilon_s, \epsilon_r$ )의 선택이 고차원 설정에서 점점 더 중요해진다는 점과 확산 모델(diffusion models)과 같은 대안적 생성 모델을 탐구하는 향후 연구가 필요함을 언급했습니다. 또한 CP-Gen의 이론적 보증이 이러한 파라미터에 의존하는 작은 오차 범위를 포함하고 있다는 점도 인정했습니다.

PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data