원저자: Xiaoyuan Cheng, Wenxuan Yuan, Boyang Li, Yuanchao Xu, Yiming Yang, Hao Liang, Bei Peng, Robert Loftin, Zhuo Sun, Yukun Hu

게시일 2026-05-07

📖 3 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Xiaoyuan Cheng, Wenxuan Yuan, Boyang Li, Yuanchao Xu, Yiming Yang, Hao Liang, Bei Peng, Robert Loftin, Zhuo Sun, Yukun Hu

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

혼잡한 방에서 사람들과 부딪히거나 깨지기 쉬운 꽃병을 넘어뜨리지 않고 로봇이 걷는 법을 가르친다고 상상해 보세요. 이것이 바로 **안전 강화 학습 (Safe Reinforcement Learning, RL)**의 과제입니다. 로봇은 안전 규칙을 엄격히 준수하면서 (즉, '비용' 한도 내에서 유지하면서) A 지점에서 B 지점으로 이동하는 방법 (보상을 극대화하는 방법) 을 배워야 합니다.

오랫동안 로봇은 직선이나 부드러운 곡선과 같은 단순하고 예측 가능한 경로를 통해 학습했습니다. 하지만 실제 생활은 복잡합니다. 때로는 최선의 경로가 직선이 아닐 수 있습니다. 지그재그, 점프, 혹은 회전일 수도 있습니다. 이러한 복잡성을 처리하기 위해 연구자들은 **확산 모델 (Diffusion Models)**을 사용하기 시작했습니다.

확산 모델을 노이즈에서 조각을 만들어내는 과정으로 생각해보세요. 정지 상태의 눈 (무작위 노이즈) 으로 가득 찬 블록으로 시작한다고 상상해 보세요. 일련의 지시사항에 따라 천천히 눈을 조각해 나가면, 완벽한 동상 (로봇의 행동) 이 모습을 드러냅니다. 이를 통해 로봇은 단순한 방법으로는 처리할 수 없는 복잡하고 다양한 형태의 행동을 학습할 수 있습니다.

그러나 큰 문제가 하나 있었습니다: 조각가가 어지러움을 느끼고 있었습니다.

문제: '흔들리는' 에너지 지형

이 논문에서 저자들은 표준 수학 (라그랑주 승수법, "Lagrangian"이라고 함) 을 사용하여 로봇에게 안전 규칙을 가르치려 했을 때, 눈을 조각해 나가는 '지시사항'이 혼란스러워졌다고 설명합니다.

비유: 로봇이 가장 낮은 지점 (최고이자 가장 안전한 행동) 을 찾기 위해 계곡을 내려가려 한다고 상상해 보세요. 표준 안전 규칙은 날카로운 절벽과 깊은 혼란스러운 구멍이 있는 거친 바위산맥처럼 보이는 지형을 만들어냈습니다.
결과: 로봇이 최선의 경로를 찾기 위해 '굴러 내려가려' 할 때, 작고 위험한 주머니에 갇히거나 절벽 사이를 격렬하게 튕겨 오갔습니다. 안전 규칙 뒤에 숨은 수학이 너무 '거칠어서' 로봇이 진동하거나 학습에 실패하거나, 과제를 더 잘 수행하려는 과정에서 실수로 안전 규칙을 위반하게 되었습니다.

해결책: 증강 라그랑주 유도 확산 (Augmented Lagrangian-Guided Diffusion, ALGD)

저자들은 ALGD라는 새로운 방법을 제안합니다. 그들은 로봇의 뇌만 바꾼 것이 아니라, 로봇이 걷고 있던 지형을 매끄럽게 다듬었습니다.

그들은 **증강 라그랑주 (Augmented Lagrangian)**라는 개념을 도입했습니다.

비유: 다시 거친 바위산맥을 상상해 보세요. 증강 라그랑주는 날카로운 바위 위에 두꺼운 매끄러운 콘크리트 층을 부어주는 것과 같습니다. 계곡의 바닥이 어디인지 (최적의 해답) 는 변하지 않지만, 날카롭고 위험한 절벽을 메우고 깊은 혼란스러운 구멍을 채워줍니다.
효과: 이제 로봇이 최선의 행동을 찾기 위해 굴러 내려가려 할 때, 경로는 매끄럽고 예측 가능해집니다. 이상적인 주머니에 갇히거나 격렬하게 튕겨 다니지 않습니다. 안전하고 보상이 높은 행동으로 자연스럽게 흐르게 됩니다.

쉬운 영어로 설명한 작동 원리

조각 과정: 로봇은 무작위 노이즈 (무엇을 해야 할지에 대한 엉성한 아이디어) 로 시작합니다.
가이드: 로봇은 이전의 '거친' 안전 규칙 대신 새로운 '매끄럽게 다듬어진' 규칙 (증강 라그랑주) 을 사용합니다.
결과: 로봇은 안정적이고 꾸준한 방식으로 노이즈를 조각해 나갑니다. 혼란을 겪거나 추락하지 않고 '위험 구역' (높은 비용) 을 피하고 '황금 구역' (높은 보상) 을 찾도록 학습합니다.

왜 이것이 중요한가

이 논문은 이 방법이 이전 시도들보다 두 가지 핵심 측면에서 더 잘 작동함을 보여줍니다:

안정성: 로봇은 미친 듯이 움직이지 않고 학습합니다. 너무 안전하여 (아무것도 하지 못함) 과 너무 위험하여 (추락함) 사이를 진동하지 않습니다.
표현력: 로봇이 단순한 직선 경로를 따르도록 강요받지 않기 때문에, 여전히 안전을 유지하면서 복잡하고 다단계의 움직임 (춤이나 복잡한 기동 등) 을 학습할 수 있습니다.

결론

저자들은 로봇에게 안전을 가르치는 새로운 방법을 개발했습니다. 그들은 자신이 사용하려는 고급 AI 모델에게 안전을 강제하는 데 사용된 수학이 너무 '거칠다'는 사실을 깨달았습니다. 수학을 '매끄럽게 다듬음'으로써 (증강 라그랑주 사용), AI 가 복잡하고 안전한 행동을 신뢰할 수 있게 학습할 수 있도록 했으며, 혼란스럽고 흔들리는 학습 과정을 매끄럽고 꾸준한 여정으로 바꾸었습니다.

간단히 말해: 그들은 거칠고 위험한 길을 포장하여 로봇이 추락하지 않고 빠르고 안전하게 주행할 수 있도록 했습니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 안전 강화 학습을 위한 증강 라그랑주 유도 확산 (ALGD)

1. 문제 제기

강화 학습 (RL) 은 상당한 성과를 거두었지만, 실제 세계 시나리오에 에이전트를 배포하려면 안전 제약 조건을 엄격히 준수해야 합니다. 기존 안전 강화 학습 방법은 일반적으로 두 가지 범주로 나뉘며, 표현력이 풍부한 정책이 적용된 온라인 오프-폴리시 환경에서는 두 가지 모두 한계에 직면합니다.

프라이멀-듀얼 (Primal-Dual) 방법: 라그랑주 승수를 사용하여 기대값 내에서 안전을 강제합니다. 이론적으로는 타당하지만, 실제 적용 시 심각한 학습 불안정성을 겪는 경우가 많습니다. 이러한 불안정성은 비용 추정과 정책 최적화 간의 긴밀한 결합에서 비롯되며, 특히 분포적 변화가 편향을 증폭시키는 오프-폴리시 환경에서 두드러집니다. 표준 라그랑주 함수는 매우 비볼록한 에너지 지형을 만들어 듀얼 변수의 진동과 불안정한 정책 업데이트를 초래합니다. 또한, 이러한 방법들은 일반적으로 복잡한 다중 모드 행동 분포를 표현할 수 있는 표현력이 부족한 단봉형 가우시안 정책에 의존합니다.
하드-제약 (Hard-Constrained) 방법: 제어 장벽 함수 (Control Barrier Functions) 나 해밀턴 - 야코비 도달성 (Hamilton-Jacobi reachability) 등을 통해 상태별 제약 조건 만족을 보장합니다. 그러나 최대 안전 집합의 정확한 근사가 필요하며, 이는 학습하기 어렵습니다. 결과적으로 과도하게 보수적인 경향을 보이며 탐색을 제한하고 달성 가능한 보상을 축소합니다.
확산 기반 RL: 확산 모델은 가우시안 가정을 넘어 다중 모드 분포를 모델링할 수 있는 강력한 정책 표현 대안을 제공합니다. 그러나 기존 확산 기반 접근법은 대부분 오프라인 환경에 국한되어 있습니다. 온라인 환경에 적용할 때, 표준 라그랑주 목적 함수를 통해 안전 제약 조건을 직접 통합하면 에너지 지형이 불규칙하고 비볼록해져 정책 생성에 필요한 탈노이즈 역학을 불안정하게 만듭니다.

이 연구가 해결하는 핵심 과제는 학습 안정성이나 최적성을 훼손하지 않고 온라인 오프-폴리시 RL 을 위한 확산 기반 정책 최적화에 안전 제약 조건을 매끄럽게 통합하는 방법입니다.

2. 방법론: 증강 라그랑주 유도 확산 (ALGD)

저자들은 안전 RL 을 유도 확산 과정으로 재형식화한 증강 라그랑주 유도 확산 (ALGD) 프레임워크를 제안합니다. 이 방법은 세 가지 이론적 및 알고리즘적 기둥 위에 구축됩니다.

2.1. 에너지 함수로서의 라그랑주

저자들은 역시간 확산 과정과 제약 최적화의 라그랑주 형식화 사이의 이론적 연결을 확립합니다. 확산 과정에 대한 최적 스코어 함수는 라그랑주 에너지 함수 $L(s, a, \lambda) = -Q^\pi(s, a) + \lambda(Q^\pi_c(s, a) - h)$ 의 기울기와 일치함을 보여줍니다.

문제점: 이러한 표준 라그랑주를 에너지 함수로 직접 사용하면 불안정성이 발생합니다. 비볼록 Q 함수 추정기와 변동하는 듀얼 변수 ( $\lambda$ ) 로 인해 기울기 $\nabla_a L$ 은 종종 노이즈가 많고 불규칙합니다. 이로 인해 비볼록 에너지 지형이 형성되어 확산 과정이 불안정하거나 고위험 영역에서 샘플링하게 됩니다.

2.2. 국소 볼록화된 에너지 지형

불안정성을 해결하기 위해 ALGD 는 확산 역학을 유도하기 위해 증강 라그랑주 ( $L_A$ ) 를 도입합니다:
$L_A(s, a, \lambda) := -Q^\pi(s, a) + \frac{[\lambda + \rho(Q^\pi_c(s, a) - h)]_+^2 - \lambda^2}{2\rho}$
여기서 $\rho > 0$ 는 2 차 페널티의 크기를 제어합니다.

국소 볼록화: 2 차 페널티 항은 제약 조건 경계 근처의 에너지 지형에 양의 준정부호 곡률 보정 ( $\rho \nabla_a Q^\pi_c \nabla_a Q^\pi_c^\top$ ) 을 추가합니다. 이는 에너지 표면을 부드럽게 하고 스코어 장을 정규화하여 탈노이즈 역학을 안정화합니다.
최적 정책의 불변성: 핵심적으로, 저자들은 $L_A$ 가 조건을 개선하기 위해 국소 에너지 지형을 재형식화하지만 원래 제약 문제의 최적 정책 분포와 최적 목적 함수 값을 보존함을 증명합니다. 최적 듀얼 변수 $\lambda^*$ 에서 증강 라그랑주는 실행 가능한 행동에 대해 표준 라그랑주와 일치합니다.

2.3. 실용적 알고리즘

ALGD 알고리즘은 다음과 같이 작동합니다:

정책 생성: 행동은 가우시안 사전 분포에서 목표 정책 분포로 반복적으로 탈노이즈하는 역시간 확률 미분 방정식 (SDE) 을 통해 샘플링됩니다.
앙상블 비용 크리틱: 비용 - 가치 추정 ( $Q_c$ ) 의 정확도를 높이기 위해 ALGD 는 $M$ 개의 크리틱 앙상블을 사용합니다. 이는 비용 추정 분산을 줄여 듀얼 변수 업데이트의 안정성에 필수적입니다.
몬테카를로 스코어 추정: 증강 라그랑주에서 유도된 정확한 스코어 함수는 계산이 불가능하므로, ALGD 는 가중 몬테카를로 추정기를 사용합니다. 제안 분포에서 후보 행동을 샘플링하고 볼츠만 에너지로 결정된 가중치를 사용하여 $L_A$ 의 기울기 가중 평균을 계산합니다. 이는 스코어 네트워크 학습을 위한 미분 가능한 대역 함수를 제공합니다.
듀얼 업데이트: 라그랑주 승수 $\lambda$ 는 안전 임계값을 강제하기 위해 투영된 경사 상승법을 통해 업데이트됩니다.

3. 주요 기여

새로운 재형식화: 이 논문은 확산 프레임워크 내에서 안전 RL 의 원칙적인 재형식화를 제공하며, 라그랑주 목적 함수를 역확산 과정을 지배하는 에너지 함수로 해석합니다. 표준 라그랑주의 직접 적용이 매우 비볼록한 에너지 지형을 유발하여 불안정한 스코어 장을 초래함을 규명합니다.
이론적 해결: 저자들은 증강 라그랑주 형식화가 최적 정책 분포를 변경하지 않고 국소 에너지 지형을 볼록화함을 이론적으로 증명합니다. 이는 확산 모델에 적용될 때 프라이멀 - 듀얼 방법 내재적 불안정성을 해결합니다.
알고리즘 및 분석: 실용적인 알고리즘 (ALGD) 이 개발되었으며, 학습된 확산 정책과 이상적인 제약 해 사이의 격차를 한정하는 불일치 분석이 수반됩니다. 이 분석은 몬테카를로 추정과 증강 라그랑주 근사로 인해 발생하는 통계적 오차를 정량화합니다.

4. 실험 결과

저자들은 Safety-Gym 벤치마크와 속도 제약 MuJoCo 벤치마크에서 ALGD 를 평가했으며, 프라이멀 - 듀얼 방법 (SAC+Lag, PPO+Lag, CAL) 과 하드 - 제약 방법 (HJ Reachability) 을 포함한 최첨단 베이스라인과 비교했습니다.

학습 안정성: ALGD 는 표준 라그랑주 기반 방법보다 훨씬 안정적인 학습 역학을 보입니다. 베이스라인은 종종 진동하는 듀얼 변수와 변동하는 제약 위반을 보이는 반면, ALGD 는 수렴 시 제로 또는 제로에 가까운 듀얼 변수로 매끄럽게 수렴합니다.
성능: ALGD 는 베이스라인과 경쟁하거나 더 높은 보상을 달성하면서도 일관되게 낮은 제약 위반을 유지합니다. 이는 하드 - 제약 방법에서 보이는 과도하게 보수적인 행동을 피하면서 탐색과 안전 사이의 균형을 성공적으로 조정합니다.
샘플 효율성: 오프-폴리시 방법으로서 ALGD 는 온 - 폴리시 프라이멀 - 듀얼 방법 (예: PPO+Lag) 보다 높은 샘플 효율성을 보여주며, 더 적은 환경 상호작용으로 높은 보상을 달성합니다.
애블레이션 연구: 실험은 몬테카를로 샘플 수와 크리틱 앙상블 크기를 늘리면 성능과 안정성이 향상됨을 확인합니다. 볼록화 강도 $\rho$ 는 결정적으로 중요하며, 중간 값이 안정성과 탐색 사이의 최상의 균형을 제공합니다.

5. 중요성과 주장

이 논문은 ALGD 가 표현력 있는 생성 정책 (확산 모델) 과 안정적인 제약 최적화 간의 간극을 메운다고 주장합니다. 증강 라그랑주 이론에 기반한 확산 정책 샘플링을 통해, 이 방법은 온라인 및 오프-폴리시 환경에서 비용 제약 하에 신뢰할 수 있는 정책 학습을 가능하게 합니다.

저자들은 이 작업을 다중 모드 행동 분포가 필요하지만 안전이 훼손될 수 없는 로봇 공학 및 자율 시스템과 같은 안전-중요 애플리케이션에 RL 을 배포하기 위한 한 걸음으로 위치시킵니다. 그들은 그들의 접근 방식이 정책의 표현력이나 해의 최적성을 희생하지 않으면서 안전성과 안정성을 개선한다고 강조합니다. 이 작업은 결합된 역학에 대한 공식적인 샘플 복잡도 한계가 제공되지 않으며 현재 평가가 시뮬레이션 환경으로 제한되어 있음을 인정하며 한계를 명시합니다.

How Does the Lagrangian Guide Safe Reinforcement Learning through Diffusion Models?