LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Each language version is independently generated for its own context, not a direct translation.

🚗 1. 문제 상황: "안전한 운전사"를 키우기 위한 딜레마

상상해 보세요. 우리는 자율주행차를 가르치고 싶습니다.

목표 1 (성공): 빨리 가고, 승객을 편안하게 태우고, 연비를 아껴야 합니다. (보상/성능)
목표 2 (안전): 절대 다른 차에 부딪히지 않아야 하고, 신호를 위반하면 안 됩니다. (안전)

기존의 인공지능 학습 방식은 이 두 가지 목표를 한 번에 동시에 해결하려고 했습니다. 마치 "빨리 가되, 부딪히지 마"라고 외치면서 운전수를 훈련시키는 것과 같습니다. 하지만 문제는, 인공지능이 "빨리 가는 것"에 너무 집중하다가 "부딪히는 것"을 간과할 수 있다는 점입니다. 특히, 실제 도로에서 실수하며 배우는 것은 너무 위험하므로, **미리 찍어둔 영상 데이터 (오프라인 데이터)**만으로 배우게 해야 합니다.

하지만 이 데이터에는 안전하지 않은 운전 기록도 섞여 있을 수 있고, 인공지능이 엉뚱한 행동을 할 경우를 막아주는 명확한 안전 장치가 부족했습니다.

🏆 2. LexiSafe 의 해결책: "순위 (Lexicographic)"를 정하자!

이 논문은 **"순서"**를 정하는 것이 답이라고 말합니다.
우리가 일상에서 의사결정을 할 때, 우선순위를 매기는 것처럼요.

"먼저 '생존'을 보장하고, 그 다음에 '성공'을 추구하자."

이걸 레키고그래픽 (Lexicographic) 방식이라고 합니다.

1 순위: 안전 (부딪히지 않기, 신호 지키기)
2 순위: 성능 (빠르게 가기, 편안하게 가기)

비유: "엄격한 면접관"
기존 방식은 "합격 점수 (성능) 가 높으면 안전 점수가 조금 낮아도 괜찮아"라고 생각했습니다. 하지만 LexiSafe 는 **"안전 점수가 100 점이어야만, 그다음에 면접 점수를 본다"**는 식으로 접근합니다. 안전 기준을 통과하지 못하면 아무리 똑똑해도 탈락입니다.

🎓 3. 어떻게 작동할까? (두 단계 훈련법)

LexiSafe 는 인공지능을 두 단계로 나누어 가르칩니다.

1 단계: "안전 수칙"을 먼저 외우기 (Safety First)

상황: 인공지능은 미리 찍어둔 운전 데이터만 보고 배웁니다.
작업: 이 단계에서는 "어떻게 하면 가장 안전하게 운전할까?"에만 집중합니다.
결과: 인공지능은 사고가 나지 않는 안전한 운전 패턴을 먼저 체득합니다. 이때는 속도가 느려도 상관없습니다. 중요한 건 안전한 행동의 기준선을 만드는 것입니다.

2 단계: "실력"을 다듬기 (Performance Boost)

상황: 이제 안전 수칙을 완벽하게 지키는 상태가 된 인공지능에게 "더 잘해봐"라고 말합니다.
작업: 1 단계에서 배운 안전한 행동의 틀을 유지하면서, 속도를 높이거나 연비를 아끼는 방향으로 조금씩 수정합니다.
핵심: 이때도 "안전 수칙"을 깨는 방향으로만은 절대 수정되지 않습니다. 마치 안전벨트를 맨 상태에서만 스포츠카를 운전하는 것과 같습니다.

📊 4. 왜 이 방법이 더 좋은가요? (실험 결과)

저자들은 이 방법을 자율주행 시뮬레이션과 로봇 팔 테스트에 적용해 보았습니다.

기존 방법들: 안전을 지키려고 너무 보수적으로 움직여 일을 못 하거나, 반대로 일을 잘 하려고 안전 장치를 무시하고 사고를 냈습니다.
LexiSafe:
- 안전: 거의 100% 안전 기준을 지켰습니다. (사고율 극도로 낮음)
- 성능: 안전을 지키면서도 다른 방법들보다 일을 더 잘했습니다.
- 장점: 복잡한 수식을 조정할 필요 없이, "안전 -> 성능" 순서로 가르치기만 하면 자동으로 최적의 결과를 냈습니다.

💡 5. 핵심 요약: "안전은 선택이 아니라 필수"

이 논문의 가장 큰 메시지는 **"안전과 성능은 저울질 (Trade-off) 하는 것이 아니라, 순서를 정해서 해결해야 한다"**는 것입니다.

기존: "안전 50 점 + 성능 50 점 = 100 점" (안전이 부족해도 점수가 나올 수 있음)
LexiSafe: "안전 100 점 (필수) + 성능 100 점 (추가) = 완벽한 운전사"

이 방법은 로봇이나 자율주행차처럼 실제 물리적 손상이 발생할 수 있는 위험한 분야에서 인공지능을 안전하게 배포하는 데 큰 도움을 줄 것으로 기대됩니다. 마치 운전면허 시험에서 "안전 운전"을 통과하지 못하면 아무리 빨리 달리는 법을 가르쳐도 면허를 주지 않는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 사이버 - 물리 시스템 (CPS, 예: 자율 주행, 스마트 그리드, 로봇 공학) 에서는 학습 중 안전 위반이 치명적인 결과를 초래할 수 있으므로, 사전에 수집된 데이터 (Offline Data) 만을 활용하여 학습하는 **오프라인 안전 강화 학습 (Offline Safe RL)**이 필수적입니다.
기존 방법의 한계:
- 기존 오프라인 안전 RL 방법들은 보상과 안전성 간의 균형을 맞추기 위해 제약 조건 완화 (Constraint Relaxation) 나 공동 최적화 (Joint Optimization) 를 사용합니다.
- 그러나 이러한 방법들은 **안전성 드리프트 (Safety Drift)**를 방지할 구조적 메커니즘이 부족합니다.
- 특히, 실제 CPS 환경에서는 안전 요구사항이 단일 비용이 아닌 **계층적 (Hierarchical)**인 경우가 많습니다 (예: 충돌 방지 > 교통 법규 준수 > 연비 최적화). 기존 방법들은 이러한 계층적 우선순위를 명확히 반영하지 못해, 성능을 위해 안전 계층을 위반하는 경우가 발생합니다.
핵심 질문: 오프라인 강화 학습에서 사이버 - 물리 시스템을 위해 계층적 안전 보장을 유지하면서도 근사 최적의 작업 성능을 달성할 수 있는 방법은 무엇인가?

2. 제안 방법: LexiSafe (Methodology)

저자들은 사전적 (Lexicographic) 우선순위 구조를 도입하여 안전과 성능을 분리된 단계로 학습하는 LexiSafe 프레임워크를 제안했습니다. 이는 안전을 비타협적 우선순위 (Primary Objective) 로, 성능을 2 차 목표 (Secondary Objective) 로 설정합니다.

A. 기본 구조 (LexiSafe-SC: Single-Cost)

1 단계 (안전 학습 - Cost Minimization):
- 사전 수집된 데이터셋을 기반으로 **비용 (Cost)**을 최소화하는 정책을 학습합니다.
- Implicit Q-Learning (IQL) 기반의 가치 네트워크와 Q-네트워크를 사용하여 분포 이동 (Distributional Shift) 을 제어합니다.
- **Advantage-Weighted Regression (AWR)**을 적용하여 비용 이점 (Cost Advantage) 을 기반으로 정책을 업데이트하며, 안전 제약 조건 ( $\kappa$ ) 을 만족하는 영역으로 수렴시킵니다.
- 이 단계에서 학습된 정책은 안전 경계 내에서만 존재하도록 보장됩니다.
2 단계 (성능 최적화 - Reward Maximization):
- 1 단계에서 학습된 정책 ( $\theta$ ) 을 초기값으로 사용하여 **보상 (Reward)**을 최대화합니다.
- **라그랑주 승수 (Lagrangian Multiplier, $\lambda$ )**를 도입하여, 성능을 극대화하는 과정에서 1 단계에서 학습된 안전 제약이 위반되지 않도록 페널티를 부과합니다.
- 이를 통해 **안전성 유지 (Catastrophic Forgetting 방지)**와 성능 향상을 동시에 달성합니다.

B. 확장 구조 (LexiSafe-MC: Multi-Cost)

여러 개의 안전 비용 (예: 충돌, 속도 위반 등) 이 계층적으로 존재하는 경우를 처리합니다.
다단계 학습 (Multi-phase Training):
1. 가장 중요한 안전 비용 (예: 충돌) 을 먼저 최소화.
2. 다음 중요도의 안전 비용 (예: 속도) 을 최소화 (이때 이전 비용은 제약 조건으로 유지).
3. 최종적으로 보상을 최대화.
각 단계마다 IQL 과 AWR 을 반복 적용하며, 라그랑주 승수를 통해 각 계층의 안전 제약이 유지되도록 합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: 안전과 성능을 계층적으로 분리하는 LexiSafe (단일 비용 및 다중 비용 버전) 를 제안했습니다. 이는 안전 위반을 초기 수렴 후 제거하고, 성능 최적화 단계에서도 안전 경계를 준수하도록 보장합니다.
이론적 보장 (Theoretical Guarantees):
- 제약 위반 및 성능 하위 최적성 한계 (Bounds): 단일 비용 시나리오에 대해 안전 제약 위반 한계와 성능 하위 최적성 한계를 공식적으로 유도했습니다.
- 샘플 복잡도 (Sample Complexity): 단일 및 다중 비용 시나리오 모두에 대해 최초로 사전적 안전 RL 에 대한 샘플 복잡도 한계를 도출했습니다. 이는 모델 아키텍처, 데이터셋 크기, 분포 이동 (Concentrability) 과의 관계를 이론적으로 입증합니다.
실험적 검증: DSRL 벤치마크 (Safety Gymnasium, Bullet Safety Gym, MetaDrive) 에서 기존 오프라인 안전 RL 기법 (BC-Safe, COptiDICE, CPQ 등) 과 비교하여, 안전 위반을 줄이면서 더 높은 작업 성능을 달성함을 보였습니다.

4. 실험 결과 (Results)

벤치마크 성능 (LexiSafe-SC):
- Safety Gymnasium 및 Bullet Safety Gym의 다양한 작업에서 안전한 에이전트 (Cost < 1) 중 가장 높은 보상을 기록했습니다.
- 기존 방법들 (예: BC-Safe 는 안전 데이터 양에 의존, COptiDICE 는 분포 보정 오류, FISOR 은 지나치게 보수적) 보다 우월한 성능을 보였습니다.
- 특히, LexiSafe 는 안전과 성능의 트레이드오프를 더 잘 조절하며, 단순한 구조로 높은 안정성을 입증했습니다.
계층적 안전성 검증 (LexiSafe-MC):
- MetaDrive 환경에서 충돌 (Crash) 과 속도 (Speed) 의 계층적 우선순위를 테스트했습니다.
- LexiSafe-MC는 사용자가 지정한 우선순위 (예: 충돌 > 속도 > 보상) 를 정확히 따르며, 1 단계에서 충돌 비용을 줄이고, 2 단계에서 속도 비용을 줄인 후 3 단계에서 보상을 높이는 명확한 단계적 학습을 보였습니다.
- 반면, 기존 **가중치 기반 IQL (Weighted IQL)**은 가중치 튜닝에 매우 민감하여 안전 제약 조건을 일관되게 만족하지 못하거나 과도한 보수성을 보였습니다.

5. 의의 및 결론 (Significance)

실용적 가치: 안전이 필수적인 CPS 분야에서 오프라인 데이터를 활용한 안전한 의사결정을 위한 실용적이고 이론적으로 근거 있는 접근법을 제공합니다.
이론적 기여: 사전적 (Lexicographic) 우선순위와 구조적 편향 (Structural Bias) 을 결합하여, 안전성 드리프트를 방지하고 샘플 복잡도 보장을 제공하는 최초의 오프라인 안전 RL 프레임워크입니다.
미래 전망: 이 연구는 자율 주행, 로봇 조작, 에너지 관리 등 고위험 (Safety-critical) 도메인에서 RL 의 신뢰성 있는 배포를 가능하게 하는 기반을 마련합니다.

요약하자면, LexiSafe는 안전과 성능을 동시에 최적화하려는 기존 접근법의 실패를 계층적 우선순위 (Lexicographic Order) 와 다단계 학습을 통해 해결하며, 이론적 증명과 실증적 결과를 통해 오프라인 안전 강화 학습의 새로운 표준을 제시합니다.