Synthesis and Deployment of Maximal Robust Control Barrier Functions through Adversarial Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"어떤 로봇이나 자율 주행차가 예측 불가능한 상황에서도 절대 넘어지지 않고 안전하게 움직일 수 있도록 도와주는 새로운 '안전 요원'을 개발한 연구"**입니다.

기존의 방법들은 너무 보수적이어서 로봇이 움직일 수 있는 공간이 좁아지거나, 복잡한 수식을 알아야만 작동했습니다. 하지만 이 연구는 인공지능 (RL) 과 게임 이론을 섞어, 로봇이 "가장 나쁜 상황"을 상상하며 스스로 안전 규칙을 배우게 했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "예측 불가능한 폭풍 속의 자전거 타기"

상상해 보세요. 여러분이 자전거를 타고 가는데, 갑자기 **어디서부터 오는지 모르는 바람 (불확실성)**이 불어옵니다.

기존의 안전 요원 (구식 CBF): "바람이 불면 넘어질 수 있으니, 아예 자전거를 끄고 서 있거나 아주 천천히만 움직여라"라고 말합니다. 안전하긴 하지만, 목적지에는 거의 도달하지 못합니다. (너무 보수적)
또 다른 방법: "바람의 방향과 세기를 정확히 계산할 수 있는 공식이 있어야 안전을 보장할 수 있다"고 합니다. 하지만 실제 세상에서는 바람이 어떻게 불지 알 수 없는 경우가 많습니다. (모델이 필요함)

이 연구는 **"공식이 없어도, 최악의 바람이 불어와도 넘어지지 않으면서도 빠르게 목적지로 갈 수 있는 방법"**을 찾았습니다.

2. 핵심 아이디어: "가상의 악당과 게임하기"

이 연구의 핵심은 **'적대적 강화학습 (Adversarial RL)'**이라는 기술을 쓴 것입니다. 이를 게임으로 비유해 볼까요?

플레이어 1 (로봇/조종사): 자전거를 잘 타고 가려는 사람.
플레이어 2 (악당/바람): 로봇을 넘어뜨리려고 최선을 다하는 악당.

이 두 명이 가상의 게임을 수만 번 반복합니다.

로봇이 어떻게 움직일지 시도해 봅니다.
악당은 "어떻게 하면 이 로봇을 넘어뜨릴 수 있을까?"라고 고민하며 가장 나쁜 바람을 불어옵니다.
로봇은 넘어지지 않기 위해 더 똑똑하게 움직이는 법을 배웁니다.

이 과정을 통해 로봇은 **"악당이 어떤 짓을 해도 넘어지지 않는 안전한 영역 (최대 안전 집합)"**을 스스로 찾아냅니다.

3. 새로운 기술: "Q-CBF (질문과 답변의 안전 지도)"

기존에는 "안전한지 확인하려면 복잡한 물리 공식을 풀어야 한다"는 문제가 있었습니다. 하지만 이 연구는 **Q-함수 (Q-Function)**라는 개념을 도입했습니다.

비유: 마치 "게임의 Q&A" 같습니다.
- "지금 이 상태에서 (상태), 저렇게 발을 굴리면 (조작), 바람이 세게 불어도 (악당) 다음 단계에 넘어지지 않을까?"
- 이 질문에 대한 답을 미리 학습해 둔 **지도 (Q-CBF)**를 만든 것입니다.

이 지도는 **"어떤 상황에서 어떤 행동을 하면 안전하다"**는 규칙을 수식 없이, 경험으로 학습했습니다. 그래서 로봇이 복잡한 물리 법칙을 몰라도, 이 지도만 보면 "아, 여기서 저렇게 하면 안전하구나!"라고 바로 판단할 수 있습니다.

4. 실험 결과: "개구리 vs 사자"

논문의 실험 결과는 매우 인상적입니다.

실험 1 (뒤집힌 막대기): 기존 방법들은 막대기가 넘어지지 않게 하려고 너무 조여서, 막대기가 거의 움직이지 못했습니다. 하지만 이 새로운 방법은 넘어지지 않으면서도 최대한 자유롭게 움직일 수 있는 영역을 찾아냈습니다.
실험 2 (36 개의 다리를 가진 로봇): 36 차원이라는 매우 복잡한 로봇을 시뮬레이션했습니다.
- 기존 안전 필터: 로봇이 넘어지지 않으려고 너무 자주 멈추거나 떨려서 (Chattering), 제자리에서 제자리만 맴돌았습니다.
- 이 연구의 방법: 로봇이 안전을 지키면서도 목적지까지 부드럽게 걸어갔습니다. 마치 사자가 폭풍우 속에서도 걸음을 멈추지 않고 나아가는 것처럼요.

5. 요약: 왜 이것이 중요한가요?

이 연구는 **"복잡한 수식을 외울 필요 없이, AI 가 직접 최악의 상황을 상상하며 배운 안전 규칙"**을 만들었습니다.

기존: "이 공식이 맞아야 안전해." (현실과 다르면 위험)
이 연구: "가장 나쁜 상황이 와도 이걸로 안전해." (실제 환경에 강함)

이 기술이 적용되면, 자율 주행차나 드론, 혹은 복잡한 로봇이 예상치 못한 돌풍이나 고장, 혹은 해킹 같은 악의적인 상황에서도 안전하면서도 효율적으로 임무를 수행할 수 있게 될 것입니다. 마치 무적의 방패를 두른 동시에, 날렵한 검을 든 기사처럼 말이죠.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

안전이 중요한 시스템 (Safety-critical systems) 은 실제 환경에서 불확실성 (모델 오차, 외부 섭동 등) 에 직면하며, 단일 안전 위반도 치명적인 결과를 초래할 수 있습니다. 이를 해결하기 위해 **강인 제어 장벽 함수 (Robust Control Barrier Functions, CBFs)**가 널리 사용되지만, 기존 접근법에는 다음과 같은 한계가 존재합니다.

명시적 모델 의존성: 대부분의 기존 강인 CBF 방법은 시스템 동역학이 제어 - 선형 (control-affine) 형태여야 하며, 불확실성 구조에 대한 명시적인 지식 (예: 경계값, 파라미터 추정 오차 등) 을 요구합니다.
블랙박스 시스템 적용 불가: 복잡한 비선형 시스템이나 블랙박스 (Black-box) 동역학을 가진 시스템에는 적용하기 어렵습니다.
과도한 보수성 (Conservatism): 불확실성을 처리하는 방식에 따라 안전 집합을 지나치게 축소하여, 시스템이 수행해야 할 작업 (Task) 을 방해하거나 최대 강인 안전 집합 (Maximal Robust Safe Set) 의 일부만 보장하는 경우가 많습니다.

이 논문은 명시적인 동역학 모델이나 불확실성 구조 없이도, 블랙박스 시스템에서 최대 강인 안전 집합을 보장하는 안전 필터를 합성하고 배포하는 것을 목표로 합니다.

2. 방법론 (Methodology)

저자들은 강화학습 (RL) 의 품질 함수 (Q-function) 개념을 강인 CBF 프레임워크에 접목하여 새로운 **강인 Q-CBF (Robust Q-CBF)**를 제안합니다.

가. 이론적 기반: 최대 강인 Q-CBF

안전 가치 함수 (Safety Value Function): 동적 프로그래밍의 Isaacs 방정식을 풀어 얻은 안전 가치 함수 $V(x)$ 가 최대 강인 안전 집합 ( $\Omega^*$ ) 을 정의하는 유효한 이산 시간 강인 CBF (Robust DCBF) 임을 증명했습니다.
상태 - 제어 - 섭동 리프트 (Lifting): 기존 CBF 가 상태 $x$ 와 제어 $u$ 에 의존하는 반면, 이 프레임워크는 상태 - 제어 - 섭동 (State-Action-Disturbance) 공간으로 안전 가치 함수를 확장하여 Q-함수 ( $Q(x, u, d)$ ) 를 도입했습니다.
블랙박스 제약 조건: 이 Q-CBF 제약 조건은 명시적인 동역학 모델 $f(x, u, d)$ $f (x, u, d)$ 를 필요로 하지 않고, 학습된 가치 함수 $V$ $V$ 와 $Q$ $Q$ 만으로 안전성을 검증할 수 있게 합니다.
- 제약식: $\min_{d \in D} Q(x, u, d) \ge \beta(V(x))$

나. 합성 및 배포 파이프라인 (Adversarial RL)

고차원 시스템에서 Isaacs 방정식을 직접 풀거나 런타임에 섭동 $d$ 에 대한 최소화를 수행하는 것은 계산적으로 불가능하므로, **적대적 강화학습 (Adversarial RL)**을 활용합니다.

게임 이론적 RL: 제어기 (Actor) 와 섭동 (Adversary) 이 제로섬 게임 (Zero-sum game) 을 수행하도록 훈련합니다. 섭동은 제어기의 입력을 관찰하고 즉각 반응하도록 설계되어 더 강력한 적대자가 됩니다.
최적 응답 섭동 정책 학습: 런타임 시 $Q(x, u, d)$ 에서 $d$ 에 대한 최소화를 효율적으로 수행하기 위해, 다양한 제어 정책에 대해 최악의 경우 (Best-response) 를 찾는 섭동 정책 $\pi_d(x, u)$ 를 추가로 훈련합니다.
런타임 안전 필터: 학습된 신경망 기반의 섭동 정책 $\tilde{d} = \pi_d(x, u)$ 를 사용하여 $Q(x, u, \tilde{d})$ 를 계산함으로써, 중첩된 최적화 (Nested optimization) 문제 없이 실시간으로 안전 필터를 적용합니다.

3. 주요 기여 (Key Contributions)

블랙박스 시스템을 위한 강인 Q-CBF 프레임워크 제안: 제어 - 선형 가정이나 명시적 모델 없이, 불확실성이 있는 일반 비선형 시스템에 적용 가능한 새로운 안전 필터링 프레임워크를 제시했습니다.
이론적 증명: Isaacs 방정식의 해인 안전 가치 함수가 최대 강인 안전 집합을 보호하는 유효한 강인 DCBF 임을 수학적으로 증명하고, 이를 Q-CBF 제약 조건으로 유도했습니다.
확장 가능한 합성 및 배포 파이프라인: 고차원 시스템에서도 명시적 모델 없이 학습 가능한 적대적 RL 기반의 합성 및 배포 프로세스를 개발했습니다.
실증적 검증: 단순한 물리 시스템 (진자) 과 고차원 로봇 (36 차원 4 발 보행 로봇) 에서 기존 방법론보다 덜 보수적이고 더 강력한 안전성을 입증했습니다.

4. 실험 결과 (Results)

논문의 실험은 두 가지 벤치마크에서 수행되었습니다.

A. 교란된 역진자 (Disturbed Inverted Pendulum)

결과: 학습된 신경망 Q-CBF 는 기존 장벽 기반 베이스라인 (Heuristic, Analytic CBF) 보다 훨씬 덜 보수적인 안전 집합을 형성했습니다.
성능: 학습된 Q-CBF 는 수치적으로 계산된 최대 강인 안전 집합을 거의 완벽하게 회복 (Recover) 했습니다. 모든 필터링 방식이 최악의 섭동 하에서도 100% 안전성을 유지했습니다.

B. 36 차원 4 발 보행 로봇 (Quadrupedal Locomotion)

환경: MuJoCo 시뮬레이터 내 Unitree Go2 로봇을 사용하며, 동역학과 불확실성 구조를 블랙박스 처리했습니다.
비교 대상:
- Unfiltered Policy: 안전 필터 없음 (안전률 16%).
- LRSF (Least-Restrictive Safety Filter): 기존 가치 기반 안전 필터 (안전률 38%).
- Neural Q-CBF: 제안된 방법 (안전률 100%).
성과:
- 안전성: 50 회의 시뮬레이션에서 적대적 섭동 하에도 100% 안전을 보장했습니다.
- 작업 수행도: LRSF 는 빈번한 스위칭 (Chattering) 으로 인해 로봇이 전진하는 것을 막는 반면, Q-CBF 는 안정적으로 전진을 유지했습니다.
- 입력 변경 최소화: 작업 입력 ( $u_{task}$ ) 과 필터링된 입력 ( $u_{CBF}$ ) 간의 편차 ( $\|u_{task} - u_{CBF}\|_2$ ) 가 LRSF 에 비해 현저히 작아, 작업 수행 능력을 더 잘 보존했습니다.

5. 의의 및 결론 (Significance)

이 논문은 강인 안전 제어 분야에서 중요한 전환점을 제시합니다.

모델 불필요: 기존 CBF 방법론이 필수로 요구하던 복잡한 수학적 모델 (명시적 동역학, 제어 - 선형 구조, 불확실성 경계) 을 제거함으로써, 실제 물리 시스템이나 블랙박스 시뮬레이터에 직접 적용 가능한 범용성을 확보했습니다.
최대 안전성 보장: 기존 방법들이 보장하던 '보수적인 안전 집합'을 넘어, 이론적으로 가능한 최대 강인 안전 집합에 근접하는 성능을 달성했습니다.
실용성: 고차원 시스템 (36 차원 로봇) 에서도 실시간으로 배포 가능함을 입증하여, 자율 주행, 로봇 공학 등 안전이 필수적인 고차원 시스템의 상용화에 기여할 것으로 기대됩니다.

요약하자면, 이 연구는 적대적 강화학습을 활용하여 블랙박스 시스템에서도 최대 안전성을 보장하는 신경망 기반의 강인 CBF를 성공적으로 개발하고 검증한 획기적인 작업입니다.