CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 아이디어: "훈련 중에는 사수가 지켜주지만, 실전에서는 스스로 지키는 로봇"

기존의 로봇 학습 방식에는 두 가지 큰 문제가 있었습니다.

안전 필터 (Safety Filter) 방식: 로봇이 위험한 행동을 하려고 하면, 외부의 **'안전 사수'**가 즉시 개입해서 로봇의 다리를 붙잡거나 방향을 틀어줍니다.
- 문제점: 로봇은 "아, 내가 잘못했구나"라고 깨닫지 못합니다. 사수가 항상 옆에 있어야 하므로, 사수가 없는 실전 (현실 세계) 에서는 로봇이 다시 위험한 행동을 할 수 있습니다.
보상 조절 (Reward Shaping) 방식: 로봇이 위험에 가까워지면 점수를 깎아줍니다.
- 문제점: 로봇이 위험한 상황을 경험하기 전에 점수가 깎이는 경우가 많지 않아서, 로봇이 위험을 깨닫기까지 시간이 너무 오래 걸립니다. (예: 벽에 부딪히기 직전까지 점수가 안 깎임)

CBF-RL은 이 두 가지 방식을 **완벽하게 섞은 '최고의 훈련 시스템'**입니다.

🎓 비유: "유능한 코치와 훈련생"

이 시스템을 **로봇 (훈련생)**과 **CBF-RL (코치)**로 비유해 보겠습니다.

1. 훈련 과정 (Training): "코치가 바로잡아주고, 점수도 알려준다"

훈련생이 미끄러운 바닥을 걷는 연습을 한다고 칩시다.

행동 (Safety Filtering): 훈련생이 넘어질 듯이 비틀거릴 때, 코치가 즉시 손을 대어 균형을 잡아줍니다. (이게 '안전 필터'입니다.)
- 중요한 점: 코치는 훈련생이 "어떻게 넘어질 뻔했는지"와 "내가 어떻게 고쳐줬는지"를 훈련생에게 보여줍니다.
보상 (Reward Shaping): 코치는 훈련생이 넘어질 뻔했을 때 "아까 위험했잖아!"라고 점수를 깎아줍니다. 하지만 동시에 "내가 고쳐준 대로 움직였으니 그건 잘한 거야"라고 보너스 점수도 줍니다.
- 효과: 훈련생은 "아, 저렇게 움직이면 코치가 개입해서 점수를 깎고, 저렇게 움직이면 코치가 도와주지 않아서 점수를 더 받을 수 있구나"를 직접 경험하며 배웁니다.

2. 실전 배포 (Deployment): "코치 없이도 스스로 안전한 로봇"

훈련이 끝나고 로봇을 실제 세상 (현실) 에 보냅니다.

이때 코치 (안전 필터) 는 사라집니다.
하지만 훈련생 로봇은 훈련 과정에서 **"위험한 행동을 스스로 고쳐서 안전한 길로 가는 법"**을 완전히 체득했습니다.
그래서 코치가 없어도, 로봇은 스스로 균형을 잡고 장애물을 피하며 안전하게 계단을 오릅니다.

🧠 왜 이 기술이 특별한가요?

이 논문은 **인간형 로봇 (휴머노이드)**을 대상으로 실험했습니다. 인간형 로봇은 넘어지면 다치기 쉽고, 센서 소음 때문에 정확한 상태를 파악하기 어렵습니다.

기존 방식: 로봇이 계단을 오를 때, 발이 계단 모서리에 걸리면 안전 필터가 발을 강제로 들어올립니다. 하지만 필터가 없으면 로봇은 그대로 넘어집니다.
CBF-RL 방식: 로봇이 훈련을 통해 "발이 계단 모서리에 닿기 전에 미리 발을 들어 올려야 안전하고, 그렇게 하면 더 좋은 점수를 받는다"는 것을 스스로 깨달았습니다.
- 결과: 실제 실험에서 안전 필터 없이도 로봇이 장애물을 피하고, 30cm 높이의 높은 계단도 안전하게 오르고 내리는 데 성공했습니다.

🌟 한 줄 요약

"CBF-RL 은 로봇에게 '위험할 때 코치가 잡아주는' 훈련을 시키면서, 동시에 '코치가 잡아주지 않아도 스스로 위험을 피하는 법'을 가르쳐서, 나중에 코치 없이도 안전하게 일할 수 있게 만든 혁신적인 기술입니다."

이 기술 덕분에 앞으로 우리가 만나는 로봇들은 더 이상 "안전장비 (필터) 가 없으면 무서운 로봇"이 아니라, 스스로 판단하여 안전하게 행동하는 똑똑한 로봇이 될 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

강화학습 (RL) 의 안전성 한계: RL 은 복잡한 동역학을 가진 로봇 (예: 휴머노이드) 이 다양한 기술을 습득하는 데 강력한 도구이나, 성능 최적화에 집중하다 보니 안전 위반 (Safety Violation) 이 발생할 수 있습니다. 실제 환경에서의 안전 위반은 로봇과 주변 환경에 치명적인 손상을 초래할 수 있습니다.
기존 방법론의 부족:
- 런타임 안전 필터 (Safety Filter): 학습된 정책을 실행할 때 CBF(제어 장벽 함수) 기반의 필터를 통해 unsafe 한 동작을 보정하는 방식은 안전을 보장하지만, 필터가 항상 루프 안에 있어야 하므로 계산 비용이 크고, 에이전트가 안전 제약을 내부화 (Internalize) 하지 못해 탐색 공간이 과도하게 축소될 수 있습니다.
- 보상 설계 (Reward Shaping): 안전 위반에 대한 페널티를 보상에 추가하는 방식은 안전 행동을 유도하지만, 학습 과정에서 명시적인 안전 보장을 제공하지 못하며, 페널티 가중치 설정에 민감하고 학습이 느려질 수 있습니다.
목표: 학습 과정에서 안전 필터링과 보상 설계를 결합하여, 런타임 필터 없이도 안전을 유지할 수 있는 정책을 학습하는 프레임워크를 개발하는 것입니다.

2. 방법론 (Methodology: CBF-RL)

이 논문은 CBF-RL이라는 이중 접근법 (Dual Approach) 을 제안합니다. 이는 학습 단계에서 명시적인 안전 필터링과 **장벽 기반 보상 (Barrier-inspired Reward)**을 동시에 적용합니다.

가. 이론적 기반: 연속 - 이산 시간 안전성 (Continuous-to-Discrete Safety)

RL 환경은 이산 시간 (Discrete-time) 으로 작동하지만, CBF 는 일반적으로 연속 시간 (Continuous-time) 이론에 기반합니다.
저자들은 Lemma 1과 Theorem 1을 통해, 시간 단계 ( $\Delta t$ ) 가 충분히 작을 때 (일반적으로 $\le 0.01$ s), 연속 시간 CBF 조건이 이산 시간 RL 환경에서도 유효한 전방향 불변성 (Forward Invariance) 을 보장함을 수학적으로 증명했습니다.
이를 통해 복잡한 이산 시간 CBF 최적화 문제 대신, 연속 시간 CBF 의 1 차 선형 부등식을 사용하여 필터링을 수행할 수 있게 되었습니다.

나. 학습 프레임워크 (Training Framework)

학습 과정에서 RL 에이전트는 다음 두 가지 요소를 경험합니다:

안전 필터링 (Safety Filtering):
- 정책이 제안한 동작 ( $v_{policy}$ ) 이 안전 장벽 조건 ( $\nabla h(q)^\top v \ge -\alpha h(q)$ ) 을 위반할 경우, **닫힌 형식 (Closed-form)**의 해를 통해 최소한의 수정으로 안전한 동작 ( $v_{safe}$ ) 을 계산합니다.
- 이 필터링은 매 제어 단계에서 최적화 문제 (QP) 를 풀지 않고도 선형 제약 조건을 가진 QP 의 해석적 해로 즉시 수행 가능하여 계산 효율성이 매우 높습니다.
- 에이전트는 필터링된 동작 ( $v_{safe}$ ) 으로 환경과 상호작용하며, 필터가 어떻게 동작을 수정했는지를 관찰합니다.
보상 설계 (Reward Shaping):
- 안전 필터가 활성화되었을 때 또는 필터링된 동작과 제안된 동작 간의 차이가 클 때 페널티를 부과합니다.
- 보상 함수 $r_{cbf}$ 는 다음과 같이 정의됩니다:
  $r_{cbf} = \max(\nabla h(q)^\top v_{policy} - b_k, 0) + \left( \exp\left(-\frac{\|v_{policy} - v_{safe}\|^2}{\sigma^2}\right) - 1 \right)$
- 첫 번째 항은 안전 위반 시 페널티를, 두 번째 항은 필터 개입을 최소화하도록 유도하여 정책이 본질적으로 안전한 동작을 제안하도록 학습시킵니다.

다. 배포 (Deployment)

학습이 완료된 정책은 런타임 안전 필터 없이도 안전 장벽 조건을 만족하는 동작을 직접 생성할 수 있습니다. 이는 고차원 시스템 (휴머노이드) 에 있어 실시간 계산 부하를 줄이고, 노이즈가 있는 센서 환경에서도 강인한 성능을 발휘하게 합니다.

3. 주요 기여 (Key Contributions)

개념적 기여: 학습 시 안전 필터링과 보상 설계를 결합하여, 런타임 필터 없이도 안전을 내부화한 정책을 학습하는 이중 CBF-RL 프레임워크를 제안했습니다.
이론적 기여: 연속 시간 CBF 와 이산 시간 RL 환경 간의 관계를 분석하고, 이를 통해 경량화된 닫힌 형식 (Closed-form) 솔루션을 유도하여 학습 효율성을 높였습니다.
실용적 기여: 시뮬레이션 및 실제 하드웨어 (Unitree G1 휴머노이드) 실험을 통해, 제안된 방법이 높은 차원의 복잡한 시스템에서도 안전을 내부화하고, 런타임 필터 없이도 장애물 회피 및 계단 오르기 등의 작업을 성공적으로 수행함을 입증했습니다.

4. 실험 결과 (Results)

2D 내비게이션 (Single Integrator):
- **이중 접근법 (Dual)**은 '보상만', '필터만', '기저 (Nominal)' 방법보다 빠른 수렴 속도를 보였습니다.
- 강인성 테스트: 도메인 랜덤화 (DR) 와 동역학 노이즈가 있는 환경에서, Dual 정책은 안전 필터가 없는 상태 (No Runtime Filter) 에서도 92.7% 의 성공률을 유지했습니다. 반면, 필터만 사용한 정책은 런타임 필터가 없을 때 성공률이 38.7% 로 급격히 하락했습니다.
휴머노이드 locomotion (Unitree G1):
- 장애물 회피: 로봇은 명령 속도가 장애물 충돌을 유도하더라도, 학습된 정책이 스스로 속도를 조절하여 충돌을 피했습니다.
- 계단 오르기: 0.3m 높이의 높은 계단과 다양한 거칠기의 야외 계단에서 성공적으로 오르고 내렸습니다.
- 비교: CBF-RL 을 적용하지 않은 기저 정책은 계단 난간 (Riser) 에 발이 걸려 넘어지는 반면, CBF-RL 정책은 발의 높이를 적절히 조절하여 안전하게 이동했습니다.
- Zero-shot Sim-to-Real: 필터 없이 시뮬레이션에서 학습된 정책을 그대로 실제 로봇에 적용하여 성공적인 이동을 증명했습니다.

5. 의의 및 결론 (Significance)

안전의 내부화 (Internalization of Safety): 기존 방법론이 런타임 필터에 의존하는 것과 달리, CBF-RL 은 정책 자체가 안전 제약 조건을 학습하도록 하여, 필터가 없는 상태에서도 안전을 보장합니다. 이는 계산 자원이 제한된 실제 로봇 배포에 매우 중요합니다.
효율적인 학습: 해석적 해 (Closed-form solution) 를 사용하여 필터링 비용을 최소화함으로써, 대규모 병렬 학습 (IsaacLab 등) 환경에서도 효율적으로 동작합니다.
확장성: 휴머노이드의 복잡한 동역학뿐만 아니라, 다양한 고차원 로봇 시스템에 적용 가능한 범용적인 안전 강화 학습 프레임워크를 제시했습니다.

이 논문은 강화학습의 탐색 능력과 제어 이론의 안전 보장을 효과적으로 융합하여, 안전하면서도 자율적인 고차원 로봇 제어를 실현하는 중요한 이정표가 됩니다.