CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

이 논문은 강화학습 정책이 학습 단계에서 제어 장벽 함수 (CBF) 를 내재화하여 안전 필터 없이도 안전한 탐색과 빠른 수렴을 가능하게 하는 'CBF-RL' 프레임워크를 제안하고, 이를 통해 Unitree G1 휴머노이드 로봇의 실제 환경에서의 안전성을 입증합니다.

Lizhi Yang, Blake Werner, Massimiliano de Sa, Aaron D. Ames

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 아이디어: "훈련 중에는 사수가 지켜주지만, 실전에서는 스스로 지키는 로봇"

기존의 로봇 학습 방식에는 두 가지 큰 문제가 있었습니다.

  1. 안전 필터 (Safety Filter) 방식: 로봇이 위험한 행동을 하려고 하면, 외부의 **'안전 사수'**가 즉시 개입해서 로봇의 다리를 붙잡거나 방향을 틀어줍니다.
    • 문제점: 로봇은 "아, 내가 잘못했구나"라고 깨닫지 못합니다. 사수가 항상 옆에 있어야 하므로, 사수가 없는 실전 (현실 세계) 에서는 로봇이 다시 위험한 행동을 할 수 있습니다.
  2. 보상 조절 (Reward Shaping) 방식: 로봇이 위험에 가까워지면 점수를 깎아줍니다.
    • 문제점: 로봇이 위험한 상황을 경험하기 전에 점수가 깎이는 경우가 많지 않아서, 로봇이 위험을 깨닫기까지 시간이 너무 오래 걸립니다. (예: 벽에 부딪히기 직전까지 점수가 안 깎임)

CBF-RL은 이 두 가지 방식을 **완벽하게 섞은 '최고의 훈련 시스템'**입니다.


🎓 비유: "유능한 코치와 훈련생"

이 시스템을 **로봇 (훈련생)**과 **CBF-RL (코치)**로 비유해 보겠습니다.

1. 훈련 과정 (Training): "코치가 바로잡아주고, 점수도 알려준다"

훈련생이 미끄러운 바닥을 걷는 연습을 한다고 칩시다.

  • 행동 (Safety Filtering): 훈련생이 넘어질 듯이 비틀거릴 때, 코치가 즉시 손을 대어 균형을 잡아줍니다. (이게 '안전 필터'입니다.)
    • 중요한 점: 코치는 훈련생이 "어떻게 넘어질 뻔했는지"와 "내가 어떻게 고쳐줬는지"를 훈련생에게 보여줍니다.
  • 보상 (Reward Shaping): 코치는 훈련생이 넘어질 뻔했을 때 "아까 위험했잖아!"라고 점수를 깎아줍니다. 하지만 동시에 "내가 고쳐준 대로 움직였으니 그건 잘한 거야"라고 보너스 점수도 줍니다.
    • 효과: 훈련생은 "아, 저렇게 움직이면 코치가 개입해서 점수를 깎고, 저렇게 움직이면 코치가 도와주지 않아서 점수를 더 받을 수 있구나"를 직접 경험하며 배웁니다.

2. 실전 배포 (Deployment): "코치 없이도 스스로 안전한 로봇"

훈련이 끝나고 로봇을 실제 세상 (현실) 에 보냅니다.

  • 이때 코치 (안전 필터) 는 사라집니다.
  • 하지만 훈련생 로봇은 훈련 과정에서 **"위험한 행동을 스스로 고쳐서 안전한 길로 가는 법"**을 완전히 체득했습니다.
  • 그래서 코치가 없어도, 로봇은 스스로 균형을 잡고 장애물을 피하며 안전하게 계단을 오릅니다.

🧠 왜 이 기술이 특별한가요?

이 논문은 **인간형 로봇 (휴머노이드)**을 대상으로 실험했습니다. 인간형 로봇은 넘어지면 다치기 쉽고, 센서 소음 때문에 정확한 상태를 파악하기 어렵습니다.

  • 기존 방식: 로봇이 계단을 오를 때, 발이 계단 모서리에 걸리면 안전 필터가 발을 강제로 들어올립니다. 하지만 필터가 없으면 로봇은 그대로 넘어집니다.
  • CBF-RL 방식: 로봇이 훈련을 통해 "발이 계단 모서리에 닿기 전에 미리 발을 들어 올려야 안전하고, 그렇게 하면 더 좋은 점수를 받는다"는 것을 스스로 깨달았습니다.
    • 결과: 실제 실험에서 안전 필터 없이도 로봇이 장애물을 피하고, 30cm 높이의 높은 계단도 안전하게 오르고 내리는 데 성공했습니다.

🌟 한 줄 요약

"CBF-RL 은 로봇에게 '위험할 때 코치가 잡아주는' 훈련을 시키면서, 동시에 '코치가 잡아주지 않아도 스스로 위험을 피하는 법'을 가르쳐서, 나중에 코치 없이도 안전하게 일할 수 있게 만든 혁신적인 기술입니다."

이 기술 덕분에 앞으로 우리가 만나는 로봇들은 더 이상 "안전장비 (필터) 가 없으면 무서운 로봇"이 아니라, 스스로 판단하여 안전하게 행동하는 똑똑한 로봇이 될 수 있을 것입니다.