Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments

이 논문은 대칭성이 부분적으로 깨지는 실제 환경에서 오차 전파를 방지하면서도 대칭성의 이점을 유지하기 위해, 대칭성이 성립하는 영역과 그렇지 않은 영역에 따라 벨만 백업을 선택적으로 적용하는 '부분적으로 불변 MDP(PI-MDP)' 프레임워크와 이를 구현한 강화학습 알고리즘 (PE-DQN, PE-SAC) 을 제안합니다.

Junwoo Chang, Minwoo Park, Joohwan Seo, Roberto Horowitz, Jongmin Lee, Jongeun Choi

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로보틱스나 게임 AI 가 대칭적인 규칙을 배우려다, 현실의 '예외 상황' 때문에 망치는 문제"**를 해결한 새로운 방법을 소개합니다.

간단히 말해, **"대부분의 상황에서는 규칙을 따르되, 예외가 생기면 그 순간 규칙을 버리고 현실을 직시하는 똑똑한 AI"**를 개발했다는 이야기입니다.

이 내용을 일상적인 비유로 풀어서 설명해 드릴게요.


1. 문제: "완벽한 규칙"은 현실에서 통하지 않는다

상상해 보세요. 미로 찾기 게임을 한다고 칩시다.

  • 대칭적인 규칙 (기존 AI): "미로의 왼쪽 구석에 목표물이 있으면 오른쪽 구석에도 목표물이 있을 거야. 그래서 내가 왼쪽으로 갔을 때의 행동은 오른쪽으로 갔을 때와 똑같이 해도 돼."
  • 현실 (Symmetry Breaking): 그런데 미로 한구석에 **예상치 못한 벽 (장애물)**이 생겼다고 해보죠.
    • AI 는 "왼쪽이랑 오른쪽은 똑같으니까"라는 규칙만 믿고 행동합니다.
    • 하지만 오른쪽으로 가면 벽에 부딪혀서 게임 오버가 됩니다.
    • AI 는 "아, 내가 잘못했네"라고 생각하지만, 그 실수가 미로 전체의 지도를 엉망으로 만들어버립니다. (작은 실수가 전체를 망친다는 것)

기존의 AI 는 "모든 것이 대칭이다"라고 맹신하다가, 작은 예외 (벽) 하나 때문에 전체 학습이 망가져버리는 문제가 있었습니다.

2. 해결책: "스마트한 스위치" (PI-MDP)

이 논문은 **"어디서는 규칙을 따르고, 어디서는 현실을 보라"**는 새로운 방식을 제안합니다.

  • 비유: "날씨 예보와 우산"
    • 규칙을 따르는 모드 (Equivariant): 날씨가 맑고 평범할 때는 "비 올 확률은 0%"라고 믿고 우산을 안 들고 갑니다. (이때는 효율이 최고입니다.)
    • 현실을 보는 모드 (Standard): 갑자기 구름이 끼거나 빗방울이 떨어지는 특정 지역에 오면, AI 는 "아, 여기는 규칙이 안 통하는구나!"라고 깨닫습니다.
    • 스마트한 스위치: AI 는 **"이곳은 비가 올 것 같다 (벽이 있다)"**는 신호를 감지하자마자, 즉시 "우산 안 들고 가는 모드"에서 **"우산을 챙기는 현실적인 모드"**로 전환합니다.

이 논문이 개발한 **PI-MDP (부분적 대칭 마르코프 결정 과정)**는 바로 이 스마트한 스위치를 자동으로 작동시키는 기술입니다.

3. 어떻게 알아내나요? (두 명의 예언자)

AI 가 "여기는 규칙이 깨졌다"는 것을 어떻게 알까요? 논문은 아주 재미있는 방법을 썼습니다.

  • 두 명의 예언자 (Predictors) 를 고용합니다.

    1. 규칙을 믿는 예언자 (Equivariant): "전혀 변하지 않아! 모든 게 대칭이야!"라고 예측합니다.
    2. 현실주의 예언자 (Unconstrained): "어디서든 뭐가 생길지 몰라. 그냥 데이터만 봐."라고 예측합니다.
  • 싸움을 감시합니다.

    • 평범한 곳에서는 두 예언자의 말이 똑같습니다. (규칙이 통하니까)
    • 하지만 벽이 있는 곳에서는 두 예언자의 말이 완전히 다릅니다. (하나는 "벽 없어"라고 하고, 다른 하나는 "벽 있어"라고 하니까)
    • AI 는 이 **말이 안 맞는 정도 (불일치)**를 보고, "아! 여기는 규칙이 깨진 곳이다!"라고 판단하고 스위치를 켭니다.

4. 결과: 왜 이 방법이 좋은가요?

  • 효율성: 규칙이 통하는 90% 의 상황에서는 기존 AI 처럼 빠르고 효율적으로 학습합니다. (우산을 안 들고 가는 게 편하니까)
  • 견고함: 규칙이 깨지는 10% 의 상황에서는 실수를 반복하지 않고 현실에 맞춰 행동합니다. (벽을 피해서)
  • 종합: 기존 방법들은 "규칙을 너무 믿다가 망하거나", "아예 규칙을 안 믿어서 느리게 학습하거나" 하는 단점이 있었는데, 이 방법은 두 장점을 모두 챙겼습니다.

5. 요약

이 논문은 **"완벽한 대칭을 믿는 AI 는 현실에서 무너지기 쉽다"**는 사실을 지적하고, **"대부분은 규칙을 따르되, 예외가 보이면 즉시 현실을 직시하는 AI"**를 만들었습니다.

마치 자율주행 자동차가 평소에는 정해진 도로 규칙을 따르다가, 갑자기 공사 구간이나 사고가 나면 그 순간 규칙을 무시하고 현장의 상황을 가장 먼저 파악하는 것과 같습니다. 이렇게 하면 데이터를 적게 쓰면서도 (효율성), **어떤 상황에서도 잘 작동 (견고성)**하는 똑똑한 AI 를 만들 수 있습니다.