원저자: Stefan Stojanovic, Alexandre Proutiere

게시일 2026-05-14✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Stefan Stojanovic, Alexandre Proutiere

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

로봇에게 거대하고 복잡한 미로를 항해하는 법을 가르친다고 상상해 보세요. 기존의 방식은 로봇에게 특정 목적지 (예: "빨간 문으로 가라") 를 지정하고 그곳에 도달하기 위한 모든 단계를 스스로 파악하게 하는 것이었습니다. 하지만 로봇이 문 찾기뿐만 아니라 어떤 보상이라도 처리하는 법을 배우게 하고 싶다면 어떨까요? 아마도 동전을 모으거나, 함정을 피하거나, 특정 색상 패턴을 찾는 것을 원할 수도 있습니다.

이 논문은 스위칭 서서 메저 (Switching Successor Measures) 라는 새로운 로봇 교육 방식을 소개합니다. 일상적인 비유를 사용하여 작동 원리를 간단히 설명해 보겠습니다.

문제: "고정된 단계"의 함정

이전 방법들은 큰 문제를 작은 단위로 나누기 위해 "정확히 10 단계만 걷고, 멈춘 뒤 새로운 목표를 선택하라"고 말하며 접근했습니다.

결함: 방을 가로지르려 한다고 상상해 보세요. 마음이 바뀔 때마다 정확히 10 걸음만 걷도록 강요한다면, 벽이나 웅덩이 한가운데에 멈추게 될지도 모릅니다. 현실은 고정된 단계에 관한 것이 아니라, 특정 지점 (예: 의자) 에 도달한 후 다음에 무엇을 할지 결정하는 것입니다. 기존 방법들은 너무 경직되어 단순한 "목표 찾기" 작업에만 잘 작동했습니다.

해결책: "스마트 스위치"

저자들은 로봇이 세계의 단일 "지도"에서 두 가지 것을 동시에 학습하는 시스템을 제안합니다.

고수준 계획: "우선 저 의자까지 가야 해."
저수준 행동: "알겠어, 의자 쪽으로 걸어가고 있어."

이 마법의 기술은 스위칭 서서 메저 (Switching Successor Measures) 라고 불립니다. 단순히 최종 목적지까지의 경로만 보여주는 GPS 가 아니라, 중간 지점에서의 "가치"까지 이해하는 GPS 라고 생각하세요.

비유: 하이킹을 한다고 상상해 보세요.
- 기존 방식: 정상으로 가는 방법만 알려주는 지도를 가지고 있습니다. 중간에 폭포에 멈추고 싶다면, 처음부터 지도를 다시 계산해야 합니다.
- 새로운 방식 (이 논문): 지형을 아는 "슈퍼 지도"를 가지고 있습니다. 이 지도는 이렇게 알려줍니다: "폭포 쪽으로 가면 5 분 안에 도착할 거야. 그곳에 도착하면 즉시 정상으로 향하는 계획으로 전환할 수 있어." 로봇은 새로운 지도나 언제 전환해야 하는지 알려주는 교사가 필요 없이, 하나의 하위 목표에서 다른 하위 목표로 초점을 매끄럽게 "전환"하는 법을 학습합니다.

작동 원리 ("FB π-Switch" 알고리즘)

이 논문은 그들의 방법을 FB π-Switch라고 부릅니다. 쉬운 영어로 과정을 설명해 보겠습니다.

세상의 "느낌" 학습: 먼저 로봇은 스스로 (또는 다른 로봇) 가 움직이는 과거 비디오들을 많이 살펴봅니다. 그리고 "서서 메저 (successor measure)"를 학습합니다.
- 비유: 이는 집 안의 모든 방의 "분위기"를 배우는 것과 같습니다. 부엌에 있다면 곧 식당에 도착할 가능성이 높다는 것을 압니다. 매번 정확한 경로를 알 필요는 없으며, 어디에 있을지 그 확률만 알면 됩니다.
"스위치" 순간: 로봇은 부엌과 같은 하위 목표까지 경로를 따르다가, 그곳에 도착하는 순간 내부 논리를 "전환"하여 식당과 같은 최종 목표로 향하기 시작할 수 있음을 학습합니다.
추가 훈련 불필요: 가장 좋은 점은 로봇이 큰 작업을 작은 조각으로 어떻게 나눌지 스스로 알아낸다는 것입니다. "여기서 멈추고 새로운 목표를 선택해"라고 인간이 말해줄 필요가 없습니다. 수학의 구조가 자연스럽게 이러한 하위 목표를 생성합니다.

중요성

연구자들은 이 방법을 두 가지 유형의 작업에서 테스트했습니다.

목표 조건부: "빨간 깃발로 가라." (일반적인 비디오 게임 레벨과 유사).
일반 보상: "가시들을 피하면서 가능한 한 많은 동전을 모으라." (훨씬 더 어렵고 복잡한 작업).

결과:

새로운 방법은 단순한 "깃발로 가라" 작업에 있어 기존 최선 방법과同等하게 잘 작동했습니다.
중요하게도, 복잡한 "동전 모으기" 작업에서는 훨씬 더 뛰어났습니다. 고정된 단계에 갇혀 있지 않았기 때문에, 최선의 경로가 직선이 아닌 복잡한 보상 지형에 적응할 수 있었습니다.

결론

이 논문은 복잡한 계층 구조를 수동으로 설계하거나 로봇에게 언제 작업을 전환해야 하는지 정확히 알려줄 필요가 없음을 보여줍니다. 특정 수학적 프레임워크 (스위칭 서서 메저) 를 사용하면 로봇은 큰 문제를 스스로 더 작고 관리 가능한 단계로 나누는 것을 자연스럽게 허용하는 단일하고 유연한 세계 "이해"를 학습할 수 있습니다. 이는 로봇에게 "큰 그림"과 "작은 단계"를 동시에 자연스럽게 볼 수 있는 뇌를 주는 것과 같습니다.

기술적 요약: 계층적 제로샷 강화학습을 위한 전환 성공자 측정 (Switching Successor Measures)

문제 정의

계층적 강화학습 (HRL) 은 장기 의사결정을 더 단순한 하위 문제로 분해함으로써 일반화 능력을 향상시키는 것을 목표로 합니다. 그러나 기존 접근법들은 종종 고정된 시간적 추상화나 목표 조건부 목적함수와 같은 제한적인 설계 선택에 의존하여, 일반적인 보상 함수에 대한 적용 가능성을 제한합니다. 또한 HIQL 과 같은 방법들은 고정된 하위 목표 시간 범위를 통해 국소성을 강제할 뿐, 학습 과정에서 국소성이 자연스럽게 발현되도록 허용하지는 않습니다.

동시에, 특히 전진 - 후진 (Forward-Backward, FB) 표현을 통한 성공자 측정 (Successor Measures, SM) 은 공유 임베딩 공간에서 가치 함수를 표현함으로써 임의의 보상 함수에 대한 제로샷 적응을 위한 프레임워크를 제공합니다. 그러나 이러한 방법들은 일반적으로 복잡한 환경에서 학습하기 어려울 수 있는 강력한 전역 분해 ( $F(s, a, z)^\top B(g)$ ) 를 가정합니다. 최근 연구들은 성공자 표현이 국소적으로 가장 신뢰할 수 있으며, 짧은 범위의 전이를 효과적으로 포착하는 반면 장기 시간 범위에서는 정확도가 저하된다는 것을 시사합니다.

중요한 간극이 존재합니다: 학습된 표현으로부터 직접 계층적 정책을 유도하면서도 임의의 (목표 도달이 아닌) 보상 함수에 걸쳐 일반화할 수 있는 통합된 접근법이 없다는 점입니다. 기존 파이프라인들은 종종 표현 학습과 정책 학습을 분리하여, 성공자 표현의 구조적 인코딩을 공동 계획 및 제어에 활용하지 못합니다.

방법론: 전환 성공자 측정 및 FB $\pi$ -Switch

저자들은 추가적인 감독, 고정된 시간 범위, 또는 수동으로 설계된 하위 목표 없이 제로샷 RL 에서 계층적 제어를 가능하게 하는 전환 성공자 측정 (Switching Successor Measures) 프레임워크를 소개합니다.

이론적 기반

핵심 통찰은 고위 계획에 필요한 전환 성공자 측정이 단일 고전적 성공자 측정으로부터 직접 유도될 수 있다는 것입니다.

전환 이점 (Switching Advantage): 저자들은 에이전트가 $k$ 단계 동안 하위 목표 조건부 정책 $\pi_w$ 를 따르고 그 후 전역적으로 효율적인 정책 $\pi$ 로 전환하는 $k$ -단계 이점 함수를 정의합니다.
도착 시간 전환 (Hitting-Time Switching): 고정된 시간 범위 (여기서 $k$ 단계는 하위 목표 도달과 일치하지 않을 수 있음) 로 인한 편향을 해결하기 위해, 이 프레임워크는 고정된 $k$ 를 도착 시간 $H^{\pi_w}_s(w)$ 로 대체합니다.
정리 1 (Theorem 1): 이 논문은 전환 성공자 측정 $M^{\pi_w \to \pi}_s$ 와 표준 성공자 측정 사이의 중요한 항등식을 확립합니다:
$M^{\pi_w \to \pi}_s(s') = M^{\pi_w}_s(s') + \frac{M^{\pi_w}_s(w)}{M^{\pi_w}_w(w)} \left( M^{\pi}_w(s') - M^{\pi_w}_w(s') \right)$
이 정리는 계층 구조가 표준 성공자 표현에 암시적으로 인코딩되어 있으며 추가 학습 없이 복원될 수 있음을 보여줍니다.
계 1 (Corollary 1): 전환 이점 함수는 다음과 같이 유도됩니다:
$A^{\pi_w \to \pi}_s(r) = V^{\pi_w}(s; r) + \frac{M^{\pi_w}_s(w)}{M^{\pi_w}_w(w)} \left( V^{\pi}(w; r) - V^{\pi_w}(w; r) \right) - V^{\pi}(s; r)$
이는 하위 목표 $w$ 를 선택하기 위한 고위 정책의 목적함수로 작용합니다.

알고리즘: FB $\pi$ -Switch

저자들은 3 단계 오프라인 학습 알고리즘인 FB $\pi$ -Switch를 제안합니다:

상태 - 성공자 표현 학습: 알고리즘은 기대회귀 (expectile regression) 목적함수를 사용하여 행동이 없고 보상 조건부인 상태 - 성공자 표현 ( $F(s, z)$ 및 $B(s)$ ) 을 학습합니다. 이 단계는 행동을 주변화하고 표준 FB 에서 발견되는 정책과 표현의 결합된 최적화를 피함으로써 단일 단계 학습 절차를 가능하게 합니다.
고위 정책 학습: 고위 정책 $\pi_h$ 는 이점 가중 회귀 (AWR) 를 사용하여 전환 이점 함수의 FB 근사치를 최대화함으로써 잠재 하위 목표 $z_w$ 를 선택하도록 훈련됩니다.
저위 정책 학습: 저위 정책 $\pi_\ell$ 은 선택된 하위 목표에 조건부인 원시 행동을 실행하도록 훈련되며, 이 역시 AWR 을 사용합니다.

이 방법은 **계층적 사후 조정 (hierarchical post-tuning)**을 허용하며, 여기서 고위 정책은 저위 제어기나 기본 표현을 재학습하지 않고도 사전 훈련된 행동 기반 모델 (BFM) 에 추가될 수 있습니다.

주요 기여

전환 성공자 측정: 성공자 기반 표현에서 계층 구조를 추출하기 위한 원칙적인 프레임워크. 이 논문은 고위 계획에 필요한 측정이 단일 고전적 성공자 측정으로부터 유도될 수 있음을 증명하여, 계층이 암시적으로 인코딩되어 있음을 보여줍니다.
FB $\pi$ -Switch 알고리즘: 고위 하위 목표 선택과 저위 제어 모두 FB 표현으로부터 직접 유도되는 계층적 제로샷 RL 알고리즘. 이 방법은 3 단계 훈련 절차를 따르며, 고위 단계는 기존 FB 알고리즘과 호환됩니다.
실증적 검증: 목표 조건부 및 일반 보상 기반 작업 모두에 대한 평가는 FB $\pi$ -Switch 가 비계층적 베이스라인보다 개선된 성능을 보이며, 목표 조건부 설정에서 최첨단 계층적 방법과 대등한 성능을 달성함을 입증합니다.

실험 결과

저자들은 이산 미로, AntMaze(목표 조건부), 그리고 일반 보상 함수를 가진 AntMaze 에서 FB $\pi$ -Switch 를 평가했습니다.

목표 조건부 작업 (AntMaze): FB $\pi$ -Switch 는 선도적인 계층적 방법인 HIQL 과 비교 가능한 성능을 달성했습니다. 특히, 고위 정책을 추가하는 것이 비계층적 변형보다 일관되게 성능을 향상시켰습니다. 계층 구조가 없더라도 FB $\pi$ -Switch 는 다른 비계층적 베이스라인 (예: 표준 FB, ICVF) 보다 우수한 성능을 보였습니다.
일반 보상 작업: 단일 목표 도달이 아닌 분산된 보상 지형을 가진 환경에서 FB $\pi$ -Switch 는 최고의 평균 성능을 달성했습니다. 계층적 변형은 환경 전반에 걸쳐 향상된 견고성을 보여주었습니다.
애블레이션 및 분석:
- FB $\pi$ -Switch 의 고위 정책은 목표 방향으로 일관된 궤적을 따라 하위 목표를 유도하는 반면, HIQL 의 하위 목표는 종종 경로 일관성 없이 유사한 즉각적인 행동으로 이어집니다.
- FB $\pi$ -Switch 의 고위 정책과 표준 FB 의 저위 정책을 결합한 실험은, 계층적 이점을 실현하기 위해 저위 정책의 품질이 결정적임을 보여주었습니다.
- 이 방법은 지역적 및 전역적 목표 간의 트레이드오프가 있는 작업을 성공적으로 처리하여, 전통적인 GCRL 의 단일 목표 초점을 넘어 확장되었습니다.

중요성 및 주장

이 논문은 구조화된 성공자 표현이 목표 도달 작업을 넘어 확장되는 계층적 제로샷 강화학습을 위한 유연한 기반을 제공한다고 주장합니다. 전환 성공자 측정을 도입함으로써, 저자들은 계층적 행동이 다음을 요구하지 않고 학습된 표현으로부터 직접 발현될 수 있음을 입증했습니다:

전문가 궤적.
수동으로 제작된 시간적 추상화.
계층을 위한 별도의 감독 대상.

이 연구는 지역적 및 전역적 의사결정을 연결하며, 성공자 표현이 지역 간 행동의 구성을 자연스럽게 지원할 수 있음을 시사합니다. 저자들은 이 방법이 효과적이지만, 기본 모델의 품질이 여전히 의존 요소임을 지적하며, 향후 연구는 다중 하위 목표 계획과 생성 모델 기반 방법과의 비교를 탐구할 수 있다고 언급합니다. 이 프레임워크는 제로샷 설정에서 표현 학습과 계층적 제어 간의 간극을 해소하기 위해 성공자 표현으로부터 계층적 정책을 유도하는 통합된 접근법으로 제시됩니다.

Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning