원저자: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

게시일 2026-05-29✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

로봇 그룹이 사과를 따기 위해 협력하는 방법을 가르친다고 상상해 보세요. 과거에 다양한 로봇 팀이 이 작업을 수행한 모습을 보여주는 방대한 비디오 라이브러리(데이터셋)가 있다고 가정해 봅시다. 어떤 팀은 빨간 사과를 함께 따고, 다른 팀은 초록 사과를 따며, 어떤 팀은 목적 없이 배회하기도 했습니다.

과제는 더 이상 로봇을 실제 세계에서 연습시킬 수 없다는 점입니다. 오직 이 오래된 비디오들을 관찰함으로써만 가르칠 수 있습니다. 이를 오프라인 다중 에이전트 강화 학습이라고 합니다.

문제: "혼란스러운 합창단"

과거 연구자들이 이러한 뒤섞인 비디오들을 통해 로봇을 가르치려 할 때, 그들은 큰 실수를 저질렀습니다. 그들은 각 로봇이 서로의 움직임을 무시한 채 혼자 학습하는 것처럼 취급했습니다.

같은 악보에서 서로 다른 노래를 부르는 합창단을 상상해 보세요. 만약 소프라노에게 개인적인 습관에 기반해 "노래 A"를 부르고, 베이스에게 "노래 B"를 부르라고 지시한다면, 그 결과는 끔찍하고 혼란스러운 소음으로 이어질 것입니다. 로봇 세계에서는 이것이 부조화로 이어집니다. 로봇들이 동시에 두 개의 다른 사과를 잡으려 하거나, 비디오에서 아무도 성공적으로 잡지 않은 사과를 잡으려 할 수 있습니다. 결국 그들은 한 로봇에게는 "괜찮아" 보이지만 팀 전체에게는 재앙이 되는 일을 저지르게 됩니다.

이 논문은 이를 "결합 모드 전이" 라고 부릅니다. 성, 텐트, 그리고 마천루의 설계도를 섞어서 집을 짓는 것과 같습니다. 그 결과는 집이 아니라, 서로 맞지 않는 벽돌 더미일 뿐입니다.

해결책: OMSD (지휘자의 지휘봉)

저자들은 OMSD(연속적 점수 분해를 통한 오프라인 다중 에이전트 강화 학습) 라는 새로운 방법을 제안합니다.

간단한 비유를 통해 작동 원리를 설명해 보겠습니다:

1. "줄 서기" 전략 (연속적 분해)
각 로봇이 자신의 기억에 기반해 무엇을 해야 할지 묻는 대신, OMSD는 방에 들어오기 위해 줄을 서 있는 사람들처럼 특정 순서로 로봇들에게 질문합니다.

로봇 A가 먼저 가서 "나는 빨간 사과로 가겠다"고 결정합니다.
로봇 B는 로봇 A의 결정을 보고 "로봇 A 가 빨간 사과로 가니, 나도 도와주기 위해 빨간 사과로 가야겠다"고 생각합니다.
로봇 C는 둘 다 보고 따라갑니다.

이전 로봇들이 무엇을 결정했는지 살펴봄으로써, 각 로봇은 팀 계획의 맥락을 학습합니다. 이는 그들이 실수로 다른 사과를 고르거나 배회하는 것을 방지합니다.

2. "확산"의 마법 (점수 함수)
이를 작동시키기 위해 연구자들은 확산 모델이라는 특수한 유형의 AI 를 사용합니다. 이를 "노이즈 제거기"나 "흐림 제거기"로 생각하세요.

오래된 비디오들이 약간 흐릿하고 정지화면 노이즈로 가득 차 있다고 상상해 보세요.
확산 모델은 데이터를 어떻게 "노이즈 제거"할지 정확히 아는 스마트한 필터처럼 작동합니다. 단순히 무작위 행동을 추측하는 것이 아니라, 성공적인 비디오에서 팀이 실제로 취한 행동을 가리키는 "점수"나 "방향"을 계산합니다.
로봇에게 이렇게 말합니다: "저쪽으로 가지 마세요 (그건 실수입니다). 이쪽으로 가세요 (팀이 성공한 곳입니다)."

3. "중앙 코치" (비평가)
로봇들이 줄지어 구체적인 움직임을 학습하는 동안, 전체 팀을 지켜보는 "중앙 코치"(중앙 집중식 비평가) 가 있습니다. 이 코치는 팀이 얻는 총점을 압니다. 로봇들에게 "이 빨간 사과 전략은 높은 점수를 받으니 계속 하세요!"라고 말합니다.

왜 더 나은가

이전 방법들은 로봇들을 고립된 상태에서 개인의 습관을 관찰하며 가르치려 했습니다. 이는 모두가 같은 일을 할 때는 잘 작동했지만, 비디오에 많은 다른 성공 전략들이 나타난 경우 (다중 모드 데이터) 에는 처참하게 실패했습니다.

OMSD는 다음과 같이 이를 해결합니다:

연쇄를 존중함: 로봇 B 의 움직임이 로봇 A 의 움직임에 의존한다는 것을 이해합니다.
레인에 머무름: 로봇들이 데이터에 존재하지 않는 위험하고 가상의 움직임을 시도하는 것을 방지하며, 실제로 비디오에서 일어난 일들을 하도록 유지합니다.
최고의 경로를 찾음: 비디오 라이브러리의 다른 전략들에 혼란을 겪지 않고, 가장 높은 보상을 주는 특정 "모드"나 전략 (예: 빨간 사과 대 초록 사과) 을 팀이 찾도록 돕습니다.

결과

저자들은 이 방법을 간단한 게임부터 복잡한 물리 시뮬레이션 (로봇이 달리거나 사냥감을 잡는 것) 에 이르기까지 다양한 로봇 작업에서 테스트했습니다.

간단한 테스트에서: OMSD 는 완벽하게 협력하는 법을 학습한 반면, 다른 방법들은 계획에 동의하지 못해 실패했습니다.
복잡한 테스트에서: OMSD 는 특히 훈련 데이터가 혼란스럽거나 성공하는 다양한 방법들을 보일 때, 기존 최선 방법들보다 일관되게 우수한 성과를 거두었습니다.

간단히 말해, OMSD 는 각 음악가에게 자신의 파트만 연주하라고 말하는 것이 아니라, 앞사람을 듣고 지휘자의 지시에 따라 전체 오케스트라가 조화를 이루도록 이끄는 똑똑한 지휘자와 같습니다. 이를 통해 최종 공연이 재앙이 아닌 히트작이 되도록 보장합니다.

기술 요약: 순차적 점수 분해를 통한 오프라인 다중 에이전트 강화 학습

1. 문제 정의

오프라인 다중 에이전트 강화 학습 (MARL) 은 단일 에이전트 오프라인 RL 과 구별되는 중요한 과제, 즉 온라인 및 오프라인 데이터 수집 간의 차이로 인한 **분포 이동 (distribution shift)**에 직면해 있습니다. 온라인 MARL 은 일반적으로 상호작용적 적응을 통해 단일 조정된 결합 정책으로 수렴하는 반면, 오프라인 데이터셋은 다양한 출처에서 수집된 다양한 협력 행동의 혼합물인 경우가 많습니다. 이로 인해 고도로 다중 모드 (multimodal) 인 결합 행동 분포가 발생합니다.

기존 오프라인 MARL 방법들은 일반적으로 두 가지 범주로 나뉘며, 둘 다 이러한 다중 모드성 문제를 겪고 있습니다:

가치 기반 방법: 이들은 개별 - 전역 최대화 (Individual-Global-Maximization, IGM) 와 보수적인 가치 추정에 의존합니다. 그러나 에이전트가 독립적인 $\epsilon$ -greedy 정책을 사용할 때, 데이터셋에 포함되지 않은 저품질의 분포 밖 (OOD) 결합 행동을 선택할 수 있습니다.
정책 기반 방법: 이들은 행동 정규화나 중앙 집중식 계획자를 통해 정책을 제약합니다. 일반적인 함정은 결합 행동 정책이 독립적인 주변 분포로 분해될 수 있다는 가정 ( $\mu(a|s) = \prod \mu_i(a_i|s)$ ) 입니다. 다중 모드 환경에서 이러한 독립적 분해는 "조합적 모드 이동 (Combinatorial Mode Shift, CMS)"을 초래합니다. 에이전트가 자신의 주변 분포로 정규화됨에 따라 결합 모드와의 정렬을 잃게 되어, 데이터셋의 고밀도 영역 바깥에 위치한 결합 정책이 생성됩니다. 이러한 정렬 불일치는 심각한 분포 이동과 poor 조정을 초래합니다.

2. 방법론: OMSD

저자들은 완전한 결합 정책 모델이나 중앙 집중식 계획자가 필요 없이 다중 모드 조정 문제를 해결하기 위해 **순차적 점수 분해를 통한 오프라인 MARL(Offline MARL with Sequential Score Decomposition, OMSD)**을 제안합니다.

핵심 개념: 순차적 분해

조건부 독립을 가정하는 대신, OMSD 는 연쇄 법칙을 사용하여 결합 행동 정책을 분해하며, 각 에이전트의 행동을 선행 에이전트들의 행동에 조건부로 설정합니다:
$\mu(a|s) = \prod_{i=1}^n \mu_i(a_i | s, a_{<i})$
여기서 $a_{<i}$ 는 에이전트 $i$ 에 앞서 있는 모든 에이전트들의 결합 행동을 나타냅니다. 이러한 순차적 모델링은 에이전트 간 의존성을 포착하고 각 에이전트의 정책 제약에 대한 정확한 조건부 참조를 제공합니다.

알고리즘 워크플로우

OMSD 는 중앙 집중식 훈련 - 분산 실행 (CTDE) 프레임워크 하에서 작동하며 세 가지 주요 단계로 구성됩니다:

크리틱 사전 학습: 오프라인 암시적 Q-학습 (IQL) 을 사용하여 중앙 집중식 결합 가치 함수 $Q_{tot}(s, a)$ 를 학습하여 보상 지침을 제공합니다.
점수 사전 학습: 각 에이전트 $i$ $i$ 에 대해, 오프라인 데이터셋에서 조건부 확산 모델을 훈련하여 조건부 점수 함수 $\nabla_{a_i} \log \mu_i(a_i | s, a_{<i})$ $\nabla_{a_{i}} lo g μ_{i} (a_{i} ∣ s, a_{< i})$ 를 추정합니다.
- 핵심적으로, 이러한 모델들은 병렬로 훈련됩니다.
- 점수 함수는 행동 정책의 로그 확률의 기울기를 근사하여 행동 정규화제로 작용합니다.
정책 최적화: 에이전트들은 중앙 집중식 크리틱 신호와 순차적 점수 정규화를 결합한 기울기를 사용하여 정책을 업데이트합니다:
$\nabla_{\theta_i} L_i = \mathbb{E} \left[ \nabla_{a_i} Q_{tot}(s, a) + \frac{1}{\beta} \nabla_{a_i} \log \mu_i(a_i | s, a_{<i}) \right] \nabla_{\theta_i} \pi_{\theta_i}$
- 순차적 조건부: 에이전트 $i$ 의 업데이트 동안, 접두사 행동 $a_{<i}$ 는 동일한 반복 내에서 에이전트 1 부터 $i-1$ 까지의 가장 최근에 업데이트된 정책에서 샘플링됩니다.
- 실행: 훈련 중 순차적 업데이트가 이루어지지만, 실행은 완전히 분산되어 유지됩니다. 각 에이전트는 로컬 관측에 기반하여 행동하며, 순차적 의존성은 학습 방향 (점수 정규화) 을 안내하는 데만 사용되고 런타임에서 행동을 생성하는 데는 사용되지 않습니다.
- 효율성: 이 방법은 노이즈 증폭을 피하기 위해 접두사 행동에 결정론적 DiLac 정책을 사용하며, 실행 중 반복적 탈노이즈 샘플링이 필요하지 않아 확산 기반 액터의 전형적인 높은 추론 비용을 회피합니다.

3. 주요 기여

근본 원인 규명: 이 논문은 오프라인 결합 행동 분포의 다중 모드 특성과 독립적 주변 분해 (조합적 모드 이동으로 이어짐) 의 실패를 오프라인 MARL 에서의 조정 실패의 주요 원인으로 규명합니다.
OMSD 알고리즘: 행동을 순차적으로 분해하고 확산 기반 조건부 점수를 행동 정규화제로 활용하는 새로운 프레임워크를 개발했습니다. 이 접근법은 전체 결합 정책을 모델링하거나 중앙 집중식 계획자에 의존하지 않고도 조정된 모드 선택을 촉진합니다.
최첨단 성능: 광범위한 실험을 통해 OMSD 가 기존 방법들, 특히 까다로운 다중 모드 시나리오 (예: 중간 품질 데이터셋) 에서 일관되게 더 나은 성능을 보임을 입증했습니다.

4. 실험 결과

저자들은 OMSD 를 다음과 같이 평가했습니다:

토이 밴딧 예시: 두 개의 최적 모드를 가진 2 에이전트 협력 작업. OMSD 는 결합 행동 학습 (BRPO-JAL) 과 동등한 성능을 달성했으며, OOD 결합 행동을 피하지 못한 독립 학습 (BRPO-IND) 과 단순한 CTDE 방법보다 훨씬 뛰어난 성능을 보였습니다.
다중 에이전트 입자 환경 (MPE): 협력 탐색, 포식자 - 먹이, 월드를 포함한 작업들. OMSD 는 전문가, 중간, 무작위 데이터셋 전반에 걸쳐 최고 또는 차고 성능 점수를 달성했습니다. 특히 다중 모드성이 두드러지는 "중간" 및 "무작위"데이터셋에서 OMSD 는 상당한 개선을 보였습니다 (예: 포식자 - 먹이 무작위에서 +70.6%).
MaMuJoCo: 로봇 부품을 에이전트로 하는 고차원 연속 제어 작업 (예: HalfCheetah, Ant). OMSD 는 MA-CQL, CFCQL, MADiff, DoF 와 같은 베이스라인들을 능가했으며, 특히 혼합 품질 데이터셋에서 더 강했습니다 (예: OMIGA 데이터셋에서 가장 강력한 베이스라인 대비 평균 +73.9% 개선).

애블레이션 연구:

점수 분해: OMSD 는 독립적 분해를 사용하는 변형 (BRPO-IND, BRPO-CTDE) 보다 일관되게 우월한 성능을 보여 순차적 조건부의 필요성을 확인했습니다.
순서 민감성: 이 방법은 에이전트 업데이트 순서에 대해 강건한 것으로 밝혀졌으며, 이는 순차적 구조가 경직된 귀납적 편향이 아닌 훈련 시간 조정 메커니즘으로 작용함을 시사합니다.
밀도 추정기: 확산 모델은 특히 전문가 및 중간 데이터셋에서 복잡한 다중 모드 구조를 포착하는 데 GMM, 정규화 흐름 (Normalizing Flows) 과 같은 단순한 추정기보다 우월했습니다.

5. 중요성 및 주장

이 논문은 **모달리티 인식 조정 (modality-aware coordination)**이 견고한 오프라인 MARL 에 필수적이라고 주장합니다. 순차적 점수 분해를 활용함으로써 OMSD 는 정책 업데이트를 실제 결합 행동 분포와 정렬하여 독립적 정규화로 인한 분포 이동을 성공적으로 피합니다.

저자들은 그들의 접근 방식이 다음과 같음을 강조합니다:

OOD 결합 행동 회피: 접두사 행동에 조건부로 설정함으로써, 에이전트들은 고가치인 분포 내 영역으로 안내됩니다.
분산 실행 유지: 런타임에서 중앙 집중식 계획이나 순차적 실행이 필요한 방법과 달리, OMSD 에이전트는 배포 중 독립적으로 행동합니다.
확장성: 조건부 점수 모델의 사전 학습은 에이전트 간에 완전히 병렬화 가능하므로, 더 큰 팀에 적합한 방법입니다.

이 작업은 특히 이전 정책 기반 접근 방식을 방해해 온 "조합적 모드 이동"을 해결함으로써 오프라인 다중 에이전트 데이터의 복잡성을 처리하는 데 있어 중요한 진전으로 제시됩니다. 저자들은 현재 연속 행동 공간에 초점을 맞추고 있으며 사전 훈련된 중앙 집중식 크리틱의 품질에 의존한다는 등의 한계를 인정합니다.

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition