Probabilistic Dreaming for World Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 어떻게 더 똑똑하게 상상할 수 있을까?"**에 대한 흥미로운 실험 결과입니다.

기존의 AI(특히 'Dreamer'라는 모델) 는 현실에서 경험을 쌓는 것뿐만 아니라, 머릿속으로 **상상 (꿈)**을 통해 학습합니다. 마치 우리가 자는 동안 꿈을 꾸며 다음 날을 대비하듯, AI 도 가상의 상황을 그려보며 실수를 반복하지 않고 빠르게 배우는 거죠.

하지만 이 논문은 기존 AI 의 상상 방식에 약간의 결함이 있다고 지적하며, 이를 해결하기 위해 **'확률적 상상 (Probabilistic Dreaming)'**이라는 새로운 방식을 제안합니다.

🧐 기존 AI 의 문제점: "회색빛 평균의 함정"

기존 AI 는 미래를 상상할 때, 단 하나의 시나리오만 그리곤 했습니다.
예를 들어, 사냥꾼이 "왼쪽으로 쫓아갈까?" 아니면 "오른쪽으로 기다릴까?"라는 두 가지 선택지가 있을 때, 기존 AI 는 머릿속에서 **"그럼 중간 어딘가에 있겠지?"**라고 생각하며 회색빛 평균을 그립니다.

비유: 길을 가다가 왼쪽으로 도망칠지, 오른쪽으로 도망칠지 고민할 때, AI 는 "그럼 정중앙으로 도망치자"라고 결정하는 꼴입니다. 하지만 정중앙에는 벽이 있거나 사냥꾼이 기다리고 있을 수 있어, 이는 불가능한 시나리오가 됩니다.

💡 이 논문이 제안한 해결책: "다양한 꿈을 꾼다"

저자는 AI 가 여러 개의 시나리오를 동시에 상상하게 만들었습니다. 이를 위해 세 가지 핵심 아이디어를 사용했습니다.

1. 파티클 필터 (Particle Filter): "여러 개의 나"를 상상하다

AI 가 머릿속에서 **여러 개의 '나' (입자, Particle)**를 만들어냅니다.

비유: 사냥꾼이 왼쪽으로 올지 오른쪽으로 올지 모를 때, AI 는 **"왼쪽으로 도망치는 나 (입자 A)"**와 **"오른쪽으로 도망치는 나 (입자 B)"**를 동시에 상상합니다.
이렇게 하면 AI 는 "중간"이라는 불가능한 길을 선택하는 대신, 실제 가능한 두 가지 미래를 모두 준비할 수 있게 됩니다.

2. 레이저 빔 탐색 (Latent Beam Search): " branching tree"

각각의 '나'가 상상하는 미래가 갈라지는 가지 (Branch) 를 더 많이 만들어냅니다.

비유: 나무가 가지치기를 하듯, 각 시나리오가 여러 가지 행동으로 뻗어나가게 합니다. "왼쪽으로 도망친다면, 그다음엔 뛰어넘을까, 숨을까?"를 모두 미리 계산해 보는 것입니다.

3. 자유 에너지 최소화: "가장 유망한 꿈만 고르기"

무작정 모든 상상을 다 할 수는 없으니, 가장 유망한 꿈만 남깁니다.

비유: 수많은 꿈 중에서 **"보상이 가장 크고, 내가 아직 모르는 새로운 것 (호기심) 을 발견할 가능성이 높은 꿈"**을 선택해 실제 행동으로 연결합니다.

🏆 실험 결과: 무엇이 달라졌을까?

이 실험은 '사냥꾼과 도망자' 게임에서 진행되었습니다. 사냥꾼은 임의로 전략을 바꾸기 때문에, AI 는 예측이 매우 어려웠습니다.

기존 AI (Dreamer): 사냥꾼의 전략이 바뀌면 잠시 멍해지거나 (Freeze), 불가능한 중간 길을 선택해 잡힙니다.
새로운 AI (ProbDreamer):
- 성능 향상: 점수가 약 4.5% 향상되었습니다.
- 안정성: 실수가 훨씬 줄어들어, 게임 결과의 변동성 (변덕) 이 28% 감소했습니다.
- 핵심 발견: 사냥꾼이 '추격'과 '매복' 두 가지 전략만 쓴다면, AI 가 **단 2 개의 입자 (나)**만 만들어도 완벽하게 대응할 수 있었습니다.

⚠️ 하지만 아직 넘어야 할 산이 있습니다

논문은 성공적인 결과뿐만 아니라, 어려운 점도 솔직하게 털어놓았습니다.

입자 (나) 가 너무 많으면 안 된다: 사냥꾼이 2 가지 전략만 쓴다면 2 개의 입자가 최고였지만, 입자를 너무 많이 만들면 오히려 소음 (Noise) 에 휩쓸려 성능이 떨어졌습니다. 환경이 복잡해질수록 입자 수를 어떻게 조절할지가 관건입니다.
꿈을 현실로 검증할 수 없다: AI 가 상상하는 동안은 실제 사냥꾼의 움직임을 볼 수 없습니다. 그래서 AI 가 **"가장 좋은 꿈"**을 고르려다, **실제론 불가능한 '환상 (Hallucination)'**을 너무 믿어버리는 경우가 있었습니다. 마치 "내가 이길 거야!"라고 믿고 무모한 도박을 하는 것과 비슷합니다.

🚀 결론: AI 의 상상력을 키우다

이 논문은 **"AI 가 단 하나의 미래만 상상하는 대신, 여러 가지 가능성을 동시에 품고 있어야 더 똑똑해진다"**는 것을 증명했습니다.

이는 마치 우리가 미래를 계획할 때, "A 라는 길이 좋겠지"라고 단정 짓는 대신, **"A 라면 이렇게 되고, B 라면 저렇게 되겠지"**라고 여러 시나리오를 준비하는 것과 같습니다.

이 기술이 더 발전하면, AI 는 불확실한 세상에서도 더 유연하고 창의적으로 문제를 해결할 수 있게 될 것입니다. 특히 인간의 호기심과 학습 방식을 모방하는 '지능형 AI'를 만드는 데 중요한 한 걸음이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 강화학습 (RL) 에서 '꿈꾸기 (Dreaming)'는 에이전트가 실제 환경과 상호작용하는 대신, 학습된 세계 모델 (World Model) 을 통해 상상된 미래 경로를 학습하는 방식입니다. 특히 Hafner et al. 의 Dreamer 시리즈는 이 방식을 통해 다양한 도메인에서 최첨단 성능을 달성했습니다.
문제점:
1. 단일 시뮬레이션의 한계: 기존 Dreamer 는 잠재 상태 (latent state) 의 전체 분포를 학습함에도 불구하고, 각 시간 단계에서 단 하나의 상태만 샘플링하여 단일 상상 경로를 생성합니다. 이는 학습 중 에이전트가 가능한 모든 원인과 시나리오를 탐색하는 능력을 제한할 수 있습니다.
2. 다중 모드 (Multimodality) 와 가우시안 편향: 최근 Dreamer(v3/v4) 는 다중 모달리티를 처리하기 위해 이산적 (discrete) 인 잠재 변수를 도입했으나, 연속적인 가우시안 잠재 변수는 더 부드러운 기울기 (gradient) 와 밀집된 표현력을 제공합니다. 그러나 표준 단모달 (unimodal) 가우시안은 상호 배타적인 미래 (예: '왼쪽'과 '오른쪽' 경로) 가 존재할 때, 이를 평균화하여 존재하지 않는 '중간' 경로로 편향되는 문제가 발생합니다.

2. 제안 방법론 (Methodology)

저자는 Dreamer 의 잠재적 상상 (latent imagination) 프로세스를 개선하기 위해 확률적 방법 (Probabilistic Methods) 을 통합한 ProbDreamer를 제안합니다. 주요 세 가지 혁신은 다음과 같습니다.

가. 파티클 필터 (Particle Filter) 를 통한 다중 가설 유지

기존: 단일 잠재 상태 샘플링.
개선: 각 시간 단계에서 $K$ 개의 파티클 $\{h^k_t, z^k_t\}$ 을 유지하여 잠재 분포를 표현합니다.
효과: 각 파티클은 서로 다른 미래 가설 (예: 포식자의 '추격' 전략과 '요격' 전략) 을 독립적으로 추적할 수 있게 하여, 가우시안 평균화 문제를 해결하고 연속적 잠재 변수의 이점을 유지하면서도 다중 모달 분포를 근사합니다.

나. 잠재 빔 서치 (Latent Beam Search)

기존: 단일 경로 확장.
개선: 각 파티클을 정책 $\pi_\theta$ 에서 샘플링된 $N$ 개의 후보 행동으로 명시적으로 분기 (branching) 시킵니다.
효과: $K \times N$ 개의 분기를 생성하여 각 파티클이 시간 단계당 여러 행동으로 확장되도록 하여, 더 넓은 행동 공간을 탐색합니다.

다. 자유 에너지 (Free Energy) 최소화를 통한 가지치기

문제: 상상 과정에서는 실제 관측치가 없으므로, 기존 MLE(최대우도추정) 기반 가지치기가 불가능합니다.
해결: 예측된 보상과 세계 모델의 인지적 불확실성 (Epistemic Uncertainty) 을 결합하여 경로를 평가합니다.
- 점수 함수: $F^k_t = V_\phi(h^k_t, z^k_t) + \beta \cdot \sigma^2_{ens}$ $F_{t}^{k} = V_{ϕ} (h_{t}^{k}, z_{t}^{k}) + β \cdot σ_{e n s}^{2}$
  - $V_\phi$ : 크리틱 (Critic) 이 예측한 보상.
  - $\sigma^2_{ens}$ : 앙상블 사전 모델 간의 불일치 (분산) 를 통한 불확실성 추정.
- 목적: 고보상 경로 (Exploitation) 와 높은 불확실성을 가진 새로운 상황 (Exploration) 사이의 균형을 맞추며, 자유 에너지를 최소화합니다.

3. 실험 설정 및 결과 (Experiments & Results)

환경: MPE SimpleTag (다중 에이전트 환경). 에이전트는 3 마리의 포식자를 피해야 하며, 포식자는 '추격 (Chase)'과 '요격 (Intercept)' 전략을 확률적으로 전환하는 이중 모드 (Bimodal) 특성을 가집니다.
비교 모델:
- BaseDreamer: 기존 Dreamer-v3 아키텍처 (가우시안 잠재 변수로 수정).
- ProbDreamer Lite: 파티클 필터만 적용 ( $K=2,4$ , 빔 서치 없음).
- ProbDreamer Full: 파티클 필터 + 빔 서치 + 자유 에너지 가지치기 적용.

주요 결과:

성능 및 강건성 향상:
- ProbDreamer Lite ( $K=2$ ) 가 베이스라인 (BaseDreamer) 대비 평균 4.5% 점수 향상을 보였습니다.
- 에피소드 반환값의 분산이 28% 감소하여 더 강건한 정책을 학습함을 입증했습니다.
- 원인 분석: 포식자의 두 가지 전략 (추격/요격) 을 각각 다른 파티클이 성공적으로 모델링하여, 에이전트가 전략 변경에 빠르게 반응하게 되었습니다. 반면, 베이스라인은 가우시안 편향으로 인해 두 전략을 평균화하여 에이전트가 일시적으로 마비되는 현상이 관찰되었습니다.
한계 및 실패 요인:
- Full 모델의 성능 저하: 파티클 수 ( $K$ ) 증가와 빔 서치 ( $N$ ) 도입 시 성능이 급격히 떨어졌습니다.
- 원인:
  - 파티클 포화 (Saturation): 환경이 2 가지 전략만 가지므로 $K=2$ 가 최적이며, 그 이상은 노이즈에 과적합됩니다.
  - 비효율적인 가지치기: 초기 학습 단계에서 크리틱의 노이즈로 인해 비현실적인 경로를 높은 가치로 잘못 평가하여, 모델이 잘못된 '꿈'을 학습하게 됩니다.
  - 앙상블 붕괴 (Ensemble Collapse): 불확실성 추정을 위한 앙상블 모델들이 빠르게 유사한 예측으로 수렴하여, 탐색 (Exploration) 을 유도하는 '호기심 (Curiosity)' 항이 무효화되었습니다.

4. 주요 기여 (Key Contributions)

연속적 잠재 변수와 다중 모달리티의 조화: 가우시안 잠재 변수의 부드러운 기울기 특성을 유지하면서, 파티클 필터를 통해 상호 배타적인 미래 가설을 동시에 유지하는 방법을 제시했습니다.
병렬 잠재 롤아웃 (Parallel Latent Roll-outs): 단일 시뮬레이션이 아닌, 파티클 기반의 병렬 상상 과정을 통해 에이전트가 인과 관계의 전체 범위를 탐색할 수 있도록 했습니다.
세계 모델의 불확실성 처리에 대한 통찰: 자유 에너지 기반 가지치기의 한계 (노이즈 있는 가치 함수와 앙상블 붕괴) 를 규명하고, 향후 연구 방향 (불확실성 추정 방법 개선 등) 을 제시했습니다.

5. 의의 및 결론 (Significance)

이 연구는 모델 기반 강화학습 (Model-based RL) 에서 확률적 방법이 어떻게 에이전트의 학습 효율성과 강건성을 높일 수 있는지 입증했습니다. 특히, 단순한 평균화 문제를 해결하고 에이전트가 불확실한 환경에서 유연하게 대응할 수 있는 능력을 부여한다는 점에서 의미가 큽니다.

동시에, 부분 관측 환경 (Partially Observable Environments) 과 혼돈적인 환경에서의 확장성, 그리고 진정한 인지적 불확실성 (Epistemic Uncertainty) 을 효과적으로 포착하는 아키텍처 개발의 필요성을 강조합니다. 이는 인간과 유사한 호기심 기반의 능동적 학습을 구현하기 위한 중요한 발걸음으로 평가됩니다.