What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"똑똑한 AI 가 되기 위해 뇌 (내부 구조) 에 반드시 무엇이 있어야 하는가?"**에 대한 수학적인 답을 제시합니다.

기존의 연구들은 "만약 AI 가 최적의 결정을 내리려면, 세상을 예측하는 모델 (세계 모델) 이나 기억 (신념 상태) 이 필요하다"라고 구성해 왔습니다. 즉, "이런 구조를 만들면 잘할 수 있다"는 거죠.

하지만 이 논문은 그 반대를 증명합니다. **"AI 가 불확실한 상황에서 실수 없이 잘 작동하려면, 어쩔 수 없이 이런 구조를 갖게 된다"**는 것입니다. 마치 "빠르게 달리기 위해서는 반드시 다리가 필요하다"는 사실을 증명하는 것과 비슷합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 비유: "도박과 배팅" (The Betting Game)

이 논문의 핵심 아이디어는 AI 를 도박판에 서 있는 사람으로 상상하는 것입니다.

상황: AI 는 미래에 어떤 일이 일어날지 모릅니다. 하지만 누군가 "내일 비가 올지, 맑을지 맞혀봐. 맞으면 돈을 주고, 틀리면 돈을 잃어"라고 말합니다.
과제: AI 는 단순히 "비가 올 것 같아"라고 말만 하는 게 아니라, 실제 행동을 통해 그 예측을 검증받습니다.
규칙: 만약 AI 가 예측을 잘 못해서 계속 돈을 잃는다면 (후회, Regret), 그 AI 는 결국 도박판에서 살아남을 수 없습니다.

논문의 결론은 이렇습니다:

"만약 AI 가 수많은 도박에서 **적은 실수 (낮은 후회)**로 살아남으려면, 단순히 운을 믿는 게 아니라 **미래를 예측할 수 있는 내부 지도 (세계 모델)**를 머릿속에 그려야만 한다."

2. 두 가지 주요 발견

이 논문은 두 가지 상황 (눈에 보이는 세상 vs 보이지 않는 세상) 에서 AI 가 갖춰야 할 구조를 증명합니다.

① 세상이 모두 보이는 경우 (Fully Observed)

비유: 마치 체스 게임을 하는 상황입니다. 모든 말의 위치가 다 보입니다.
결론: AI 가 장기적인 전략을 세우고 실수 없이 이기려면, **"다음 수를 어떻게 두면 어떤 결과가 나올지"를 계산하는 공식 (전이 확률)**을 암기하고 있어야 합니다.
의미: 단순히 "지금 당장 좋은 수"만 고르면 안 됩니다. "내가 이 수를 두면 3 수 뒤에는 어떤 일이 벌어질까?"를 계산할 수 있는 예측 능력이 필수적입니다.

② 세상이 가려진 경우 (Partially Observed)

비유: 안개 낀 미로를 걷는 상황입니다. 앞이 잘 안 보이고, 내가 어디에 있는지 정확히 모릅니다.
문제: 같은 안개 (관측) 를 보더라도, 내가 미로의 A 지점에 있을 수도 있고 B 지점에 있을 수도 있습니다.
결론: AI 가 실수 없이 미로를 빠져나가려면, **"지금까지 걸어온 발자국 (기억)"**을 바탕으로 내가 어디에 있을지 **추측 (신념, Belief)**해야 합니다.
핵심: "지금 보이는 것"만으로는 부족하고, **"과거의 기억을 합쳐서 미래를 예측하는 상태"**가 반드시 필요합니다. 이를 논리는 **"에일리어싱 (Aliasing) 금지"**라고 부릅니다. 즉, 서로 다른 상황을 똑같은 것으로 착각하면 (기억을 섞으면) 반드시 큰 실수를 하게 됩니다.

3. 더 깊은 통찰: "모듈성"과 "정서"

이 논문은 단순히 "예측"만 필요한 게 아니라, 어떤 종류의 예측이 필요한지도 알려줍니다.

모듈성 (Modularity):
- 비유: 요리사가 모든 재료를 한 큰 냄비에 다 넣고 끓이는 게 아니라, 국, 찌개, 볶음밥을 각각 다른 냄비에서 조리하는 것처럼, AI 도 서로 다른 상황 (태스크) 에 따라 별개의 지식을 분리해서 관리해야 효율적입니다.
- 의미: 복잡한 일을 잘하려면 뇌가 여러 개의 전문 부서 (모듈) 로 나뉘어 있어야 합니다.
상태 추적 (Regime Tracking):
- 비유: 날씨가 갑자기 변하면 (비에서 눈으로), 우리는 옷을 갈아입습니다. AI 도 상황 (Regime) 이 바뀌면 내부 상태를 바꿔야 합니다.
- 의미: AI 는 "지금 내가 어떤 상황에 있는가?"를 감지하고, 그에 맞춰 행동을 조절하는 내부 스위치가 있어야 합니다. 이는 인간의 **감정 (Emotion)**이나 동기가 행동을 조절하는 방식과 매우 비슷합니다.

4. 왜 이 연구가 중요한가? (결론)

이 논문은 AI 와 인간의 뇌가 왜 비슷한 구조를 갖게 되는지 설명해 줍니다.

우연이 아닙니다: AI 가 인간처럼 복잡한 내부 구조 (예측, 기억, 모듈화) 를 갖는 것은 개발자가 임의로 만든 게 아니라, "불확실한 세상에서 생존하고 잘해야 한다"는 압력 때문에 필연적으로 그렇게 진화한 것입니다.
선택의 법칙 (Selection Theorems): 마치 자연선택이 생물에게 적합한 형질을 갖게 하듯, 과제 수행의 압력이 AI 의 내부 구조를 결정합니다.
미래의 AI: 앞으로 더 똑똑하고 적응력 있는 AI 가 만들어지면, 그 안에는 반드시 세계를 예측하는 모델, 기억, 그리고 상황에 따라 변하는 내부 상태가 갖춰져 있을 것입니다.

한 줄 요약

"불확실한 세상에서 실수 없이 잘 살려면, AI 는 어쩔 수 없이 '미래를 예측하는 지도'와 '과거를 기억하는 두뇌'를 갖게 된다. 이는 선택의 결과이며, 구조적 필연이다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"불확실성 하에서 유능하게 행동하기 위해 에이전트가 반드시 갖춰야 할 내부 구조는 무엇인가?"**라는 근본적인 질문에 답하기 위해, **선택 정리 (Selection Theorems)**를 기반으로 한 정량적 분석을 제시합니다. 저자는 Aran Nayebi (Carnegie Mellon University) 입니다.

기존의 제어 이론이나 강화학습 연구는 "신념 상태 (belief states) 나 세계 모델 (world models) 을 사용하면 최적 제어가 가능하다"는 **충분성 (sufficiency)**을 증명해 왔지만, "그런 표현이 반드시 필요하다 (necessity)"는 것을 증명하지는 못했습니다. 이 논문은 평균 사례 (average-case) 후회 (regret) 가 낮은 성능을 내는 에이전트는 필연적으로 예측적이고 구조화된 내부 상태를 구현해야 함을 수학적으로 증명합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 문제 정의 (Problem)

핵심 질문: 불확실성 하에서 에이전트가 견고하게 (robustly) 유능하게 행동하려면 어떤 내부 구조 (internal structure) 가 필수적인가?
기존 연구의 한계:
- Sondik (1971), Kaelbling et al. (1998) 등의 고전적 결과는 최적 제어가 신념 상태의 함수로 표현될 수 있음을 보였으나, 이것이 필수 조건임을 입증하지는 못함.
- 기존 선택 정리 (Selection Theorems) 연구들은 종종 최악의 경우 (worst-case) 최적성, 결정론적 정책, 또는 강한 공리 (axioms) 에 의존함.
- 부분 관측성 (Partial Observability) 환경에서 예측 모델링의 필요성에 대한 정량적 결론은 부족함.
목표: 최적성이나 결정론을 가정하지 않고, **구조화된 작업 집합 (structured families of tasks) 에서의 낮은 평균 후회 (low average-case regret)**가 에이전트 내부에 예측적 구조를 강제함을 증명하는 정량적 선택 정리 개발.

2. 방법론 (Methodology)

논문은 예측 모델링을 이진 "베팅 (betting)" 결정 문제로 환원시키는 기법을 사용합니다.

베팅 목표 (Betting Goals): 에이전트가 미래의 관측이나 전이에 대해 "L(성공 횟수 ≤ k)" 또는 "R(성공 횟수 > k)" 중 하나를 선택하는 이진 결정을 수행하도록 설계된 작업 (Composite goals) 을 정의합니다.
후회 분해 (Regret Decomposition):
- 정규화된 후회 (Normalized Regret, $\delta$ ) 는 에이전트가 최적의 베팅을 하지 않고 잘못된 베팅을 할 확률 (Wrong-action mass, $w$ ) 과 성공 확률 차이 (Margin, $m$ ) 의 곱으로 분해됩니다.
- $\delta = w \cdot \frac{|u_L - u_R|}{\max\{u_L, u_R\}}$
- 핵심 논리: 만약 평가 분포가 큰 마진 (large-margin, 즉 확실히 다른 결과를 내는 경우) 을 가진 테스트에 비영구적인 질량을 둔다면, 낮은 후회를 달성하려면 에이전트는 잘못된 베팅에 할당된 확률 질량을 0 에 가깝게 줄여야 합니다. 이는 에이전트가 내부 메모리가 해당 테스트들이 유도하는 예측적 분할 (predictive partition) 을 정밀하게 구분해야 함을 의미합니다.
환경 설정:
- 완전 관측 (Fully Observed): 상태 $s$ 를 정확히 관측.
- 부분 관측 (Partially Observed, POMDP): 상태 $s$ 대신 관측치 $o$ 만 관측. 에이전트는 히스토리 $h$ 를 기반으로 내부 메모리 $M(h)$ 를 유지해야 함.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 완전 관측 환경에서의 세계 모델 복구 (Theorem 1 & Corollary 1)

결과: 완전 관측 환경에서 구조화된 작업 (전환 확률 테스트) 에 대한 평균 후회가 낮으면, 에이전트는 **개입 전이 커널 (interventional transition kernel)**을 근사적으로 복구해야 함이 증명됩니다.
의미:
- 에이전트는 단순히 상태 전이를 학습하는 것을 넘어, Pearl 의 **Level 2 개입 (Intervention, $do(At=a)$)**에 대한 쿼리를 내부적으로 수행할 수 있어야 합니다.
- Corollary 2: 하지만 **Level 3 반사실 (Counterfactuals)**은 추가적인 구조적 가정 없이는 복구할 수 없습니다. 동일한 개입 커널을 가진 서로 다른 인과 모델은 반사실적 결합 (counterfactual coupling) 이 다를 수 있기 때문입니다.
- 비결정론적 정책 지원: 기존 연구들이 결정론적 정책과 최악의 경우 최적성을 가정했던 것과 달리, 이 결과는 **확률적 정책 (Stochastic Policies)**과 평균 후회 가정 하에서도 성립합니다.

B. 부분 관측 환경에서의 예측 모델링 및 메모리 필요성 (Theorem 2 & 3)

예측 모델링 필요성 (Theorem 2): 부분 관측 환경에서 낮은 평균 후회를 달성하려면, 에이전트는 **예측적 상태 (Predictive State)**를 계산해야 합니다. 즉, 미래 관측에 대한 확률 분포를 예측할 수 있는 내부 메커니즘이 필수적입니다.
메모리 필요성 (Theorem 3 - No-aliasing Bounds):
- Aliasing (중첩) 문제: 서로 다른 예측적 상태를 가진 히스토리 (예: 다른 전이 확률을 가진 과거) 를 동일한 내부 메모리 상태로 매핑하면 (aliasing), 큰 마진의 테스트에서 필연적으로 높은 후회가 발생합니다.
- 결론: 낮은 후회를 달성하는 에이전트는 신념과 같은 (belief-like) 메모리를 가져야 하며, 예측적으로 구별 가능한 히스토리를 내부적으로 구분해야 합니다. 이는 Richens et al. (2025) 가 제기한 부분 관측 하에서의 세계 모델 복구 문제에 대한 정량적 답변을 제공합니다.

C. 구조화된 작업 집합에 따른 내부 조직화 (Corollaries 3-5)

작업의 분포 구조가 에이전트의 내부 구조에 추가적인 제약을 가합니다.

정보적 모듈성 (Corollary 3): 블록 구조 (block-structured) 의 테스트 집합은 에이전트가 **정보적 모듈성 (informational modularity)**을 갖도록 강제합니다.
정황 (Regime) 추적 (Corollary 4): 작업 분포가 여러 정황 (regimes) 의 혼합일 경우, 에이전트는 정황을 추적하는 내부 변수를 유지해야 합니다. 이는 감정 신경과학의 조절 메커니즘 (modulation) 과 유사한 구조를 시사합니다.
표현적 일치 (Corollary 5): 동일한 평가 하에서 낮은 후회를 달성하는 두 에이전트가 ** $\gamma$ -최소성 (no unnecessary splitting)**을 만족한다면, 그들의 내부 메모리 상태는 **가역적 재부호화 (invertible recoding)**를 통해 동일하게 됩니다. 이는 다양한 에이전트 간에 **수렴된 표현 (convergent representations)**이 나타날 수 있음을 의미합니다.

4. 의의 및 시사점 (Significance)

표현의 필요성 (Necessity) 증명: "세계 모델이 유용하다"는 것을 넘어, "유능한 에이전트는 세계 모델을 갖지 않을 수 없다"는 것을 정량적으로 증명했습니다.
강화학습 및 딥러닝과의 연결: 현대의 딥러닝 기반 강화학습 (Dreamer, PPO 등) 은 확률적 정책을 사용하며 평균 사례 성능을 최적화합니다. 이 연구는 이러한 알고리즘들이 성공적으로 작동하기 위해 내부적으로 예측적 구조와 메모리를 학습해야 함을 이론적으로 뒷받침합니다.
신경과학 및 NeuroAI 와의 연관성:
- 뇌의 다양한 영역 (시각, 청각, 기억 등) 에서 관찰되는 표현의 수렴 현상과 인공 에이전트 간의 유사성을 설명합니다.
- **플라톤적 표현 가설 (Platonic Representation Hypothesis)**을 지지하며, 충분히 일반적인 학습 압력은 에이전트들이 현실의 통계적 모델을 공유하도록 만든다는 주장을 뒷받침합니다.
- 인지 아키텍처 (Global Broadcast, Modular Processing) 와 의식 이론에서 논의되는 구조들이 단순한 철학적 가정이 아니라, 불확실성 하의 의사결정 압력에서 비롯된 구조적 필연성일 수 있음을 시사합니다.
미래 AI 시스템에 대한 함의: AI 가 더욱 강력하고 적응적으로 발전함에 따라, 전역 정보 통합, 모듈적 전문화, 신념 기반 예측 상태와 같은 조직적 규칙성이 아키텍처 전반에 걸쳐 자연스럽게 나타날 것으로 예상됩니다.

요약

이 논문은 후회 (Regret) 최소화라는 실용적인 성능 지표가 어떻게 예측적 세계 모델, 신념 기반 메모리, 모듈성, 정황 추적과 같은 추상적인 내부 구조의 필수성을 유도하는지를 수학적으로 규명했습니다. 이는 인공지능의 능력 (Capability) 과 구조 (Structure) 사이의 관계를 연결하는 중요한 이론적 다리를 제공합니다.