Telogenesis: Goal Is All U Need

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"목표는 외부에서 주어질 필요가 없다. 우리 마음속의 '호기심'과 '불안'이 스스로 목표를 만들어낸다"**는 매우 흥미로운 아이디어를 제시합니다.

제목인 **'Telogenesis (텔로제네시스)'**는 그리스어로 '목적 (Telos)'과 '탄생 (Genesis)'을 합친 말로, **"목적의 자생적 탄생"**을 의미합니다.

이 복잡한 논문을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 핵심 질문: "우리가 무엇을 해야 할지 어떻게 알까?"

보통 인공지능 (AI) 이나 로봇은 "이 일을 해라", "저곳으로 가라"라는 **외부에서 주어진 명령 (목표)**을 따릅니다. 하지만 인간이나 동물은 어떨까요?
예를 들어, 낯선 숲에 들어선 사자는 "저기 이상한 소리가 나네?", "저기 오래전부터 보지 못한 나무가 있네?"라고 생각하며 스스로 탐험할 곳을 정합니다.

이 논문은 **"인공지능도 외부 명령 없이, 스스로 '무엇이 궁금한지'를 찾아내게 할 수 있을까?"**라고 묻습니다.

2. 해결책: '지식적 갭 (Epistemic Gap)'이라는 3 가지 신호

저자들은 AI 가 스스로 주의를 기울일 대상을 정하는 데 필요한 3 가지 심리적 신호를 제안했습니다. 마치 우리가 무언가를 할 때 느끼는 감정처럼요.

무지 (Ignorance) - "이거 아직 잘 모르는데?"
- 비유: 친구가 어떤 이야기를 할 때, "아, 그건 내가 전혀 모르는 부분이네"라고 느끼는 순간입니다.
- 역할: 데이터가 부족한 부분을 찾아냅니다.
놀람 (Surprise) - "어? 예상과 다르잖아?"
- 비유: "오늘은 비가 오지 않을 거야"라고 생각했는데, 갑자기 우산이 필요할 만큼 비가 쏟아지는 상황입니다.
- 역할: 내 예상이 틀렸을 때, "뭔가 바뀌었구나!"라고 깨닫게 해줍니다.
낡음 (Staleness) - "오래전부터 안 봤는데?"
- 비유: 친구가 있는데, 한 달 동안 안 본 친구를 생각하면 "혹시 그 친구도 변했을까?"라는 생각이 듭니다. 실제로 그 친구를 보지 않았을 뿐인데, 시간이 지났으니 다시 확인해야 한다는 느낌입니다.
- 역할: 이것이 이 논문의 가장 큰 혁신입니다. 아무것도 보지 않아도, "시간이 지났으니 다시 봐야겠다"라고 스스로 판단하게 합니다.

이 세 가지를 섞어서 점수를 매기고, 점수가 높은 것부터 순서대로 확인하는 방식입니다.

3. 실험 결과: "전체 점수" vs "변화 발견 속도"

이 논문은 재미있는 사실을 발견했습니다. 어떤 기준으로 평가하느냐에 따라 승자가 달라진다는 것입니다.

상황 A: "전체 점수"로 평가할 때 (전지전능한 관점)
- 모든 것을 다 볼 수 있다고 가정하면, 그냥 고정된 순서대로 (예: 1 번, 2 번, 3 번...) 돌리는 방식이 가장 좋습니다.
- 마치 모든 방을 골고루 청소하는 로봇처럼요.
상황 B: "변화 발견 속도"로 평가할 때 (실제 로봇의 관점)
- 실제로는 모든 것을 한 번에 볼 수 없습니다. 이때는 **"무엇이 변했는지 가장 빨리 찾아내는 것"**이 중요합니다.
- 결과: 고정된 순서대로 돌리는 로봇은 변한 것을 발견하는 데 시간이 오래 걸립니다. 하지만 위에서 말한 3 가지 신호 (무지, 놀람, 낡음) 를 이용하는 로봇은 변한 곳을 훨씬 빠르게 찾아냅니다.
- 비유:
  - 고정 순서 로봇: "1 번 방, 2 번 방, 3 번 방..."이라고 정해진 대로 걷다가, 1 번 방이 불타고 있어도 3 번 방을 다 보고 나서야 발견합니다.
  - 우리의 로봇: "1 번 방은 오래 안 봤으니 (낡음), 2 번 방은 소리가 이상해 (놀람)!"라고 생각하며 바로 1 번 방으로 달려가 불을 끕니다.

결론: 복잡한 세상에서는 "모두를 골고루 보는 것"보다 **"중요한 변화를 빨리 캐치하는 것"**이 훨씬 더 똑똑한 전략입니다.

4. 놀라운 발견: 스스로 배우는 '시간 감각'

마지막 실험에서는 더 놀라운 일이 일어났습니다.
연구진은 로봇에게 "어떤 물건은 자주 변하고, 어떤 물건은 잘 변하지 않아"라고 아무것도 가르쳐 주지 않았습니다.

그런데 로봇이 스스로 관찰을 반복하는 과정에서, **"자주 변하는 물건은 자주 확인해야겠다 (시간 감각을 빠르게 설정)"**는 규칙을 스스로 찾아냈습니다.

비유: 마치 아이가 장난감을 가지고 놀다가, "이 장난감은 자주 고장 나니까 자주 확인해야지, 저건 잘 안 고장 나니까 가끔 봐도 되겠지"라고 스스로 배우는 것과 같습니다.

이것은 외부에서 정답을 알려주지 않아도, 스스로의 '궁금증'과 '실수'를 통해 세상의 구조를 스스로 이해했다는 뜻입니다.

5. 요약: "목표는 너에게서 나온다"

이 논문의 결론은 매우 간단하고 강력합니다.

"인공지능이 스스로 목표를 정하고 적응하게 하려면, 외부에서 점수를 주거나 명령을 내릴 필요가 없다. 대신 '무엇을 모르는지', '무엇이 놀라운지', '오래전부터 안 본 것은 무엇인지'를 계산하게만 하면 된다."

우리가 살아가면서 "무엇을 해야 할지" 고민할 때도, 외부의 시선이나 보상보다는 내면의 호기심과 불확실성이 가장 강력한 나침반이 될 수 있다는 메시지를 주는 연구입니다.

**"Goal is All U Need (목표는 너에게서만 필요하다)"**라는 제목처럼, 진정한 적응력은 외부가 아닌 내부에서 시작됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: Telogenesis (목적의 기원)

이 논문은 인공지능 에이전트가 외부에서 제공된 목표 (Goal) 나 보상 (Reward) 없이도, 에이전트 내부의 인지 상태 (Cognitive State) 에서부터 '주의 (Attention)'의 우선순위를 자발적으로 생성할 수 있는지 탐구합니다. 저자들은 이를 Telogenesis(그리스어 telos: 목적, genesis: 기원) 라고 명명하며, 외부 보상이 아닌 인지적 격차 (Epistemic Gaps) 만으로 적응적인 목표 형성 메커니즘이 작동함을 증명합니다.

1. 문제 제기 (Problem Statement)

기존 한계: 기존의 목표 조건부 강화학습 (Goal-conditioned RL) 은 에이전트가 달성해야 할 목표를 외부에서 명시적으로 제공받아야 합니다. 그러나 생물학적 유기체는 외부 보상 함수 없이도 호기심, 불확실성, 예측 오류 등을 통해 스스로 탐색 목표를 생성합니다.
핵심 질문: 외부 보상이나 명시적 목표 없이, 에이전트의 내부 세계 모델 (World Model) 에 존재하는 '지식 부족' 상태만으로 적응적인 주의 할당 (Attention Allocation) 과 목표 생성이 가능한가?
평가 지표의 함정: 기존 연구들은 종종 '전체 상태 변수에 대한 예측 오차 (Global Prediction Error)'를 최적화하는 것을 성공 기준으로 삼습니다. 그러나 부분 관측 가능 환경 (Partially Observable Environment) 에서 에이전트는 관측하지 않은 변수의 오차를 알 수 없으므로, 이 지표는 에이전트의 실제 적응 능력을 왜곡할 수 있습니다.

2. 방법론 (Methodology)

저자는 우선순위 함수 (Priority Function, $\pi_i(t)$ ) 를 제안하여 세 가지 유형의 인지적 격차를 통합한 단일 스칼라 점수로 변환합니다. 에이전트는 이 점수를 기반으로 Softmax 경쟁을 통해 관측할 대상을 선택합니다.

우선순위 함수 구성 요소

$\pi_i(t) = w_1 \tilde{\sigma}^2_i(t) + w_2 \tilde{S}_i(t) + w_3 (1 - e^{-\lambda \Delta t_i})$

무지 (Ignorance, $\tilde{\sigma}^2_i$ ): 사후 분산 (Posterior Variance). 데이터가 부족할 때 높아지며, 관측이 증가하면 감소합니다.
놀람 (Surprise, $\tilde{S}_i$ ): 예측 오차 (Prediction Error). 관측값이 기대값과 다를 때 급증하여 모델 불일치를 신호합니다.
낡음 (Staleness, $1 - e^{-\lambda \Delta t_i}$): 핵심 혁신 요소. 마지막 관측 이후 경과된 시간의 함수입니다. 관측되지 않은 변수에 대한 신뢰도가 시간이 지남에 따라 감소한다는 가정 하에, 아직 관측되지 않은 변수에게도 우선순위를 부여합니다. 이는 외부 피드백 없이도 시간적 추론만으로 목표 생성이 가능하게 합니다.

실험 설계

실험 1 (최소 시스템): $N=6$ 개의 스칼라 변수, 비대칭 관측 노이즈, 주기적 환경 변화 (Regime Switch). 2,000 회 몬테카를로 시뮬레이션.
실험 2 (Liminal 환경): $N=16$ 개의 변수, 4 개의 모듈로 구성된 복잡한 부분 관측 환경. 모듈 간 동역학 차이 및 상호 연결성 존재. 500 회 시뮬레이션.
실험 3 (구조 학습): 각 변수별 감쇠율 ( $\lambda_i$ ) 을 학습 가능하게 설정. 환경의 변동성 (Volatility) 구조를 외부 지도 없이 스스로 발견하는지 확인.

3. 주요 결과 (Key Results)

A. 평가 지표에 따른 전략 우위의 반전 (Metric-Dependent Reversal)

전체 예측 오차 (Global Prediction Error) 기준: 무작위 (Random) 나 회전식 (Rotation) 전략이 우선순위 기반 전략보다 성능이 좋거나 비슷했습니다. 이는 전체 상태를 완벽하게 알 수 있는 전지적 관점 (Omniscient view) 을 가정할 때, 고르게 관측하는 것이 유리하기 때문입니다.
변화 탐지 지연 (Change Detection Latency) 기준: 우선순위 기반 전략이 회전식 전략을 압도적으로 능가했습니다.
- 환경 복잡도 ( $N$ ) 가 증가할수록 회전식 전략의 탐지 지연은 선형적으로 증가하는 반면, 우선순위 전략은 약 4 틱 (tick) 으로 일정하게 유지되었습니다.
- $N=48$ 일 때, 우선순위 전략의 우위는 Cohen's $d = -0.95$ ( $p < 10^{-6}$ ) 로 통계적으로 유의미했습니다.
- 결론: 부분 관측 환경에서 에이전트의 적응 능력을 측정하는 올바른 지표는 '전체 오차 최소화'가 아니라 '환경 변화 탐지 속도'입니다.

B. 주의 예산 (Attention Budget) 과 탐지 속도의 멱법칙 (Power Law)

관측 예산 ( $b$ $b$ ) 을 늘렸을 때, 탐지 지연 ( $L$ $L$ ) 은 다음과 같은 멱법칙을 따릅니다.
- 우선순위 전략: $L \propto b^{-0.55}$
- 회전식 전략: $L \propto b^{-0.40}$
우선순위 전략은 추가적인 관측 자원에 대해 더 큰 한계 편익 (Marginal Benefit) 을 제공합니다. 이는 추가 관측이 고정된 주기가 아닌, '가장 변화 가능성이 높은 목표'로 지향되기 때문입니다.

C. 비지도 환경 구조 학습 (Experiment 3)

각 변수별 감쇠율 $\lambda_i$ 를 학습 가능하게 설정했을 때, 시스템은 외부 레이블이나 보상 없이도 환경의 변동성 구조를 자발적으로 복원했습니다.
결과: 고변동성 (High-volatility) 변수들은 $\bar{\lambda}_{high} \approx 0.289$ 로, 저변동성 변수들은 $\bar{\lambda}_{low} \approx 0.202$ 로 수렴했습니다 ( $t=22.5, p < 10^{-6}$ ).
이는 시스템이 자신의 '인지적 격차'를 통해 "어디에서 변화가 일어나는가"를 스스로 학습했음을 의미합니다.

4. 핵심 기여 (Contributions)

Telogenesis 프레임워크: 무지 (Ignorance), 놀람 (Surprise), 낡음 (Staleness) 을 통합한 우선순위 함수를 제안하여, 외부 보상 없이도 적응적 주의 할당을 가능하게 함.
평가 지표의 재정의: 부분 관측 환경에서 '전체 예측 오차'는 부적절하며, '변화 탐지 지연'이 에이전트의 적응 능력을 평가하는 올바른 지표임을 증명.
성분 제거 실험 (Ablation): 세 가지 구성 요소 (특히 Staleness) 가 모두 필요함을 입증. Staleness 가 없으면 관측되지 않은 변수에 대한 신호가 사라져 전략이 붕괴됨.
자발적 구조 발견: 학습 가능한 감쇠율을 통해 외부 지도 없이 환경의 잠재적 변동성 구조를 복원하는 메커니즘을 제시.

5. 의의 및 결론 (Significance & Conclusion)

목표의 기원: 이 연구는 "목표 (Goal)"가 외부에서 주어지는 것이 아니라, 에이전트 내부의 인지적 격차 (Epistemic Gaps) 에서 자발적으로 생성될 수 있음을 보여줍니다.
인지 아키텍처: 주의 우선순위 생성은 세계 모델과 정책 (Policy) 사이의 독립적인 계산 계층으로 작용할 수 있으며, 이는 더 일반적인 자율 에이전트의 목표 형성 메커니즘으로 확장될 수 있습니다.
자원 효율성: 제한된 주의 자원을 가진 에이전트에게 중요한 것은 자원의 양이 아니라, 구조화된 할당 (Structured Allocation) 입니다.
최종 메시지: "Goal Is All U Need"라는 제목은 외부 보상이나 복잡한 목표 설정 없이도, 에이전트가 자신의 인지 상태를 통해 적응적인 행동을 조직화할 수 있음을 역설합니다.

이 논문은 강화학습과 인지 과학의 교차점에서, 외부 보상 없이도 에이전트가 스스로 학습하고 적응할 수 있는 이론적, 실증적 토대를 마련했다는 점에서 중요한 의의를 가집니다.