Active Causal Structure Learning with Latent Variables: Towards Learning to Detour in Autonomous Robots

Each language version is independently generated for its own context, not a direct translation.

🤖 핵심 이야기: 로봇의 '깜짝 놀람'과 '새로운 지도 그리기'

이 논문의 주인공은 자율 주행 로봇입니다. 이 로봇은 원래 "벽이 없는 평평한 길"에서 목표 지점까지 직진하는 법을 배웠습니다. 하지만 갑자기 **투명하지만 통과할 수 없는 울타리 (장벽)**가 길가에 생겼습니다. 로봇은 이 장벽을 처음 보았고, 계속 직진하다가 장벽에 부딪히게 됩니다.

이때 로봇은 단순히 "아, 멈춰야지"라고 생각하는 것을 넘어, **"왜 내가 멈추는 걸까? 내가 아직 모르는 무언가가 있는 건가?"**라고 추론합니다. 이것이 이 논문이 말하는 **'능동적 인과 구조 학습 (ACSLWL)'**의 핵심입니다.

🧩 비유: 로봇의 뇌와 '보이지 않는 유령'

이 과정을 세 가지 단계로 나누어 비유해 보겠습니다.

1. 예상과 현실의 괴리: "어? 내 계산이 틀렸네?"

로봇은 뇌에 **'지도 (DDN, 동적 의사결정 네트워크)'**를 가지고 있습니다. 이 지도에는 "앞으로 걸으면 목표에 가까워진다"는 규칙이 적혀 있습니다.
하지만 로봇이 앞으로 걸었을 때, 예상대로 목표가 가까워지지 않고 오히려 "부딪혔다 (터치감지)"는 신호가 왔습니다.

비유: 당신이 매일 가는 길에 갑자기 보이지 않는 유령이 서 있어서 걸을 수 없게 된 상황입니다. 로봇은 "내 지도에는 유령이 없는데, 왜 걸을 수 없지?"라고 **놀라움 (Surprise)**을 느낍니다.

2. 새로운 변수 발견: "아! '보이지 않는 장벽'이라는 녀석이 있었구나!"

로봇은 이 놀라움을 해결하기 위해 뇌에 **새로운 변수 (Hidden Variable, 숨겨진 변수)**를 만들어냅니다.

비유: 로봇은 "아, 내가 보지 못하는 **'투명 장벽 (유령)'**이라는 존재가 있구나!"라고 추측합니다. 이 장벽은 직접 보이지는 않지만, 로봇이 앞으로 갈 때 걸리게 만드는 원인입니다.
로봇은 이 '투명 장벽'이 어디에 있는지, 어떻게 행동해야 피할 수 있는지를 스스로 **새로운 인과 관계 (Cause and Effect)**로 학습합니다. "장벽이 있으면 -> 옆으로 가야 한다"는 새로운 규칙을 만들어냅니다.

3. 우회 (Detour) 행동 학습: "이제 길을 돌아가자!"

새로운 규칙을 학습한 로봇은 다시 길을 나섭니다. 이번에는 장벽을 직진하지 않고, 옆으로 돌아서 (Detour) 목표 지점까지 성공적으로 도달합니다.

비유: 로봇은 이제 "저기 유령이 서 있으니, 오른쪽으로 빙 돌아서 가자!"라고 생각하며 행동합니다. 처음에는 부딪히며 시행착오를 겪었지만, 이제는 그 경험을 바탕으로 최적의 경로를 찾아냅니다.

🔍 이 기술이 왜 중요한가요?

일반적인 로봇이나 AI 는 배운 환경에서만 작동합니다. 새로운 장애물이 생기면 당황하거나 멈춰 섭니다. 하지만 이 논문의 로봇은 다음과 같은 능력을 가집니다.

예상치 못한 상황을 감지: "내 예측과 결과가 다르다!"라고 알아챕니다.
원인을 추론: "아직 내가 모르는 무언가 (잠재 변수) 가 원인일 거야"라고 가정합니다.
새로운 세계관 구축: 그 무언가를 '투명 장벽'이라는 개념으로 정의하고, 새로운 행동 규칙을 만듭니다.
적응: 이제 그 환경에서도 잘 작동합니다.

💡 결론: 로봇도 '배우는 법'을 배운다

이 논문은 로봇이 단순히 데이터를 쌓는 것을 넘어, 세상의 변화를 깨닫고 스스로 머릿속의 '인과 관계 지도'를 다시 그리는 능력을 보여줍니다.

마치 아이가 "불은 뜨겁다"고 배운 후, "아, 이 불은 더 뜨겁구나"라고 깨닫고 손을 떼는 것처럼, 로봇도 예상치 못한 장벽을 만나면 "아, 여기엔 장벽이 있구나"라고 깨닫고 우회하는 법을 스스로 배워내는 것입니다.

이 기술이 발전하면, 미래의 로봇이나 인공지능은 우리가 예측하지 못한 어떤 새로운 상황 (예: 갑자기 생긴 공사 구간, 예상치 못한 날씨 변화 등) 이 발생해도 당황하지 않고, 스스로 원인을 파악하여 **가장 좋은 해결책 (우회로)**을 찾아낼 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 잠재 변수가 있는 능동적 인과 구조 학습 (Active Causal Structure Learning with Latent Variables, ACSLWL) 프레임워크를 제안하며, 이를 통해 자율 로봇이 예상치 못한 환경 변화 (예: 투명한 장벽) 에 직면했을 때 새로운 인과 모델을 학습하고 우회 (Detour) 행동을 습득하는 방법을 다룹니다. 이는 일반 인공지능 (AGI) 에이전트가 변화하는 환경에 적응하기 위해 필수적인 요소로 제시됩니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

배경: 기존에 학습된 에이전트가 "투명한 장벽" (시야는 통과되지만 물리적으로 통과할 수 없는 장애물) 과 같은 새로운 환경적 제약을 처음 마주할 때, 기존의 인과 모델 (Dynamic Decision Network, DDN) 은 더 이상 유효하지 않게 됩니다.
도전 과제: 에이전트는 예상치 못한 관찰 (예: 전진 행동 후 위치가 변하지 않음, 장벽에 접촉) 을 경험하게 되며, 이는 기존 모델로는 설명할 수 없는 "놀라움 (Surprise)"을 유발합니다. 이러한 상황에서 에이전트는 장벽의 존재와 같은 **잠재 변수 (Latent Variable)**를 스스로 발견하고, 이를 모델에 통합하여 새로운 최적의 행동 전략 (우회) 을 학습해야 합니다.
목표: 에이전트가 예상치 못한 상황을 예측 가능하고 최적의 운영 계획이 가능한 상황으로 변환할 수 있도록 새로운 내부 인과 모델을 구성하는 것.

2. 방법론 (Methodology)

논문은 ACSLWL 프레임워크를 통해 다음과 같은 단계를 제안합니다.

A. 기술적 기초

POMDP 및 DDN: 부분 관측 마르코프 결정 과정 (POMDP) 을 기반으로 하며, 시간적 관계를 모델링하기 위해 **동적 의사결정 네트워크 (Dynamic Decision Network, DDN)**를 사용합니다. DDN 은 확률적 그래픽 모델로, 확률 노드 (Chance), 의사결정 노드 (Decision), 효용 노드 (Utility) 로 구성됩니다.
인과성 (Causality): 기계적 인과성 (Mechanistic Causality) 정의를 따르며, 행동 변수와 관찰 변수 간의 인과 관계를 학습합니다.

B. 놀라움 (Surprise) 기반 잠재 변수 탐지

놀라움 발산 (Surprise Divergence): 에이전트가 예측한 분포와 실제 관찰된 분포 간의 차이를 측정하기 위해 엔트로피와 정보 분산 (Information Dispersion) 을 기반으로 한 새로운 놀라움 발산 (Surprise Divergence, $D_S$ ) 지수를 정의합니다. 이는 KL 발산을 표준화하여 놀라움의 정도를 정량화합니다.
효용 놀라움 계수: 기대 효용 (MEU) 과 실제 얻은 효용 간의 차이를 놀라움 계수로 변환합니다. 만약 예상보다 효용이 크게 떨어졌다면 (부정적 놀라움), 이는 관찰되지 않은 잠재 변수의 영향일 가능성이 높다고 판단합니다.
영향 확률 계산: 놀라움 계수를 기반으로 잠재 변수가 현재 상황에 영향을 미칠 확률 ($P(HV=1)$) 을 계산합니다.

C. 숨겨진 변수 (Hidden Variable) 구조 학습

변수 선택: 놀라움이 크게 발생한 관찰 변수들 (예: 장벽 접촉, 거리) 을 식별하여 이를 숨겨진 변수의 부모 (Parents) 또는 자식 (Children) 으로 선정합니다.
위상 구조 (XM Topology): 새로운 숨겨진 변수 ($HV$) 를 DDN 그래프에 추가할 때, 다음과 같은 "XM" 위상 구조를 가정합니다.
1. 관찰 변수 ( $Obs_t$ ) $\rightarrow$ 숨겨진 변수 ($HV$): 현재 관찰로 잠재 변수의 상태를 추론.
2. 숨겨진 변수 ($HV $)$ \rightarrow $다음 관찰 변수 ($ Obs_{t+1}$): 잠재 변수가 미래 관찰에 인과적 영향을 미침.
3. 기존 시간적 연결 ( $Obs_t \rightarrow Obs_{t+1}$ ) 은 유지되지만 $HV$에 의해 조건부적으로 변함.

D. 파라미터 학습 (Hard Weighted EM)

새로운 구조가 도입된 후, 조건부 확률 테이블 (CPT) 의 파라미터를 추정하기 위해 Hard Weighted Expectation-Maximization (EM) 알고리즘을 사용합니다.
가중치 부여: 효용에 큰 영향을 미친 관찰 데이터에 높은 가중치를 부여하여, 에이전트가 기존 지식과 일관된 새로운 모델을 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

ACSLWL 프레임워크 제안: 잠재 변수를 명시적으로 모델링하여 에이전트가 환경의 구조적 변화를 능동적으로 학습하고 적응하는 새로운 프레임워크를 제시했습니다.
새로운 놀라움 지표 개발: 엔트로피와 정보 분산을 결합한 놀라움 발산 ( $D_S$ ) 을 정의하여, 단순한 오차가 아닌 분포 간의 불일치를 통계적으로 유의미하게 탐지할 수 있게 했습니다.
우회 행동 학습 (Learning to Detour): 시뮬레이션된 로봇이 장벽에 부딪힌 후, 장벽의 존재를 잠재 변수로 학습하고 이를 통해 우회하는 행동을 스스로 발견하는 과정을 성공적으로 시연했습니다.
인과적 적응성: 에이전트가 단순히 행동을 수정하는 것을 넘어, 환경의 인과 구조 (인과 그래프) 자체를 변경하여 새로운 상황에 대한 예측 능력을 회복함을 보였습니다.

4. 실험 결과 (Results)

시나리오: 에이전트는 목표 지점으로 직진하도록 학습되었으나, 중간에 투명한 장벽 (스파이크) 이 등장합니다.
학습 전: 에이전트는 장벽을 통과하려다 반복적으로 충돌하며 효용이 급격히 떨어집니다. 관찰 변수 (거리, 장벽 접촉) 에서 큰 놀라움이 발생합니다.
학습 후:
- 에이전트는 장벽의 존재를 나타내는 숨겨진 변수 ($HV$) 를 학습합니다.
- $HV$가 활성화된 상태에서는 전진 (Step Forward) 행동의 기대 효용이 낮아지고, 옆으로 이동 (Step Aside) 하는 행동이 선택됩니다.
- 결과: 장벽을 우회하여 목표에 도달하는 성공적인 경로가 생성되었으며, 장벽 접촉 및 거리 예측에 대한 놀라움 계수가 크게 감소하여 예측 정확도가 향상됨을 확인했습니다.

5. 의의 및 결론 (Significance)

AGI 및 로봇 공학의 발전: 이 연구는 에이전트가 고정된 모델을 사용하는 것을 넘어, 새로운 인과 구조를 실시간으로 구성할 수 있는 적응형 자율 시스템의 핵심 메커니즘을 보여줍니다.
손상/변화 회복력: 생물학적 에이전트 (예: 다리가 부러진 개구리) 가 새로운 행동을 학습하는 것과 유사하게, 로봇이 예상치 못한 장애물이나 환경 변화에 대해 강건하게 대응할 수 있는 이론적 기반을 제공합니다.
미래 작업: 현재는 이산적 변수와 단일 잠재 변수에 국한되었으나, 향후 연속 변수 처리, 다중 잠재 변수 학습, 그리고 실제 로봇 (Kephera 등) 및 의료 디지털 트윈 적용을 통해 프레임워크를 확장할 계획입니다.

요약하자면, 이 논문은 예상치 못한 환경 변화에 직면했을 때, 에이전트가 '놀라움'을 감지하고 이를 통해 새로운 '잠재 변수'를 발견하여 인과 모델을 재구성함으로써 최적의 행동 (우회) 을 학습하는 체계를 제시한 중요한 연구입니다.