A Mathematical Theory of Agency and Intelligence

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 **(AI)에 대해 이야기합니다.

기존의 AI 는 "정답을 맞추는 능력"은 매우 뛰어나지만, "내가 지금 상황을 제대로 이해하고 있는지 스스로 점검하는 능력"은 부족합니다. 이 논문은 그 부족함을 채워줄 새로운 수학적 도구와 사고방식을 제안합니다.

핵심 내용을 쉽게 풀어서 설명해 드릴게요.

1. 핵심 문제: "정답은 맞는데, 상황은 엉망이다?"

지금까지의 AI 는 방대한 데이터를 공부해서 예측을 잘합니다. 하지만 비유하자면, 운전면허 시험은 만점을 받았지만, 실제 도로에서 눈이 오는데도 같은 속도로 달리는 차와 같습니다.

현재의 문제: AI 는 목표 (예: 길 찾기) 는 달성할 수 있지만, 주변 환경이 변했을 때 "아, 내가 지금 상황을 잘못 파악하고 있구나"라고 스스로 깨닫지 못합니다.
이 논문의 제안: AI 가 단순히 '결과'만 보는 게 아니라, '내가 보고, 행동하고, 그 결과가 어떻게 돌아왔는지' 사이의 연결고리가 얼마나 튼튼한지를 실시간으로 측정해야 합니다.

2. 새로운 측정 도구: '쌍방향 예측력 (Bi-predictability, P)'

저자들은 **'P **(Bi-predictability)라는 새로운 지표를 만들었습니다.

비유: "소통의 밀도"
- 두 사람이 대화할 때, 한 사람이 말하면 다른 사람이 정확히 이해하고 반응하는 정도를 생각해보세요.
- P 가 높을 때: 내가 행동을 취하면 결과가 내 의도대로 딱 맞아떨어집니다. (내가 무엇을 했는지, 결과가 무엇을 의미하는지 서로 완벽하게 통합니다.)
- P 가 낮을 때: 내가 무엇을 했는지 알 수 없거나, 결과가 내 의도와 전혀 상관없게 나옵니다. (소통이 끊긴 상태)

이 논문은 P 가 얼마나 높은지를 계산하는 수학적 공식을 제시합니다.

**물리 세계 **(예: 진자) P 는 이론상 0.5 에 가깝게 높습니다. (원인과 결과가 명확함)
**AI 에이전트 **(예: 로봇, LLM) P 는 0.5 보다 훨씬 낮아집니다. (자신의 의지와 결과가 항상 일치하지 않기 때문)

3. '의지 (Agency)'와 '지능 (Intelligence)'의 차이

이 논문은 가장 중요한 구분을 내립니다.

**의지 **(Agency) "내가 원하는 대로 행동할 수 있는 능력"입니다.
- 예: 로봇이 팔을 움직여 물건을 잡을 수 있다.
**지능 **(Intelligence) "내가 행동한 결과가 내 의도와 맞는지 스스로 점검하고, 틀리면 상황을 바꿔서 다시 학습하는 능력"입니다.
- 예: 로봇이 물건을 잡으려다 미끄러지면, "아, 내 손가락 힘이 부족했구나"라고 스스로 깨닫고 다음엔 더 세게 잡거나 다른 방법을 시도한다.

결론: 현재 우리가 만든 AI 는 **'의지'**는 있지만, **'지능'**은 아직 부족합니다. 스스로 "내가 지금 망치고 있구나"라고 체크하지 못하기 때문입니다.

4. 해결책: '정보 디지털 트윈 (IDT)'이라는 감시관

이 문제를 해결하기 위해 저자들은 **'IDT **(Information Digital Twin)라는 새로운 시스템을 제안합니다.

비유: "자동차의 블랙박스 + 운전자의 내면의식"
- 기존 AI 는 목적지 (성공) 만 보고 운전합니다.
- IDT는 AI 의 곁에 항상 따라다니는 **'감시관'**입니다. 이 감시관은 AI 가 무엇을 보고, 무엇을 하고, 어떤 결과가 나왔는지 실시간으로 기록하며, **"지금 연결고리 **(P)라고 경고합니다.
- 만약 P 가 떨어지면, AI 는 무작정 계속 달리는 게 아니라, "아, 내 센서가 망가졌구나" 혹은 "환경이 너무 복잡해졌구나"라고 판단하고 자신의 행동 방식을 즉시 조정합니다.

이 시스템은 인간의 뇌에서 **시상 **(Thalamus)이 감각 신호와 운동 명령을 동시에 모니터링하여 뇌가 혼란스러워지지 않게 조절하는 방식과 비슷합니다.

5. 실험 결과: 실제로 작동합니다!

저자들은 이 이론을 세 가지 곳에서 테스트했습니다.

**물리 실험 **(이중 진자) 예측대로 P 가 높고, 방향성 (앞뒤 예측) 이 균형 잡혀 있었습니다.
**강화학습 **(로봇) 로봇이 학습을 통해 P 는 어느 정도 높였지만, 여전히 '스스로 점검'은 못 했습니다. 하지만 IDT 를 달아주니, 로봇이 넘어지기 전에 4 배나 빠르게 위험을 감지하고 멈췄습니다. (기존 방식은 점수가 떨어질 때까지 기다렸다가 멈췄음)
**대화형 AI **(LLM) 챗봇이 엉뚱한 말을 하거나 주제가 바뀔 때, 기존 방식은 "이게 이상한가?"를 판단하기 어려웠지만, P 지수는 즉시 "아, 대화의 흐름이 끊겼다!"라고 잡아냈습니다.

6. 요약: 왜 이것이 중요한가요?

이 논문은 **"AI 를 더 똑똑하게 만드는 것 **(데이터 늘리기)이라고 말합니다.

과거의 생각: AI 를 더 많이 훈련시켜서 정답을 더 잘 맞추게 하라.
이 논문의 생각: AI 가 **"내가 지금 상황을 제대로 파악하고 있는가?"**를 스스로 체크할 수 있는 **'내부 감시 시스템 **(P 와 IDT)을 만들어라.

마치 운전자가 "내가 지금 길을 잘 가고 있나?"를 끊임없이 확인하며 핸들을 조절하듯, 진정한 지능을 가진 AI 는 **자신의 연결고리 **(P)를 유지하며 변화하는 세상에서 살아남을 수 있어야 합니다.

이 연구는 바로 그 **'스스로 점검하는 능력'**을 수학적으로 증명하고, 실제 AI 에 적용할 수 있는 청사진을 제시한 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

현대 AI 시스템은 방대한 정보를 처리하여 정교한 예측을 수행하지만, 환경이 변화하거나 예상치 못한 조건에서 작동할 때 신뢰성 문제가 발생합니다.

현재의 한계: 기존 AI는 목표 달성 여부 (성공/실패) 나 불확실성, 입력 드리프트를 모니터링하지만, 시스템이 환경과 상호작용하는 과정에서 전체 정보 중 실제로 공유되는 비율에 대한 원칙적인 측정치가 부족합니다.
핵심 문제: 예측이 성공적으로 보이는 것처럼 보일지라도, 시스템과 환경 간의 근본적인 상호작용이 저하될 수 있습니다. 이는 현재 AI 가 '행위주체성 (Agency)'은 가지지만 진정한 '지능 (Intelligence)'을 갖추지 못했음을 시사합니다.
필요성: 폐쇄 루프 (closed-loop) 시스템의 신뢰성을 보장하기 위해서는 작업별이 아닌 보편적인 척도로 상호작용의 효율성을 실시간으로 모니터링하고 피드백할 수 있는 구조가 필요합니다.

2. 방법론 (Methodology)

가. 이항 예측 가능성 (Bi-predictability, $P$ ) 의 정의

저자들은 상호작용의 효율성을 정량화하기 위해 **이항 예측 가능성 ( $P$ )**이라는 새로운 정보 이론적 지표를 도입했습니다.

정의: 관찰 ( $S$ $S$ ), 행동 ( $A$ $A$ ), 결과 ( $S'$ $S^{'}$ ) 간의 공유 정보량 (상호 정보, $MI$ $M I$ ) 을 전체 시스템의 정보량 (엔트로피 합) 으로 나눈 비율입니다.
- 수식: $P = \frac{MI(S, A; S')}{H(S) + H(A) + H(S')}$
- 이는 정보의 '양'이 아닌, 상호작용의 '효율성' (어떤 상태가 다음 상태를 얼마나 잘 예측하는가) 을 측정합니다.
방향성 예측 불확실성: $P$ $P$ 를 보완하기 위해 두 가지 방향의 불확실성을 정의했습니다.
- 전방향 불확실성 ( $H_f$ ): $H(S'|S, A)$ - 에이전트의 상태와 행동이 주어졌을 때 결과의 불확실성 (환경의 반응 예측 난이도).
- 후방향 불확실성 ( $H_b$ ): $H(S, A|S')$ - 관찰된 결과가 주어졌을 때, 이를 만든 에이전트의 상태와 행동이 몇 가지인지 (원인 규명의 모호성).
- 예측 비대칭성 ( $\Delta H$ ): $H_f - H_b$ . 이는 상호작용이 어디서 끊어지는지 (환경의 불확실성인지, 에이전트의 모호성인지) 를 진단합니다.

나. 이론적 경계 (Theoretical Bounds)

양자 시스템: 최대 상관관계로 인해 $P \le 1$ 까지 도달 가능.
고전적 시스템: 정보 이론적 구조상 $P \le 0.5$ 로 제한됨.
행위주체성 (Agency) 도입 시: 행동 변수 ( $A$ ) 가 도입되면 내부 자유도가 증가하여 $P$ 는 0.5 보다 더 낮아지는 경향을 보입니다.

다. 실험적 검증

물리적 시스템 (이중 진자): 결정론적 시스템으로 $P \approx 0.48$ (고전적 한계 근접) 및 $\Delta H \approx 0$ 을 확인하여 기준점 설정.
강화학습 (RL) 에이전트: MuJoCo 환경 (HalfCheetah) 에서 SAC 및 PPO 알고리즘으로 훈련된 에이전트 평가.
대형 언어 모델 (LLM): 학생 모델 (Llama 3.1) 과 교사 모델 (Claude, GPT, Gemini) 간의 다중 턱 대화 분석.

라. 정보 디지털 트윈 (IDT) 아키텍처 제안

생물학적 시상 - 대뇌 피질 (thalamocortical) 조절에서 영감을 받아, 에이전트와 환경의 상호작용 통계를 실시간으로 모니터링하는 보조 피드백 시스템인 IDT를 제안했습니다.
IDT 는 $P$ 와 $\Delta H$ 를 계산하여 통계적 편차를 감지하고, 에이전트의 모델 가중치를 직접 수정하지 않고도 관찰/행동 대역폭을 조절 (Reflexive Modulation) 하여 시스템 안정성을 회복시킵니다.

3. 주요 기여 (Key Contributions)

행위주체성 (Agency) 과 지능 (Intelligence) 의 수학적 구분:
- 행위주체성: 예측에 기반하여 행동할 수 있는 능력 (선택, 영향, 비대칭성 존재).
- 지능: 상호작용에서 학습하고, 자신의 학습 효과 ( $P$ ) 를 스스로 모니터링하며, 조건 변화에 따라 관찰/행동/결과 범위를 적응적으로 조정하는 능력.
- 결론: 현재 AI 는 '행위주체성'과 '학습'은 달성했으나, '자기 모니터링'과 '적응'이 부족하여 진정한 '지능'은 아니라고 정의합니다.
보편적 상호작용 지표 ( $P$ ) 의 확립:
- 작업이나 도메인에 구애받지 않는 공통 척도로, 시스템이 환경과 얼마나 효과적으로 '결합 (Coupling)'되어 있는지를 측정합니다.
실시간 적응형 피드백 아키텍처 (IDT):
- 보상 (Reward) 기반 모니터링의 한계를 극복하고, 상호작용 구조의 무결성을 실시간으로 감지하여 시스템이 붕괴되기 전에 대응할 수 있는 공학적 청사진을 제시합니다.

4. 결과 (Results)

물리적 시스템 (이중 진자):
- $P \approx 0.48$ (고전적 한계 0.5 에 근접) 및 $\Delta H \approx 0$ 을 확인.
- 카오스 (Chaos) 가 심해도 $P$ 는 안정적이며 비대칭성은 0 에 가까워, 결정론적 시스템에서는 예측 불확실성이 대칭적임을 입증.
강화학습 (RL) 에이전트:
- $P \approx 0.33$ (물리 시스템보다 낮음) 및 $\Delta H \approx -0.56$ (부정적 비대칭성).
- IDT 의 우수성: 외부 교란 (Perturbation) 발생 시, 기존 보상 기반 감지 (44% 감지율, 184 윈도우 지연) 대비 IDT 는 89.3% 감지율로 **4.4 배 빠른 속도 (42 윈도우 지연)**로 이상을 탐지했습니다.
- 보상 (Reward) 은 결과의 누적을 기반으로 하므로 지연되지만, $P$ 와 $\Delta H$ 는 상호작용의 결합 무결성을 직접 추적하므로 즉각적인 감지가 가능합니다.
LLM 대화 시스템:
- $P$ 와 $\Delta H$ 는 대화의 구조적 일관성 (Embedding 기반) 과 높은 상관관계 (85%) 를 보였으나, 의미적 정확도 (LLM Judge) 와는 덜 일치했습니다. 이는 $P$ 가 의미가 아닌 상호작용 구조를 측정함을 의미합니다.
- 모순, 주제 전환, 비연속적 발화 등 교란 시 $P$ 의 급격한 변동과 $H_b$ 의 증가를 통해 의미적 붕괴를 즉시 탐지했습니다.

5. 의의 및 결론 (Significance)

AI 신뢰성의 패러다임 전환: AI 의 신뢰성은 단순히 모델 규모 (Scale) 나 데이터 양을 늘리는 문제가 아니라, 상호작용 구조를 모니터링하고 조절하는 아키텍처의 문제임을 강조합니다.
첫 번째 관점 (First-person) 메트릭: 외부 평가자 (Third-person) 가 아닌 에이전트 스스로가 자신의 상호작용 효율성 ( $P$ ) 을 평가할 수 있어야 진정한 적응형 지능이 가능해집니다.
생물학적 모방: 생물체의 시상 (Thalamus) 이 의미 내용보다는 신호 통계 (통계적 특성) 를 기반으로 신호 전달을 조절하는 방식과 유사하게, IDT 는 AI 시스템에 이러한 '자기 조절 (Homeostatic)' 능력을 부여합니다.
미래 방향: 현재 AI 는 '행위주체성'을 갖췄으나 '지능'을 갖추기 위해서는 $P$ 의 저하를 감지하고, 관찰 범위 ( $S$ ), 행동 공간 ( $A$ ), 결과 정의 ( $S'$ ) 를 스스로 재구성하는 적응 메커니즘이 필수적입니다.

이 논문은 AI 의 신뢰성과 적응성을 확보하기 위해 정보 이론적 기반을 갖춘 새로운 아키텍처 (IDT) 와 이론적 프레임워크를 제시함으로써, 차세대 지능형 시스템 설계에 중요한 이정표를 제시합니다.

A Mathematical Theory of Agency and Intelligence

1. 핵심 문제: "정답은 맞는데, 상황은 엉망이다?"

2. 새로운 측정 도구: '쌍방향 예측력 (Bi-predictability, P)'

3. '의지 (Agency)'와 '지능 (Intelligence)'의 차이

4. 해결책: '정보 디지털 트윈 (IDT)'이라는 감시관

5. 실험 결과: 실제로 작동합니다!

6. 요약: 왜 이것이 중요한가요?

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

가. 이항 예측 가능성 (Bi-predictability, PPP) 의 정의

나. 이론적 경계 (Theoretical Bounds)

다. 실험적 검증

라. 정보 디지털 트윈 (IDT) 아키텍처 제안

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Mathematical Proof

On the intrinsic geometry of polyhedra: Convex polygon coordinates

A finite element continuous data assimilation framework for a Navier--Stokes--Cahn--Hilliard system

An efficient predictor-corrector approach with orthogonal spline collocation finite element technique for FitzHugh-Nagumo problem

The structure of group-labeled graphs forbidding an immersion

가. 이항 예측 가능성 (Bi-predictability, $P$ ) 의 정의