Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 이야기: "보이지 않는 AI 의 두뇌를 어떻게 읽을 것인가?"

최근 AI(특히 V-JEPA 2라는 비디오 모델) 는 영상을 볼 때, 화면의 픽셀을 그대로 다시 그리는 대신 세상의 물리 법칙 (중력, 운동, 사물의 모양 등) 을 추상적으로 이해하는 능력을 배웠습니다.

하지만 여기서 큰 문제가 생깁니다.

기존의 AI: 영상을 보고 "이건 개야, 저건 고양이야"라고 말하거나, 원래 영상을 다시 그려내면 우리가 "아, AI 가 개를 봤구나"라고 알 수 있습니다. (눈으로 확인 가능)
이 새로운 AI (V-JEPA 2): 픽셀을 다시 그리지 않고, **오직 '숨겨진 숫자 (잠재 공간)'**만 가지고 미래를 예측합니다. 그래서 우리는 AI 가 무엇을 이해했는지 눈으로 확인할 길이 없습니다. 마치 AI 가 꿈속에서 무슨 생각을 하는지 알 수 없는 것과 같습니다.

저자는 이 **"보이지 않는 AI 의 생각"**을 읽어내기 위해 **AIM(인공지능의 모국어)**이라는 새로운 도구를 개발했습니다.

🛠️ 해결책: "AI 의 생각을 '단어'로 번역하는 안경"

저자가 제안한 방법은 다음과 같습니다.

AI 는 절대 건드리지 않기 (Frozen Encoder):
AI 의 두뇌 (엔코더) 는 이미 완벽하게 훈련된 상태입니다. 우리는 이 두뇌를 아예 건드리지 않고 (동결) 그대로 둡니다. 만약 두뇌를 수정하면, AI 가 새로 배운 것인지, 원래 알고 있던 것인지 구분할 수 없기 때문입니다.
수동적인 번역기 (AIM Probe) 달기:
AI 의 두뇌에서 나오는 복잡한 숫자 (연속된 벡터) 를 **간단한 기호 (이산적 심볼)**로 바꾸는 작은 장치를 붙입니다.
- 비유: AI 의 두뇌가 "아주 복잡한 수학 공식"으로 세상을 이해하고 있다면, 우리는 그 공식을 **"간단한 1, 2, 3 번 기호"**로 바꿔주는 번역기를 끼워 넣는 것입니다.
- 이 번역기는 AI 가 가르치지 않았고, 미리 정해진 단어장도 없습니다. 오직 AI 가 보여주는 숫자 패턴에 맞춰 스스로 기호를 만들어냅니다.
기호를 관찰하기:
이제 AI 가 "활 쏘기" 영상을 볼 때와 "볼링" 영상을 볼 때, 이 번역기가 만들어내는 기호의 분포가 달라지는지 확인합니다.

🧪 실험: "세 가지 다른 상황으로 AI 의 두뇌 테스트하기"

저자는 Kinetics-mini라는 작은 영상 데이터셋을 이용해 세 가지 상황을 비교했습니다.

잡는 손의 모양 (Grasp Angle): 활을 쏘는 사람 vs 볼링을 치는 사람. (손가락을 어떻게 쥐는지 차이)
사물의 모양 (Object Geometry): 연을 날리는 사람 (긴 막대기) vs 높이뛰기 (사물 없음).
움직임의 속도/리듬 (Motion Speed): 행진 (규칙적인 리듬) vs 활 쏘기 (정지 후 한 번의 폭발적 움직임).

결과:
놀랍게도, AI 의 두뇌가 물리적인 차이를 정확히 감지하고 있었습니다!

예를 들어, '행진'과 '활 쏘기'를 비교했을 때, 번역기가 만들어내는 기호의 분포가 통계적으로 확실히 다르게 나타났습니다.
특히 시간적인 리듬 (움직임의 속도) 차이를 가장 잘 감지했습니다. 이는 AI 가 훈련될 때 "미래를 예측하는 것"에 집중했기 때문에, 시간의 흐름을 가장 잘 이해하고 있다는 뜻입니다.

💡 중요한 발견: "모두가 같은 기호를 쓰지만, 미세한 차이가 있다"

가장 흥미로운 점은 모든 영상 (활, 볼링, 연 등) 이 번역기의 '5 번 기호'를 가장 많이 사용한다는 것이었습니다.

오해: "아, AI 가 다 똑같은 걸로 인식하는구나. 실패한 거야?"
실제 의미: "아니, AI 는 세상의 공통된 물리 법칙 (중력, 사람의 움직임) 을 하나로 통합해서 이해하고 있구나!"
- AI 는 사물을 '개', '고양이'처럼 딱딱 구분된 상자로 나누는 게 아니라, 공통된 물리 법칙이라는 큰 방 (잠재 공간) 안에 모두 넣고, 그 안에서 **미세한 위치 차이 (기호 분포의 차이)**로 구분합니다.
- 마치 **같은 방 (공통된 물리 법칙)**에 모여 있지만, 활 쏘는 사람은 방 구석에, 행진하는 사람은 문 쪽에 서 있는 것과 같습니다.

이것은 AI 의 한계가 아니라, 물리 법칙을 잘 이해했다는 증거입니다.

🚀 결론 및 미래: "이제 AI 와 대화할 수 있는 문이 열렸다"

이 연구는 4 단계 로드맵의 첫 단계입니다.

1 단계 (현재): AI 의 두뇌를 건드리지 않고, 그 안에 숨겨진 구조가 있는지 확인함. (성공!)
2 단계: 기호의 종류를 늘려서 더 세밀한 차이를 읽어냄.
3 단계: AI 의 두뇌와 번역기를 함께 훈련시켜 더 잘 맞도록 함.
4 단계: AI 가 "왜 그렇게 행동했는지"를 자연어로 설명하게 함.

요약하자면:
이 논문은 **"AI 가 세상을 어떻게 이해하는지 눈으로 확인할 수 없다면, 그 생각을 간단한 기호로 번역해서 통계적으로 증명하자"**는 아이디어를 제시했습니다. 이를 통해 우리는 AI 가 물리 법칙을 얼마나 잘 이해하고 있는지, 그리고 그 내부 구조가 얼마나 정교하게 짜여 있는지 과학적으로 검증할 수 있게 되었습니다.

이것은 AI 의 **'블랙박스 (검은 상자)'**를 열어, 그 안에서 어떤 **'물리적 사고'**가 일어나고 있는지 확인하는 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **Joint Embedding Predictive Architectures **(JEPA) 기반의 비디오 세계 모델 (V-JEPA 2) 의 잠재 공간 (latent space) 에 내재된 물리적 구조를 탐지하고 해석하기 위한 새로운 방법론을 제안합니다. 저자는 V-JEPA 2 의 인코더를 완전히 동결 (frozen) 시킨 상태에서, **AI Mother Tongue **(AIM) 프레임워크를 수동적인 양자화 프로브 (passive quantization probe) 로 사용하여 연속적인 잠재 벡터를 이산적인 심볼 시퀀스로 변환하는 실험을 수행했습니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 제기 (Problem)

JEPA 의 구조적 해석 불가능성: V-JEPA 2 와 같은 JEPA 기반 모델은 픽셀을 재구성하는 대신 잠재 공간에서 마스킹된 영역을 예측하도록 훈련됩니다. 이 설계는 강력한 인코더를 생성하지만, 생성 모델이 가진 '시각적 검증 경로 (visual verification pathway)'가 없어, 인코더가 학습한 물리적 구조가 어떤 형태로 존재하는지 직접 관찰할 수 없는 **구조적 해석 불가능성 **(structural interpretability gap)을 초래합니다.
기존 프로빙 방법의 한계:
- **판별형 프로브 **(Discriminative probes) 연속 공간에서 작동하여 이산적인 심볼 레코드를 제공하지 못하며, 단순히 변수가 디코딩 가능한지 여부만 판단합니다.
- **생성형 프로브 **(Generative probes) 언어 모델 헤드나 픽셀 디코더를 부착하는 방식은, 관찰된 행동이 인코더의 표현에서 기인한 것인지, 부착된 구성 요소의 학습된 매개변수에서 기인한 것인지 구분할 수 없는 **귀속 문제 **(attribution problem)를 야기합니다.

2. 제안 방법론 (Methodology)

저자는 **수동 이산 프로빙 **(Passive Discrete Probing)이라는 새로운 접근법을 제안하며, 이를 위해 AIM 프레임워크를 잠재 공간에 부착합니다.

3 계층 아키텍처:
1. **잠재 모델 계층 **(Layer 1) V-JEPA 2 인코더. 완전히 동결되어 있으며, 그 매개변수는 절대 수정되지 않습니다.
2. **이산 의미 계층 **(Layer 2, AIM) 사전 정의된 심볼 어휘나 작업별 지도 학습 없이, 벡터 양자화 (VQ) 를 통해 연속 잠재 벡터를 이산 심볼 시퀀스로 변환하는 경량 프로브입니다.
3. **언어 인터페이스 계층 **(Layer 3) (본 연구 1 단계에서는 구현되지 않음) 심볼 시퀀스를 자연어로 변환하는 계층.
핵심 설계 원리:
- 동결된 인코더: 인코더의 그래디언트가 차단되어 있으므로, AIM 코드북에 나타나는 어떤 심볼 구조도 오직 V-JEPA 2 의 사전 훈련된 표현에서 비롯된 것입니다.
- 어휘 없는 양자화: AIM 은 사전 정의된 카테고리나 언어 지도 없이 데이터 통계만으로 심볼을 생성하므로, 프로브 자체가 인위적인 구조를 만들어낼 수 없습니다.
**실험 설계 **(Kinetics-mini)
- **카테고리 대비 실험 **(Category-contrast) 세 가지 물리적 차원 (그립 각도, 물체 기하학, 운동 시간 구조) 을 기준으로 대조되는 액션 카테고리 쌍 (예: 활쏘기 vs 볼링, 연 날리기 vs 높이뛰기, 행진 vs 활쏘기) 을 선택했습니다.
- 통계적 검증: AIM 심볼 분포가 물리적 조건에 따라 통계적으로 유의미하게 변화하는지 카이제곱 검정 ( $\chi^2$ ), 상호 정보량 (MI), 제네슨 - 샤논 발산 (JSD) 으로 측정했습니다.

3. 주요 기여 (Key Contributions)

수동 이산 프로빙의 정립: 학습된 생성 구성 요소를 부착하지 않고, 동결된 인코더에 어휘 없는 이산 프로브를 부착하여 심볼 구조를 모델 자체에 귀속시키는 방법론적 차별화를 제시했습니다.
아키텍처 호환성 입증: V-JEPA 2 의 소스 파일을 수정하지 않고 AIM 을 부착하여, 사전 계산된 잠재 벡터 위에 경량 VQ 양자화기가 안정적으로 학습할 수 있음을 보였습니다.
통계적으로 유의미한 심볼 구조 발견: 세 가지 물리적 차원 모두에서 AIM 심볼 분포가 유의미하게 차이 나는 것을 입증했습니다.
**잠재 공간의 압축성 **(Compactness) 다양한 액션 카테고리가 공통된 표현적 핵심을 공유하며, 의미적 차이가 이산적 경계가 아닌 **등급화된 분포적 변화 **(graded distributional variations)로 인코딩됨을 발견했습니다.

4. 실험 결과 (Results)

통계적 유의성: 세 가지 실험 (그립 각도, 물체 기하학, 운동 속도) 모두에서 카이제곱 검정 p-value 가 $10^{-4}$ 미만이었습니다.
- **상호 정보량 **(MI) 절대값 0.036~~0.117 비트, 정규화 MI 는 이론적 최대치의 1.2~~3.9% 를 기록했습니다.
- JSD: 운동 속도 (행진 vs 활쏘기) 비교에서 가장 큰 발산 (0.343) 을 보였으며, 이는 V-JEPA 2 가 시간적 예측을 위해 시간 구조에 더 민감하게 반응함을 시사합니다.
코드북 활용도: 8 개의 코드북 항목 중 62.5% 가 활성화되어 붕괴되지 않았으며, 퍼플렉시티 (Perplexity) 는 4.635 로 건강한 분포를 보였습니다.
**우세 심볼 충돌 **(Dominant Symbol Collision) 모든 액션 카테고리가 주로 동일한 심볼 (코드북 항목 #5) 로 매핑되었으나, 부수적인 심볼 분포의 차이 (secondary mass) 를 통해 물리적 조건을 구별했습니다. 이는 모델이 표면적 차이는 공유된 물리 구조 (중력, 운동학 등) 로 통합하여 표현하고 있음을 의미합니다.
H1 안정성 테스트: 파이프라인의 결정론적 성격을 확인하여, 관찰된 분포 차이가 내부 노이즈가 아닌 입력 조건에 기인함을 검증했습니다.

5. 의의 및 결론 (Significance)

세계 모델의 내부 구조 검증: V-JEPA 2 가 단순한 분류기가 아니라, 물리적 세계의 공유 구조를 내부화한 세계 모델임을 간접적으로 지지하는 증거를 제공했습니다.
해석 가능성의 새로운 패러다임: 생성형 구성 요소를 통한 귀속 문제를 해결하고, 동결된 모델의 잠재 공간에서 통계적으로 검증 가능한 이산 인터페이스를 구축할 수 있음을 보였습니다.
향후 연구 로드맵: 본 연구는 4 단계 통합 로드맵의 **1 단계 **(Perception Gap Diagnosis)를 성공적으로 완료했습니다. 향후 2 단계 (코드북 확장 및 잔차 양자화), 3 단계 (동시 훈련 및 인코더 해동), 4 단계 (인과적 개입 및 행동 기반 세계 모델) 로 이어질 예정이며, 이를 통해 인과적 구조를 가진 해석 가능한 세계 모델을 완성할 것으로 기대됩니다.

요약하자면, 이 논문은 동결된 JEPA 인코더의 잠재 공간이 물리적 구조를 인코딩하고 있으며, 이를 AIM 과 같은 수동 양자화 프로브를 통해 통계적으로 검증 가능한 이산 심볼로 추출할 수 있음을 최초로 입증한 중요한 연구입니다.

Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

🕵️‍♂️ 핵심 이야기: "보이지 않는 AI 의 두뇌를 어떻게 읽을 것인가?"

🛠️ 해결책: "AI 의 생각을 '단어'로 번역하는 안경"

🧪 실험: "세 가지 다른 상황으로 AI 의 두뇌 테스트하기"

💡 중요한 발견: "모두가 같은 기호를 쓰지만, 미세한 차이가 있다"

🚀 결론 및 미래: "이제 AI 와 대화할 수 있는 문이 열렸다"

1. 연구 배경 및 문제 제기 (Problem)

2. 제안 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

JointFM-0.1: A Foundation Model for Multi-Target Joint Distributional Prediction

MARLIN: Multi-Agent Reinforcement Learning for Incremental DAG Discovery

Collaborative Adaptive Curriculum for Progressive Knowledge Distillation

Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration

Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence