원저자: Ziming Liu, Sophia Sanborn, Surya Ganguli, Andreas Tolias

게시일 2026-02-09

📖 4 분 읽기☕ 가벼운 읽기

원저자: Ziming Liu, Sophia Sanborn, Surya Ganguli, Andreas Tolias

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신에게 아주 똑똑한 로봇 학생이 있다고 상상해 보세요. 당신은 이 로봇에게 행성들이 태양 주위를 어떻게 움직이는지 가르치고 싶습니다. 당신은 행성들이 지나온 경로가 담긴 방대한 역사책을 로봇에게 주고, 다음에는 어디에 있을지 추측해 보라고 요청합니다.

이 논문이 던지는 핵심 질문은 이것입니다: 이 로봇 학생은 단순히 경로를 암기하는 것일까요, 아니면 움직임을 일으키는 물리 법칙을 실제로 '이해'하고 있는 것일까요?

저자들은 이 로봇에게 특별한 "보조 바퀴"(그들은 이를 **귀납적 편향(inductive biases)**이라고 부릅니다)를 제공하지 않으면, 이 로봇은 천재적인 암기가는 될 수 있어도 형편없는 물리학자는 될 것이라는 사실을 발견했습니다. 로봇은 경로를 완벽하게 그려내지만, 왜 그렇게 움직이는지에 대해서는 전혀 알지 못합니다.

다음은 이 문제를 해결한 과정을 세 가지 간단한 레슨으로 나누어 설명한 이야기입니다.

문제점: 로봇은 "곡선 맞추기 기계"이지 "물리학자"가 아니다

로봇의 뇌를 거대한 도서관이라고 생각해 보세요.

케플러 방식 (로봇이 자연스럽게 했던 행동): 로봇은 행정 여정의 마지막 1,000개 지점을 살펴봅니다. 그리고 말합니다. "아하! 패턴이 보여. 이건 타원형이야. 나는 그냥 이 타원을 계속 그릴 거야." 이것은 마치 어린이가 그림을 따라 그리는 것과 같습니다. 그림은 제대로 그리지만, 만약 당신이 "왜 타원형인가요?" 또는 "무엇이 그것을 끌어당기고 있나요?"라고 묻는다면, 로봇은 답할 수 없습니다. 로봇은 단지 그 모양을 알고 있을 뿐입니다.
뉴턴 방식 (우리가 원하는 것): 우리는 로봇이 "태양이 중력으로 행성을 끌어당기고 있습니다. 행성의 현재 속도와 위치를 안다면, 저는 인력을 계산하여 다음 단계를 예측할 수 있습니다"라고 말하기를 원합니다. 이것은 단순한 결과가 아닌 '원인'을 이해하는 것입니다.

이 논문은 표준 AI 모델(트랜스포머)이 자연스럽게 "추적자"(케플러)가 되며 "계산기"(뉴턴)가 되는 데 실패한다는 것을 보여줍니다. 이를 해결하기 위해 저자들은 세 가지 구체적인 "보조 바퀴"를 추가했습니다.

레슨 1: "픽셀화된 지도" 문제 (공간적 매끄러움)

비유: 당신이 로봇에게 도시를 탐색하는 법을 가르치고 있다고 상상해 보세요.

실수: 당신은 모든 길모퉁이가 완전히 다른 무작위 색상인 지도를 로봇에게 줍니다. "빨간색"은 1번가와 메인 스트리트의 모퉁이이고, "파란색"은 1번가와 2번가의 모퉁이입니다. 비록 이 모퉁이들이 바로 옆에 붙어 있음에도 불구하고, 로봇은 이들을 완전히 무관한 것으로 인식합니다. 로봇은 매번 "빨간색"과 "파란색" 사이의 관계를 처음부터 다시 배워야 합니다.
수정: 저자들은 행성의 위치를 아주 작은 "빈(bin)"(픽クセル과 같은 단위)으로 나눌 때 공간의 자연스러운 매끄러움을 깨뜨린다는 것을 깨달았습니다.
해결책: 그들은 "빈"의 크기를 키우거나(더 적은 색상 사용), 빈을 아예 사용하지 않고 로봇에게 정확한 좌표(GPS와 같은 방식)를 직접 제공했습니다. 이를 통해 로봇은 "지점 A"가 "지점 B" 바로 옆에 있다는 것을 볼 수 있게 되었고, 혼란스러운 무작위 코드 뭉치가 아닌 실제 공간의 정신적 지도를 구축할 수 있게 되었습니다.

레슨 2: "도미노 효과" 문제 (공간적 안정성)

비유: 옆 사람에게 숫자를 속삭이는 "전화기 게임(Telephone)"을 한다고 상상해 보세요.

실수: 만약 첫 번째 사람이 "50.1"이라고 속삭였는데 두 번째 사람이 "50.2"로 들었다면, 세 번째 사람은 "50.5"로 들을 수 있고, 마지막 사람에게 도달했을 때 숫자는 "100"이 되어 있을 수 있습니다. 물리학에서 만약 로봇이 행성의 위치를 예측할 때 아주 작은 실수라도 한다면, 그 실수는 단계마다 점점 커져서 결국 행성이 심우주로 날아가 버리거나 태양에 충돌하게 만듭니다.
수정: 저자들은 표준 AI 학습이 너무 "완벽하다"는 점을 깨달았습니다. 그것은 오직 완벽한 과거 데이터로부터만 학습합니다.
해결책: 그들은 일부러 로봇의 학습 데이터에 "고장"을 내기 시작했습니다. 로봇이 읽고 있는 이력에 약간의 정적 노이즈(라디오의 잡음 같은 것)를 추가했습니다. 이를 통해 로봇이 작은 실수로부터 회복하는 법을 배우도록 강제했고, 오류가 쌓이지 않고 미래를 예측할 수 있을 만큼 견고하게 만들었습니다.

레슨 3: "긴 기억" vs "짧은 기억" 문제 (시간적 국소성)

비유: 이것이 가장 중요한 부분입니다.

긴 기억 (케플러): 지난 한 시간 동안 일어난 모든 일을 기억하는 로봇을 상상해 보세요. 다음에 무슨 일이 일어날지 추측할 때, 로봇은 거대한 곡선을 그리기 위해 한 시간 전체의 이력을 살펴봅니다. 이는 롤러코스터 트랙 전체를 보고 다음 행방을 예측하는 것과 같습니다. 곡선은 잘 그리겠지만, 물리 법칙은 이해하지 못합니다.
짧은 기억 (뉴턴): 이제, 오직 지난 2초 동안의 일만 기억할 수 있는 로것을 상상해 보세요. 이 로봇은 전체 트랙을 볼 수 없습니다. 로봇은 반드시 지금 이 순간 카트가 어디에 있는지, 그리고 얼마나 빠르게 움직이고 있는지를 보고 다음 행방을 알아내야만 합니다.
해결책: 저자들은 로봇이 짧은 기억을 갖도록 강제했습니다. 그들은 로봇에게 "너는 오직 직전의 과거만 볼 수 있다"라고 명령했습니다.
결과: 로봇은 더 이상 "전체적인 그림"인 곡선에 의존할 수 없었기 때문에, 게임의 "규칙"을 알아내야만 했습니다. 다음 단계를 예측하기 위해 지금 당장 행성에 작용하는 보이지 않는 "끌림(중력)"을 계산해야만 했습니다. 갑자기 로봇은 타원을 그리는 것을 멈추고 힘을 계산하기 시작했습니다. 로봇은 물리학자가 된 것입니다.

핵심 요약

이 논문은 AI의 뇌를 어떻게 설계하느냐가 AI가 무엇을 배우는지를 결정한다고 결론짓습니다.

만약 모든 것을 보게 하고 픽셀화된 지도를 준다면, 그것은 곡선 맞추기 기계(케플러)가 됩니다. 예쁜 그림은 그리지만 우주를 이해하지는 못합니다.
만약 매끄러운 지도를 주고, 실수를 처리하는 법을 가르치며, 짧은 기억을 갖도록 강제한다면, 그것은 물리학자(뉴턴)가 됩니다. 스스로 물리 법칙을 발견하게 됩니다.

저자들은 물리 법칙을 AI에게 직접 프로그래밍할 필요가 없음을 보여줍니다. 단지 적절한 "귀납적 편향"(적절한 학습 제약 조건)을 제공하기만 하면, AI는 스스로 법칙을 발견하게 됩니다.

기술 요약: 케플러에서 뉴턴까지: 인덕티브 바이어스(Inductive Biases)가 트랜스포머의 학습된 세계 모델을 가이드하는 방식

1. 문제 정의

본 논문은 범용 기초 모델(트랜스포머)이 과학적 발견을 수행할 때 직면하는 결정적인 능력 격차를 다룹니다. 기존의 "AI 물리학자(AI Physicist)" 접근 방식들은 물리 법칙을 효과적으로 "미리 주입(bake in)"하는 강력하고 도메인 특화된 사전 지식(p-riors)에 의존하여 상징적 물리 법칙을 성공적으로 복구해 왔습니다. 반면, 최근 Vafa 등(2025)의 연구는 일반적인 트랜스포머가 (GPT-2 규모에서도) "세계 모델(world models)"—즉, 현상이 왜 발생하는지를 설명하는 인과적 추상화—을 습득하는 데 실패한다는 것을 보여주었습니다. 대신, 이 모델들은 근저에 깔린 역학적 법칙(뉴턴 역학)을 포착하는 대신 기하학적 곡선 피팅(케플러 모델)을 학습함으로써 높은 예측 정확도를 달ей합니다.

핵심 연구 질문은 다음과 같습니다: 왜 트랜스포머는 행성 운동에 대한 뉴턴식 세계 모델을 학습하는 데 실패하며, 이를 어떻게 해결할 수 있는가? 저자들은 이러한 실패가 아키텍처의 근본적인 한계 때문이 아니라, 특정하고 최소한의 인덕티브 바이어스(inductive biases)가 부족하기 때문이라고 가정합니다.

2. 방법론

저자들은 통제된 환경(중심 질량 주변의 2D 행성 운동 예측)에서 트랜스포머의 실패 모드를 체계적으로 조사합니다. 이들은 기하학적 예측과 물리 법칙 발견 사이의 간극을 메우기 위해 세 가지 최소한의 인덕티브 바이어스를 도입합니다.

문제 설정

이 과제는 과거 위치의 이력을 바탕으로 다음 위치 $\vec{r}_{t+1}$ 을 예측하는 것을 포함하며, 이는 자기회귀적 다음 토큰 예측(NTP) 문제로 정형화됩니다.

베이스라인: 설정은 Vafa 등(2025)을 따르며, 연속적인 좌표를 토큰(빈, bins)으로 이산화하고 교차 엔트로피 손실을 통해 예측합니다.
제안된 수정 사항: 저자들은 특정 인덕티브 바이어스를 분리하기 위해 토큰화, 손실 함수 및 어텐션 메커니즘의 변형을 테스트합니다.

세 가지 인덕티브 바이어스

바이어스 1: 공간적 매끄러움 (Spatial Smoothness)

실패 모드: 기본 토큰화는 연속적인 공간 좌표를 독립적인 빈으로 이산화하며 무작위로 초기화된 임베딩을 사용합니다. 이는 공간적 매끄러움을 깨뜨립니다. 물리적으로는 가깝지만 서로 다른 빈에 속한 점들은 서로 관련 없는 것으로 취급됩니다. 저자들은 방대한 데이터(20B 토큰)를 사용하더라도 학습된 임베딩 공간이 일관된 공간 맵을 형성하지 못함을 보여줍니다(낮은 선형 디코더 성능, $R^2 \approx 0.86$ ).
해결책:
1. 최적화된 토큰화: 어휘 사전 크기( $V$ )를 크게 줄이면 공간 맵의 출현이 크게 개선됩니다. 저자들은 학습 데이터 크기( $D$ )가 맵의 품질을 유지하기 위해 어휘 사전 크기( $V$ )만큼 빠르게 증가해야 한다는 스케일링 법칙( $1-R^2 \propto D^{-\alpha_D} V^{\alpha_V}$ )을 도출했습니다.
2. 연속 좌표: 대안으로, 이산화 없이 연속 좌표를 사용하는 것은 본질적으로 공간적 매끄러움을 제공하지만, 이는 안정성 문제를 야기할 수 있습니다.

바이어스 2: 공간적 안정성 (Spatial Stability)

실패 모드: 자기회귀 모델은 오차 누적의 문제를 겪으며, 이는 연속 변수(회귀)를 예측할 때 이산 토큰(분류)을 예측할 때보다 더 악화됩니다. 완화 조치가 없으면 작은 초기 오차가 궤적을 파멸적으로 발산하게 만듭니다(예: 행성이 무한히 멀어지거나 태양으로 빨려 들어감).
해결책: 노이즈 컨텍스트 학습 (Noisy Context Learning). 저자들은 훈련 중에 과거 컨텍스트에 가우시안 노이즈를 주입합니다. 이는 모델이 완벽한 과거 상태에 의존하지 않고 견고한 표현을 학습하도록 강제합니다.
결과: 노이즈 컨텍스트 훈련을 사용하면, 모든 데이터 규모에서 분류(교차 엔트로피를 사용하는 이산화된 좌표)보다 회귀(연속 좌표와 MSE 손실 사용)가 일관되게 우수한 성능을 보입니다.

바이어스 3: 시간적 국소성 (Temporal Locality)

실패 모드: 표준 트랜스포머는 긴 컨텍스트 길이(예: 1k+ 토큰)를 사용하여 궤적의 전체 이력에 접근할 수 있습니다. 이는 모델이 모든 과거 지점을 기반으로 전역적인 기하학적 형태(타원)를 피팅하도록 유도합니다—즉, "케플러적" 접근 방식입니다.
해외책: 제한된 어텐션 윈도우 (Restricted Attention Window). 저자들은 컨텍스트 길이를 즉각적인 과거(예: 마지막 2개의 상태)로 제한합니다. 이는 미래의 상태가 오직 국소적 상태(위치와 속도)에만 의존한다는 물리적 가정을 부과하며, 이는 뉴턴의 제2법칙(2계 미분 방정식)과 일치합니다.
결과: 이 제약은 모델이 전역적인 곡선 피팅을 포기하고, 대신 궤적을 단계별로 시뮬레이션하기 위해 국소적인 중력 법칙( $\vec{F} \propto 1/r^2$ )을 학습하도록 강제합니다—즉, "뉴턴적" 접근 방식입니다.

3. 주요 결과

공간 맵의 출현: 토큰화된 모델에서 학습된 공간 맵의 품질은 어휘 사전 크기에 매우 민감합니다. 큰 어휘 사전(예: $V=7000$ )은 일관된 맵을 학습하기 위해 비현실적인 양의 데이터를 요구합니다. $V$ 를 줄이거나 연속 좌표를 사용하는 것이 이 문제를 해결합니다.
회귀 vs 분류: Vafa 등의 연구 결과와 달리, 저자들은 노이즈 컨텍스트 학습을 사용하여 추론을 안정화하는 조건 하에 연속 좌표를 사용한 회귀가 분류보다 우월함을 입증합니다.
케플러 모델 vs 뉴턴 모델:
- 긴 컨텍스트 (케플러적): 모델은 모든 과거 상태를 사용하여 전역적인 타원 궤적을 피팅하는 법을 배웁니다. 모델은 곡선을 연장함으로써 예측합니다.
- 짧은 컨텍스트 (뉴턴적): 국소 상태로 제한될 때, 모델은 근저에 깔린 힘의 법칙을 발견합니다. 모델은 미분 방정식 $F=ma$를 시뮬레이션함으로써 예측합니다.
인덕티브 바이어스 계층 구조: 본 논문은 단순한 아키텍처 선택(토큰화 전략, 컨텍스트 길이)이 AI를 "곡선 피터(curve-fitter)"로 만들 것인지 아니면 "물리학자(physicist)"로 만들 것인지를 결정한다는 것을 보여줍니다.

4. 의의 및 주장

본 논문은 단순한 아키텍처 선택이 일반 목적 AI가 물리 법칙을 발견할 것인지 아니면 단순히 데이터를 피팅할 것인지를 결정하는 결정적 요인이라고 주장합니다.

간극 해소: 이 연구는 "AI 물리학자" 모델(강한 사전 지식을 사용하는)과 일반적인 트랜스포머(물리학 학습에 실패하는) 사이의 격차를 메웁니다. 이는 일반적인 트랜스포머가 최소한의 도메인 불가지론적 인덕티브 바이어스(매끄러움, 안정성, 국소성)를 갖추었을 때 세계 모델을 학습할 수 있음을 보여줍니다.
자동화된 과학적 발견: 이 결과는 "AI 과학자"라는 비전에 대한 "결정적인 리트머스 시험대" 역할을 합니다. 만약 범용 아키텍처가 특정 엔지니어링 없이 고전 역학의 알려진 법칙을 복구할 수 없다면, 그 모델들이 미지의 법칙을 발견할 것이라고 신뢰할 수 없습니다.
실패의 메커니즘: 본 논문은 이전 대규모 모델들의 실패가 용량(capacity)의 부족 때문이 아니라, 기하학적 상관관계보다 인과적 추상화의 출현을 강제하는 데 필요한 특정 인덕티브 바이어스(특히 시간적 국소성과 공간적 안정성)의 부재 때문임을 명확히 합니다.

저자들은 이러한 바이어스를 체계적으로 도입함으로써, 트랜스포머가 단순히 '다음에 무엇이 일어날지'를 예측하는 단계에서 벗어나 '왜 그것이 일어나는지'를 이해하는 단계로 전이될 수 있다고 결론지으며, 이는 자동화된 과학적 발견을 향한 진전임을 밝힙니다.

From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers