큰 그림: "번역 과정에서의 유실" 문제

당신이 아주 길고 복잡한 가구 조립 설명서를 따라 하고 있다고 상상해 보세요. 이 설명서는 단순히 단계의 목록이 아니라, 순서가 매우 중요한 일련의 움직임들로 이루어져 있습니다. 왼쪽 다리를 오른쪽 다리보다 먼저 끼우면 테이블이 똑바로 서지만, 순서를 반대로 하면 테이블은 무너집니다.

대부분의 현대 AI 모델(챗봇을 구동하는 모델들)은 읽은 내용을 요약하는 데는 매우 뛰어납니다. 만약 당신이 "텍스트가 무엇을 말했나요?"라고 물으면 그들은 아주 잘 대답합니다. 하지만 "100만 번의 단계가 지난 후 현재 시스템의 상태는 무엇입니까?"라고 묻는다면, 그들은 종종 길을 잃습니다. 그들은 사건의 구체적인 순서를 잊어버리고, 보통 어떤 일이 일어나는지에 기반해 추측해 버리는 경향이 있습니다.

이 논문은 AI가 아주 긴 시간 동안 복잡하고 순서에 민감한 상태를 진정으로 추적할 수 있는지 테스트하는 새로운 방법을 소개하며, 이를 완벽하게 수행할 수 있는 특정 유형의 AI를 보여줍니다.

테스트: "금지된 움직임" 챌린지

AI가 단순히 지름길을 암기하고 있는 것이 아님을 증명하기 위해, 연구진은 **"홀드아웃 전이 쌍 검증기(Held-Out Transition-Pair Falsifier)"**라는 특별한 테스트를 만들었습니다.

비유: 비밀 코드 게임
기호(예: 알파벳)를 조합하여 금고를 여는 게임을 한다고 상상해 보세요.

규칙: 기호를 조합하는 순서가 결과를 바꿉니다. A 다음에 B를 하면 금고가 열리지만, B 다음에 A를 하면 금고가 꽉 잠겨버립니다.
함정: 보통 AI를 짧은 시퀀스로 훈련시키면, AI는 단순히 "A를 보면 다음에 B가 올 것이라고 예상한다"는 식의 패턴을 암기할 수 있습니다. 이는 수학적 원리를 이해하지 못한 채 특정 퀴즈의 정답만 외운 학생과 같습니다.

연구진의 트릭:
연구진은 특정 움직임의 쌍(예: 훈련 중에 A 바로 다음에 B가 오는 것을 절대 보여주지 않음)을 금지한 훈련 세트를 만들었습니다.
그 후, 테스트에서는 훈련 시퀀스보다 10만 배 더 긴 시퀀스 속에서 AI가 정확히 그 금지된 쌍(A 다음에 B)을 마주하도록 강제했습니다.

만약 AI가 패턴을 암기한 것이라면: 특정 쌍을 본 적이 없기 때문에 즉시 실패할 것입니다.
만약 AI가 진정으로 논리를 이해한 것이라면: 기호들이 어떻게 결합되는지에 대한 근본적인 규칙을 이해하고 있기 때문에, 여전히 퍼즐을 풀 수 있을 것입니다.

결과: "마법 프로젝터" 모델 vs "표준 모델들"

연구진은 이 챌린지에 세 가지 유형의 AI 모델을 테스트했습니다.

표준 모델들 (The "Bag" 및 "GRU"): 이들은 흔히 쓰이는 강력한 AI 구조들입니다.
- 결과: 처참하게 실패했습니다. 점수는 거의 0점에 가까웠습니다. 이들은 금지된 쌍을 처리하지 못했으며, 이는 그들이 단순히 암기된 패턴에 의존하다가 패턴이 바뀌자 혼란에 빠졌음을 증명합니다.
"마법 프로젝터" 모델 (제안된 솔루션): 특정 "귀납적 편향(inductive bias, 내장된 구조적 선호도)"을 갖도록 설계된 특별한 모델입니다.
- 작동 방식: 단순히 다음 단어를 예측하는 대신, 이 모델은 수학적 카운터 역할을 하는 숨겨진 "상태(state)"를 유지합니다. 마지막 단계에서 투영(projection) 단계를 사용하여 내부의 수학적 계산을 올바른 기호적 정답으로 딱 맞게 고정합니다.
- 결과: 만점. 시퀀스가 100만 토큰이 넘는 상황에서도(훈련은 단 8토큰이었음에도 불구하고), 이 모델은 100% 확률로 정답을 맞혔습니다.

"온도" 체크: 왜 작동하는가?

연구진은 단순히 승리를 받아들이는 데 그치지 않고, 모델이 어떻게 문제를 해결하고 있는지 알고 싶었습니다. 그들은 모델 내부에서 무슨 일이 일어나는지 확인하기 위해 "온도" 다이얼을 사용했습니다.

하드 프로젝션 (차가움): 모델이 정밀하도록 강제될 때(차가울 때), 모델은 완벽한 수학자처럼 행동합니다. 상태를 정확하게 추적하며, 답은 항상 옳습니다.
소프트 프로젝션 (따뜻함): 모델을 더 "부드럽게" 혹은 느슨하게 만들었을 때, 성능은 즉시 붕괴되었습니다. 모델은 추측을 하기 시작했습니다.

이는 모델이 단순히 "운이 좋았거나" "막연하게 기억하고 있었던 것"이 아님을 입증했습니다. 모델은 능동적으로 정밀한 비가환(non-commutative, 순서에 민감한) 계산을 수행하고 있었습니다. 정밀도를 완화하면 논리가 깨지게 됩니다.

"클린 룸(Clean Room)" 검증

AI가 데이터의 숨겨진 지름길을 찾아내어(예: 훈련 세트에서 정답을 우연히 봄) 속임수를 쓰는 것이 아닌지 확인하기 위해, 연구진은 "누출 감사(leakage audit)"를 실시했습니다.

훈련 데이터와 테스트 데이터 사이에 겹치는 패턴이 전혀 없음을 확인했습니다.
"금지된" 쌍들이 모델에게 정말로 새로운 것이었음을 확인했습니다.
결론: 모델은 속임수가 아니라 진정한 규칙을 학습했습니다.

이 논문이 말하지 않는 것

논문의 실제 주장만을 엄격히 지키는 것이 중요합니다:

이 모델이 시를 쓰거나, 코딩을 하거나, 인간과 대화하는 데 더 뛰어나다고 말하지 않습니다.
이것이 AI의 모든 장기 기억 문제를 해결한다고 말하지 않습니다.
이것이 모든 수학 문제에 적용된다고 말하지 않습니다.

이 논문은 매우 구체적입니다: 특정 유형의 논리 퍼즐(유한 군 내에서 비가환 상태를 추적하는 문제)에 대해, 특정 "투영된" 구조를 가진 모델이 표준 모델들과 달리 수백만 단계에 걸쳐 순서를 완벽하게 추적할 수 있음을 보여줍니다.

핵심 요약

이 논문을 하나의 개념 증명(proof of concept)으로 생각하세요. 이는 만약 AI가 복잡하고 순서에 의존적인 상태를 아주 긴 시간 동안 추적하기를 원한다면, 단순히 표준적인 "추측형" 모델에 의존해서는 안 된다는 것을 보여줍니다. 대신, 상태를 특정 방식으로 진화하는 수학적 객체로 취급하도록 명시적으로 설계된 모델이 필요합니다.

"마법 프로젝터" 모델이 다른 모델들이 실패한 곳에서 성공할 수 있었던 이유는, 다음 단어를 추측하려고 노력하는 대신 시퀀스의 수학을 실제로 수행했기 때문입니다.

기술 요약: 장기 지평 비가환 상태 추적을 위한 홀드아웃 전이 쌍 검증법 (Held-Out Transition-Pair Falsifier)

1. 문제 정의

현재의 시퀀스 모델들은 장기 문맥(long-context) 시나리오에서 치명적인 한계에 직면해 있다: 즉, 관련 신호가 관찰된 토큰의 요약이 아니라 비가환 연산(non-commutative operations)의 합성인 경우, 순서가 있는 잠재 상태를 유지하는 데 실패한다는 점이다. 워크플로우 제어나 에이전트 추론과 같은 설정에서, 시스템은 연산의 순서가 중요한( $a \cdot b \neq b \cdot a$ ) 방식으로 진화하는 상태를 추적해야 한다.

토큰 수준의 예측이나 인컨텍스트 러닝(in-context learning)에 초점을 맞춘 기존의 평가 방식은, 모델이 보이는 토큰들을 잘 요약하는 모델에게 보상을 주는 경향이 있다. 그러나 이러한 방식은 진정한 비가환 상태 합성(non-commutative state composition)과 "로컬 템플릿 암기(local-template memorization)"를 구분하지 못한다. 모델은 관찰된 로컬 전이 패턴(예: $(a_i, a_j) \to \text{next state}$ )으로부터 보이는 것을 보간(interpolation)함으로써, 실제로는 필요한 대수적 합성을 수행하지 않고도 더 긴 시퀀스 길이로 외삽(extrapolate)하는 것처럼 보일 수 있다. 본 논문은 진정한 상태 추적 능력을 테스트하기 위해 직접적인 암기 경로를 명시적으로 차단하는 프로토콜의 필요성을 식별한다.

2. 방법론

2.1 홀드아웃 전이 쌍 검증법 (The Held-Out Transition-Pair Falsifier)

핵심 기여는 로컬 템플릿 암기에 의존하는 모델을 검증(falsify)하기 위해 설계된 특정 데이터 분할 프로토콜이다:

대상 작업: 유한 비가환 군(finite non-Abelian group) $G$ 내에서 누적 곱 $H_L = a_{t_1} \cdot a_{t_2} \cdot \dots \cdot a_{t_L}$ 을 추적하는 것.
분할 방식: 프로토콜은 금지된 순서쌍 생성자 집합 $P_{forbid}$ $P_{f or bi d}$ 를 정의한다.
- 훈련 (Training): $P_{forbid}$ 에 속하는 어떤 쌍도 연속된 생성자로 포함되지 않도록 시퀀스를 생성한다.
- 평가 (Evaluation): 모든 평가 시퀀스는 $P_{forbid}$ 에 속하는 각 쌍을 적어도 하나 이상 포함하도록 보장한다.
함의: 특정 로컬 전이 템플릿 $(a_i, a_j) \to \text{state}$ 를 암기하여 문제를 해결하려는 모델은 반드시 실패하게 된다. 왜냐นั้น 요구되는 템플릿이 훈련 중에 관찰되지 않았기 때문이다. 이 프로토콜 하에서의 성공은 모델이 단순한 템플릿 보간이 아닌, 진정한 상태 합성을 수행하고 있음을 의미한다.

2.2 벤치마크: $S_3 \times S_3$

주요 실험은 두 대칭군의 직적(direct product)인 $G = S_3 \times S_3$ 를 활용한다. 상태 공간 크기는 36이다.

생성자: $\Sigma = \{a_0, a_1, a_2, a_3\}$ 이며, 여기서 $\{a_0, a_1\}$ 은 첫 번째 $S_3$ 인자를, $\{a_2, a_3\}$ 는 두 번째 $S_3$ 인자를 생성한다.
비가환 특성: 서로 다른 인자 간의 요소들은 가환(commute)하지만, 단일 인자 내의 요소들은 가환하지 않는다. 이 작업은 전체 시퀀스에 걸쳐 순서를 보존할 것을 요구한다.
홀드아웃 쌍: 주요 실험에서는 $P_{forbid} = \{(a_0, a_2), (a_2, a_0)\}$ 를 사용한다. 이 쌍들은 서로 다른 인자들로부터 추출되었으며(원소 간 가환), 이는 검증법이 인접한 쌍 자체의 비가환성이 아니라 '로컬 템플릿'을 타겟팅하도록 보장한다. 강건성 체크를 위해 단일 인자 내의 쌍(예: $\{(a_0, a_1), (a_1, a_0)\}$ )도 사용된다.

2.3 모델 아키텍처: 투영된 순환 상태 (Projected Recurrent State)

제안된 모델은 캐리어 불가지론적(carrier-agnostic) 인터페이스로 정의된다:

연속적 은닉 상태: 연속 값 형태의 순환 상태 $s_t$ 를 유지한다.
결합적 합성 (Associative Composition): 업데이트는 결합적이고 비가환적인 합성 규칙( $s_t = s_{t-1} \odot u_t$ )을 따르며, 이를 통해 스캔 병렬 계산(scan-parallel computation)이 가능하다.
투영 판독 (Projection Readout): 투영 연산자 $\pi: S \to G$ $π : S \to G$ 가 연속 상태를 유한 군의 기호적 원소로 매핑한다.
- 하드 투영 (Hard Projection, $T \to 0$ ): 가장 가까운 군 원소를 반환한다 (기호적 출력).
- 소프트 투영 (Soft Projection, $T > 0$ ): 군 원소들에 대한 확률 분포를 반환한다.

2.4 진단 프레임워크

메커니즘을 검증하기 위해, 투영 온도( $T$ ) 변화에 따른 네 가지 진단 지표를 도입한다:

최종 토큰 정확도 (Final-token Accuracy): 올바른 군 원소를 예측할 확률.
정확한 준동형 오차 (Exact Homomorphism Error): $\pi(s(uv)) \approx \pi(s(u)) \cdot \pi(s(v))$ 를 만족하는지 측정.
상태 일관성 드리프트 (State-Consistency Drift): 캐리어의 제약 다양체(constraint manifold)로부터의 이탈 정도를 측정.
교환자 간극 (Commutator Gap): 교환자 $[x, y]$ 의 표현과 항등원 사이의 거리를 측정.

2.5 베이스라인

본 연구는 제안된 모델을 다음 모델들과 비교한다:

네이티브 판독 베이스라인 (Native Readout Baselines): Bag-of-tokens, GRU, 그리고 표준 연속 판독을 사용하는 구조화된 상태 공간 모델(SSM).
투영 매칭 베이스라인 (Projection-Matched Baselines): 동일한 홀드아웃 분할 하에서 학습된, 36개의 군 원소에 대한 학습된 프로토타입 투영을 갖춘 동일 아키텍처들(GRU, SSM, Bag). 이는 제안된 모델의 성공이 단순히 판독 메커니즘의 결과물이 아님을 통제하기 위함이다.

3. 주요 결과

3.1 장기 지평 성능 (Gate B)

훈련: 시퀀스 길이 $L_{train} = 8$ .
평가: 지평 $L_{eval}$ 이 최대 $1,048,576 $에 달함 (외삽 비율 약$ 10^5$).
제안된 모델: 하드 투영 모델은 모든 다섯 가지 시드(seed)와 모든 평가 지평에서 **100% 정확도 (250/250)**를 달성하였으며, 백만 토큰 한계에서도 이를 유지했다.
베이스라인:
- 네이티브 판독 베이스라인은 바닥 수준(0.00–0.05 정확도)에 머물렀다.
- 투영 매칭 베이스라인(프로토타입 판독을 갖춘 GRU, SSM, Bag) 또한 우연 수준(1/36 $\approx$ 0.0278) 근처에 머물렀으며, 최대 정확도는 약 0.06이었다.
결론: 성공은 투영 판독 자체 때문이 아니다; 특유의 비가환 상태 합성 인터페이스가 필수적이다.

3.2 메커니즘 진단 (Gate C)

투영 온도 $T \approx 0.5$ 에서 명확한 경계가 확인되었다:

하드 투영 ( $T=0.25$ ): 모델은 거의 제로에 가까운 준동형 오차, 낮은 상태 일관성 드리프트, 그리고 큰 교환자 간극을 보인다. 이는 연속 상태가 근사적으로 군 준동형(group homomorphism)처럼 동작함을 나타낸다.
소프트 투영 ( $T \ge 0.5$ ): 최종 토큰 정확도가 우연 수준으로 급락한다. 준동형 오차는 수 자릿수만큼 증가하며, 교환자 간극은 0에 가깝게 감소한다.
함의: 모델의 상태 추적 능력은 투영이 소프트해질 때 성능이 무너지는 것과 대조적으로, 하드 투영 영역에서 표현이 준동형적 행동을 근사할 때와 불가분하게 연결되어 있다.

3.3 강건성 및 누출 체크

동일 인자 내 강건성 (Same-Factor Robustness): 홀드아웃 쌍이 단일 비가환 인자(예: $a_0, a_1$ ) 내에서 추출되었을 때도, 하드 투영 모델은 100% 정확도를 유지한 반면 베이스라인들은 실패했다. 이는 결과가 교차 인자 템플릿 선택의 결과가 아님을 확인시켜 준다.
누출 감사 (Leakage Audit, Gate E): 훈련 및 평가 세트 간의 축약된 단어(reduced-word) 중복이 없으며, 구조적 템플릿 중복도 없음을 검증했다. 데이터 생성 과정은 홀드아웃 쌍이 훈련 중에 실제로 관찰되지 않음을 보장한다.
예비 $S_5$ 스트레스 테스트: 비가해적 군(non-solvable group)인 $S_5$ ( $|G|=120$ )에 대한 예비 테스트에서, 하드 투영 모델은 65,536 토큰까지 100% 정확도를 보였으나 베이스라인들은 우연 수준에 머물렀다. 저자들은 이것이 예비 단계이며 미공개된 캐리어 구현체에 의존하고 있음을 명시했다.

4. 의의 및 주장

본 논문은 의도적으로 좁지만 구체적인 기여를 한다:

검증 프로토콜: 가장 직접적인 로컬 템플릿 암기 경로를 효과적으로 차단하는 "홀드아웃 전이 쌍 검증법"을 도입했다. 이 프로토콜 하에서 표준 시퀀스 모델(GRU, SSM, Bag)은 외삽에 실패한다.
귀납적 편향 (Inductive Bias): 명시적인 투영된 비가환 상태 합성 인터페이스가 장기 지평 상태 추적에 유용한 귀납적 편향으로 작용함을 입증한다.
메커니즘 검증: 모델의 성공이 투영을 완화할 때 정확도와 준동형 지표가 붕괴되는 것을 통해 확인되듯, 근사적인 군 준동형 표현을 학습하는 데서 기인한다는 증거를 제공한다.

한계 및 범위:

결과는 통제된 유한 군 벤치마크( $S_3 \times S_3$ 및 예비 $S_5$ )에 국한된다.
본 논문은 개방형 자연어 또는 코드 작업에서 트랜스포머(Transformer)나 다른 아키텍처보다 일반적인 우월성을 주장하지 않는다.
정확한 연속 캐리어 구성은 공개되지 않았다; 주장은 그 인터페이스에 관한 것이다.
성공은 하드 투영에 의존한다; 동일한 모델의 소프트 또는 비투영 변형은 이러한 지평에서 실패한다.

요약하자면, 본 논문은 상태가 '순서'인 경우, 명시적으로 투영된 비가환 구조를 사용하면 평가 프로토콜이 단순한 템플릿 암기를 방지할 때 백만 토큰 지평에 걸친 정확한 상태 추적을 가능하게 할 수 있다고 주장한다.

A Held-Out Transition-Pair Falsifier for Long-Horizon Non-Abelian State Tracking