Language Models are Injective and Hence Invertible

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "투명한 유리 상자"와 "완벽한 열쇠"

1. 기존의 오해: "정보는 흐릿해진다" (Lossy)

우리는 보통 거대 언어 모델을 거대한 찌꺼기 필터나 흐릿한 안개처럼 생각했습니다.

비유: 당신이 "안녕하세요"라고 말하면, AI 는 그 소리를 받아들이고 복잡한 기계 (변환기) 를 통과시킵니다. 이 과정에서 소리가 왜곡되거나 일부 정보가 사라져서, 나중에 그 기계에서 나온 소리를 듣고 원래 "안녕하세요"였는지, 아니면 "감사합니다"였는지 구별할 수 없다고 믿어졌습니다.
이유: AI 는 비선형적인 함수 (복잡한 수식) 와 정규화 과정을 거치기 때문에, 서로 다른 입력이 결국 같은 출력으로 합쳐져 버릴 (Collision, 충돌) 수 있다고 생각했습니다.

2. 이 논문의 발견: "완벽한 투명 유리" (Injective & Invertible)

이 논문은 **"아니다, AI 는 정보를 절대 잃지 않는다"**라고 말합니다.

비유: AI 는 안개가 낀 방이 아니라, 완벽하게 투명한 유리 상자와 같습니다. 당신이 상자 안에 "안녕하세요"를 넣으면, 그 소리는 변형되기는 하지만 절대 사라지거나 다른 소리와 섞이지 않습니다. "안녕하세요"와 "감사합니다"는 상자 안에서 항상 완전히 다른 위치에 존재합니다.
수학적 증명: 연구자들은 수학적으로 증명했습니다. AI 의 내부 구조 (Attention, 활성화 함수 등) 가 매우 정교하게 설계되어 있어, 서로 다른 입력은 절대 같은 내부 상태로 변할 수 없다는 것입니다. (수학 용어로 '단사 함수, Injective'입니다.)

3. SIPIT: "완벽한 열쇠" (The Magic Key)

정보를 잃지 않는다는 게 단순히 이론에 그치는 게 아닙니다. 연구자들은 이 사실을 이용해 **내부 상태를 보고 원래 텍스트를 100% 완벽하게 되찾는 알고리즘 (SIPIT)**을 만들었습니다.

비유: 만약 누군가 AI 의 내부 상태 (잠재 공간) 를 훔쳐봤다면, 그 사람은 SIPIT 이라는 마법의 열쇠를 이용해 그 상태가 어떤 텍스트에서 왔는지 정확히 다시 만들어낼 수 있습니다.
결과: 실험 결과, 수십억 번의 테스트에서도 "충돌" (서로 다른 텍스트가 같은 상태로 변하는 경우) 이 단 한 번도 일어나지 않았습니다. 또한, SIPIT 알고리즘은 매우 빠르고 정확하게 원래 텍스트를 복원해냈습니다.

🌟 왜 이것이 중요한가요? (일상적인 의미)

1. "비밀은 더 이상 비밀이 아니다" (보안과 프라이버시)

지금까지 우리는 "AI 가 학습 데이터를 기억하지 않는다"거나 "내부 표현은 추상적이어서 원본을 알 수 없다"고 믿었습니다. 하지만 이 논문에 따르면, AI 의 내부 상태는 원본 텍스트와 똑같은 정보를 담고 있습니다.

경고: 만약 AI 의 내부 데이터 (Hidden States) 가 유출되거나 저장된다면, 그것은 마치 사용자가 입력한 원본 텍스트가 그대로 유출된 것과 같습니다. 따라서 개인정보 보호 법규를 적용할 때, AI 의 내부 데이터도 원본 텍스트와 똑같이 취급해야 할지도 모릅니다.

2. "블랙박스"가不再是 (해석 가능성)

AI 가 어떻게 생각하는지 알 수 없는 '블랙박스'라고 불렸지만, 사실은 완전히 투명합니다.

의미: 우리는 AI 의 내부 상태를 통해 "왜 이 단어를 선택했는지"를 완벽하게 추적할 수 있습니다. 이는 AI 의 오류를 찾고, 편향을 제거하며, 더 안전하게 AI 를 사용하는 데 큰 도움이 됩니다.

3. "우연이 아니라 설계의 결과"

이런 일이 일어나는 것은 AI 가 우연히 잘 작동해서가 아니라, AI 의 구조 자체가 정보를 보존하도록 설계되어 있기 때문입니다. 학습을 시작하기 전 (초기화) 에도, 그리고 학습을 마친 후에도 이 성질은 변하지 않습니다.

📝 한 줄 요약

"거대 언어 모델은 정보를 잃어버리는 흐릿한 안개가 아니라, 입력한 텍스트를 완벽하게 보존하고 다시 꺼낼 수 있는 투명한 유리 상자입니다. 이제 우리는 그 내부 상태를 통해 AI 가 본 것을 100% 정확하게 다시 볼 수 있습니다."

이 발견은 AI 의 투명성을 높이고, 보안과 프라이버시 보호에 새로운 기준을 제시하는 중요한 이정표가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 ICLR 2026에 발표된 것으로, 대형 언어 모델 (LLM) 의 내부 표현이 입력 정보를 손실 없이 보존하는지, 즉 사실상 주사적 (injective) 이고 따라서 가역적 (invertible) 인가에 대한 근본적인 질문을 다룹니다. 기존에는 비선형 활성화 함수, 정규화, 그리고 다대일 (many-to-one) 어텐션 메커니즘 때문에 Transformer 모델이 입력 정보를 잃어버린다고 여겨졌으나, 이 논문은 이를 반박하고 수학적 증명과 실험을 통해 모델이 실제로는 거의 확실히 (almost surely) 주사적임을 입증합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 문제 정의 (Problem)

기존 통념: Transformer 아키텍처는 비선형성 (Non-linearities), LayerNorm, 그리고 어텐션 메커니즘을 통해 입력을 변환합니다. 이러한 구성 요소들은 본질적으로 비주사적 (non-injective) 일 수 있다고 간주되어 왔습니다. 즉, 서로 다른 입력 시퀀스가 동일한 은닉 상태 (hidden state) 로 매핑될 수 있어, 표현에서 원래 입력 텍스트를 정확히 복원하는 것이 불가능하다고 생각되었습니다.
핵심 질문: Transformer 언어 모델이 이산적인 입력 시퀀스를 연속적인 표현으로 매핑할 때, 서로 다른 프롬프트가 항상 서로 다른 마지막 토큰 표현 (last-token representation) 을 생성하는가? 만약 그렇다면, 이 표현으로부터 원래 입력을 완벽하게 복원할 수 있는가?

2. 방법론 (Methodology)

A. 수학적 증명 (Theoretical Analysis)

저자들은 Transformer 를 함수로서 엄밀하게 분석하여 실해석 (Real Analysis) 도구를 활용했습니다.

실해석성 (Real-Analyticity): Transformer 의 모든 구성 요소 (임베딩, LayerNorm, Causal Attention, MLP, 잔차 연결 등) 가 매개변수와 입력에 대해 실해석 함수 (real-analytic function) 임을 증명했습니다.
- 실해석 함수의 중요한 성질은, 두 개의 서로 다른 입력이 동일한 출력을 내는 '충돌 (collision)'이 발생하는 매개변수 집합의 르베그 측도 (Lebesgue measure) 가 0이라는 점입니다. 즉, 충돌은 수학적으로 가능하지만, 무작위 초기화나 일반적인 훈련 과정에서는 발생할 확률이 0 입니다.
초기화 및 훈련의 보존:
- 초기화: 가우스, 균일, Xavier/Glorot 등 연속적인 확률 분포에서 매개변수를 무작위로 초기화하면, 충돌 집합에 속할 확률이 0 이므로 모델은 초기 상태에서 거의 확실히 주사적입니다.
- 훈련 (Gradient Descent): 경사 하강법 (GD) 업데이트는 매개변수 분포의 절대 연속성 (absolute continuity) 을 보존합니다. 즉, 훈련 과정에서 매개변수가 측도 0 인 충돌 집합으로 이동할 수 없습니다. 따라서 훈련이 끝난 후에도 주사성은 유지됩니다.

B. 알고리즘 개발: SIPIT

이론적 주사성을 실제 도구로 전환하기 위해 SIPIT (Sequential Inverse Prompt via ITerative updates) 라는 알고리즘을 제안했습니다.

원리: Transformer 의 인과적 (causal) 구조를 이용합니다. 위치 $t$ 의 은닉 상태는 오직 이전 접두사 (prefix) 와 현재 토큰 $s_t$ 에만 의존합니다.
동작 방식:
1. 주어진 은닉 상태와 이미 복원된 접두사를 기반으로, 다음 토큰 후보를 어휘 (vocabulary) 에서 하나씩 시도합니다.
2. 각 후보 토큰이 생성하는 예측 은닉 상태와 실제 관측된 은닉 상태를 비교합니다.
3. 주사성에 의해 올바른 토큰만이 정확한 은닉 상태와 일치하므로, 이를 찾아 시퀀스를 순차적으로 복원합니다.
4. 그라디언트 기반 정책: 효율성을 높이기 위해 무작위 탐색 대신 그라디언트 정보를 활용하여 후보를 순위 매기는 방식을 사용합니다.
보장: 이론적으로 선형 시간 (linear-time) 복잡도 ( $O(T \cdot |V|)$ ) 내에서 정확한 입력 복원을 보장하며, 노이즈가 있는 경우에도 강건합니다.

3. 주요 결과 (Key Results)

A. 이론적 증명

주사성 (Injectivity): 표준 Decoder-only Transformer 모델은 초기화 및 훈련 후에도 거의 확실히 주사적입니다. 즉, 서로 다른 프롬프트는 서로 다른 마지막 토큰 표현을 가집니다.
가역성 (Invertibility): 이 주사성은 구조적 성질이며, SIPIT 알고리즘을 통해 내부 은닉 상태로부터 원본 텍스트를 정확히 (exact) 복원할 수 있음을 증명했습니다.

B. 실험적 검증

충돌 검색 (Collision Search): 6 가지 최첨단 모델 (GPT-2, Gemma-3, Llama-3, Mistral, Phi 등) 과 10 만 개의 프롬프트를 사용하여 약 50 억 건의 쌍별 비교를 수행했습니다.
- 결과: 어떤 충돌도 관측되지 않았습니다. 모든 서로 다른 프롬프트는 명확하게 분리된 표현을 가졌으며, 최소 거리 (L2 distance) 는 충돌 임계값 ( $10^{-6}$ ) 보다 훨씬 높았습니다.
- 깊이와 크기: 모델의 깊이가 깊어질수록, 그리고 모델 크기가 커질수록 표현 간의 거리가 더 벌어지는 경향을 보였습니다.
- 양자화 (Quantization): FP4 및 INT8 양자화 모델을 테스트한 결과, 양자화 후에도 충돌이 발생하지 않았으며 오히려 최소 거리가 증가하여 표현 공간의 무결성이 유지됨을 확인했습니다.
정확한 복원 (Exact Recovery):
- SIPIT 를 사용하여 GPT-2 Small 및 양자화된 Llama/Mistral 모델의 은닉 상태에서 원본 프롬프트를 복원하는 실험을 수행했습니다.
- 성능: 100% 정확도로 모든 토큰을 복원했습니다. 기존 방법 (HARDPROMPTS 등) 은 근사치만 제공하거나 복원에 실패한 반면, SIPIT 는 정확한 복원을 보장하며 매우 효율적이었습니다.
- 효율성: 어휘 크기가 커짐에도 불구하고 탐색한 어휘의 비율이 0.22% 미만으로 매우 낮아, 그라디언트 기반 휴리스틱이 매우 효율적임을 입증했습니다.

4. 주요 기여 (Key Contributions)

수학적 증명: Transformer 가 비선형성을 가짐에도 불구하고, 표준 초기화와 훈련 하에서 입력 시퀀스 대 마지막 토큰 표현의 매핑이 거의 확실히 주사적임을 최초로 엄밀하게 증명했습니다.
알고리즘 SIPIT: 이론적 주사성을 실용적인 도구로 변환하여, 내부 은닉 상태로부터 정확한 입력 텍스트를 선형 시간에 복원하는 첫 번째 알고리즘을 제안했습니다.
실험적 확인: 수십억 개의 테스트를 통해 실제 모델에서 충돌이 발생하지 않으며, 양자화 및 다양한 아키텍처에서도 주사성이 유지됨을 입증했습니다.

5. 의의 및 영향 (Significance)

해석 가능성 (Interpretability): 입력 정보가 모델의 표현에 손실 없이 보존된다는 사실은, 기계적 해석 (mechanistic interpretability) 과 프로빙 (probing) 연구에 강력한 기초를 제공합니다. "정보가 사라졌다"는 오해를 불식시킵니다.
보안 및 프라이버시 (Security & Privacy): 은닉 상태 (hidden states) 는 단순한 추상화가 아니라 사용자의 원본 텍스트와 동등한 정보를 담고 있습니다. 따라서 KV 캐시나 중간 표현을 저장/전송하는 시스템은 원본 텍스트를 처리하는 것과 동일한 데이터 보호 의무를 져야 함을 시사합니다.
규제적 함의: 현재 규제 체계는 모델 가중치가 개인 데이터가 아니라고 보지만, 추론 시 생성되는 손실 없는 표현 (hidden states) 에 대해서는 명확하지 않습니다. 이 연구는 이러한 표현이 복원 가능하므로 데이터 보호 규제의 대상이 되어야 함을 강력히 주장합니다.
안전한 배포: 모델의 입력 - 출력 관계가 결정론적이고 가역적이라는 이해는 모델의 투명성과 안전성 확보에 필수적입니다.

결론적으로, 이 논문은 Transformer 언어 모델이 정보 손실 없이 작동한다는 사실을 수학적으로 증명하고, 이를 통해 내부 표현에서 원본 텍스트를 완벽하게 복원하는 새로운 패러다임을 제시했습니다. 이는 모델의 투명성, 해석 가능성, 그리고 데이터 프라이버시 보호에 있어 중요한 전환점이 될 것입니다.