LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 가 그림을 보는 방법

우리가 AI 에게 그림을 보여줄 때, 보통은 그림을 잘게 쪼개어 (패치) 숫자 열 (벡터) 로 바꾼 뒤, 이를 언어 모델이 이해할 수 있는 공간으로 옮겨줍니다. 마치 외계인 언어로 된 그림을 우리말 번역기 (MLP) 에 통과시켜서 AI 가 읽게 하는 것과 같습니다.

그런데 이상한 점은, 이 번역기가 아주 단순해도 (단순한 선형 변환) AI 가 그림을 잘 이해한다는 사실입니다. **"왜 이렇게 간단한 연결만으로도 AI 가 그림을 이해할 수 있는 걸까?"**가 연구자들의 의문입니다.

2. 기존 방법의 문제점: "단어 사전"만 보는 안경

이전까지 연구자들은 AI 가 그림을 볼 때, 그 그림이 어떤 단어 (Token) 에 가장 가까운지 확인했습니다.

비유: AI 가 "강아지" 그림을 봤을 때, AI 의 머릿속 숫자 열을 **사전 (단어 목록)**과 비교해 "가장 비슷한 단어가 '강아지'인가?"를 확인하는 방식입니다.
문제점: 이 방법은 실패했습니다. AI 가 그림을 볼 때 단순히 '강아지'라는 단어 하나만 떠올리는 게 아니라, **"비 오는 날의 작은 강아지"**처럼 문맥이 섞인 복잡한 생각을 하고 있었기 때문입니다. 기존 방법으로는 이 복잡한 생각을 제대로 읽어내지 못했습니다.

3. LATENTLENS 의 등장: "문맥이 있는 이야기"로 읽기

이 논문은 LATENTLENS라는 새로운 방법을 제안합니다. 핵심 아이디어는 매우 간단합니다.

"그림을 볼 때, AI 는 단어 하나를 떠올리는 게 아니라, 그 단어가 포함된 '문장'이나 '이야기'를 떠올린다."

비유:
- 기존 방법 (LogitLens): AI 가 "강아지" 그림을 볼 때, 사전에서 **'강아지'**라는 단어만 찾아봅니다. (결과: "강아지"가 나오지만, 왜 나왔는지 설명이 부족함)
- LATENTLENS: AI 가 "강아지" 그림을 볼 때, **"비 오는 날 마당에 있는 작은 갈색 강아지"**라는 전체 문장을 찾아봅니다.
- 작동 원리: 연구자들은 AI 가 수많은 문장을 읽으며 만든 수백만 개의 '문장 속 단어' 데이터베이스를 준비했습니다. 그리고 AI 가 그림을 볼 때 생긴 숫자 열을 이 데이터베이스와 비교합니다. 가장 비슷한 문장 조각을 찾아내면, 그것이 바로 AI 가 그 그림을 어떻게 이해하고 있는지 알려주는 '해석'이 됩니다.

4. 주요 발견: 놀라운 사실들

이 새로운 렌즈 (LATENTLENS) 를 통해 발견한 놀라운 사실들이 있습니다.

① 그림은 이미 '이해 가능한' 상태였다

기존 방법으로는 그림을 이해할 수 없다고 생각했지만, LATENTLENS 로 보니 AI 가 그림을 처음 보는 순간 (입력 단계) 부터 이미 매우 잘 이해하고 있었습니다.

비유: AI 가 그림을 보는 순간, 마치 **"아, 저건 '금색 시계가 달린 회색 탑'이네!"**라고 문장으로 바로 생각할 수 있는 상태였던 것입니다. 우리가 생각했던 것보다 훨씬 더 직관적이고 언어적입니다.

② '중간층 점프 (Mid-Layer Leap)' 현상

AI 는 그림을 볼 때, 처음부터 끝까지 같은 방식으로 생각하지 않습니다.

비유: 그림을 처음 입력받으면, AI 는 "중간 단계의 생각" (예: 8 번째~16 번째 층) 과 가장 잘 맞습니다. 마치 그림을 보고 바로 "이게 뭐야?"라고 묻기보다, 이미 머릿속에서 **"이건 탑이야"**라고 정리된 상태의 생각과 가장 비슷하다는 뜻입니다.
그림은 AI 의 깊은 층으로 갈수록 변하지 않고, 처음부터 이미 '의미 있는 생각'으로 준비되어 있다는 뜻입니다.

③ 기존 방법의 과소평가

기존에 사용되던 방법 (LogitLens 등) 은 AI 의 그림 이해 능력을 30% 정도밖에 못 본다고 평가했지만, LATENTLENS 를 쓰니 72% 이상이 이해 가능한 것으로 나타났습니다. 즉, 우리는 AI 가 그림을 얼마나 잘 이해하는지 과소평가하고 있었던 것입니다.

5. 결론: 왜 이 연구가 중요한가?

이 연구는 **"시각 (눈) 과 언어 (말) 는 AI 안에서 완전히 다른 세계가 아니라, 서로 통하는 공통된 언어로 연결되어 있다"**는 것을 증명합니다.

일상적인 비유: 우리가 그림을 볼 때 머릿속에 단어가 떠오르듯, AI 도 그림을 볼 때 머릿속에 문장이 떠오릅니다. LATENTLENS 는 그 떠오르는 문장을 우리가 읽을 수 있게 해주는 번역기 역할을 합니다.

이제 우리는 AI 가 그림을 볼 때 단순히 "이건 강아지"라고만 외우는 게 아니라, **"비 오는 날의 강아지"**처럼 풍부한 문맥으로 이해하고 있다는 것을 알게 되었습니다. 이는 AI 의 '생각'을 더 투명하게 만들고, 나중에 AI 가 환각 (거짓말) 을 할 때를 잡아내는 데도 큰 도움이 될 것입니다.

한 줄 요약:

"AI 가 그림을 볼 때, 단순한 '단어'가 아니라 '문장'으로 생각하고 있었다는 사실을 발견한, AI 의 눈을 읽는 새로운 안경 (LATENTLENS) 이야기."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

배경: LLM 을 비동기적 (frozen) 상태로 유지하면서 비전 인코더의 시각 토큰을 LLM 의 임베딩 공간에 매핑하는 간단한 MLP(심층 신경망) 를 통해 시각 - 언어 모델 (VLM) 을 구축하는 것이 가능합니다.
핵심 질문: LLM 이 왜 다른 모달리티 (시각) 데이터를 쉽게 처리할 수 있는가? 시각 토큰의 잠재 표현 (latent representation) 은 LLM 내부에서 의미 있는 언어 토큰으로 해석될 수 있는가?
기존 방법의 한계:
- EmbeddingLens: 시각 토큰을 LLM 의 입력 임베딩 행렬과 비교합니다.
- LogitLens: 시각 토큰을 LLM 의 언디벙딩 (unembedding) 행렬을 통해 어휘 공간으로 투영하여 예측된 다음 토큰을 확인합니다.
- 문제점: 이러한 기존 방법들은 시각 토큰이 주로 하위 단어 (subword) 나 다음 토큰 예측에 기반하므로, 시각 토큰이 실제로 어떤 의미 있는 문맥을 담고 있는지 파악하는 데 한계가 있으며, 시각 토큰의 해석 가능성을 크게 과소평가하는 경향이 있었습니다.

2. 방법론: LATENTLENS (Methodology)

LATENTLENS 는 시각 토큰의 잠재 표현을 자연어 설명과 매핑하기 위해 맥락화된 (contextualized) 텍스트 표현을 참조점으로 사용합니다.

핵심 아이디어: 시각 토큰의 가장 자연스러운 비교 대상은 고정된 어휘 임베딩이 아니라, 문장 내 맥락에서 생성된 토큰 표현입니다.
작동 원리:
1. 참조 벡터 풀 구축: 대규모 텍스트 코퍼스 (Visual Genome 의 299 만 개 캡션) 를 LLM 에 통과시켜, 각 레이어 (layer) 와 각 토큰 위치에서의 맥락화된 토큰 표현을 사전 계산하여 저장합니다.
2. 비교 및 매칭: LLM 의 특정 레이어에서 추출된 시각 토큰의 잠재 표현 ( $h_i^{(\ell)}$ ) 을 이 참조 벡터 풀과 비교합니다.
3. 최소 거리 탐색 (Nearest Neighbor): 코사인 유사도가 가장 높은 상위 k 개의 참조 벡터 (문장 내 특정 토큰의 맥락 표현) 를 찾습니다.
4. 설명 생성: 해당 참조 벡터가 속한 전체 문장 (또는 구) 을 시각 토큰의 설명으로 반환합니다.
특징:
- 학습 불필요 (Training-free): 추가적인 학습 없이 기존 LLM 의 표현 공간과 대규모 텍스트 코퍼스를 활용합니다.
- 구체적인 설명: 단일 토큰이 아닌, "큰 시계탑"과 같은 문장 수준의 풍부한 설명을 제공합니다.
- 레이어 간 비교: 시각 토큰이 속한 레이어와 다른 레이어의 텍스트 표현을 비교할 수 있습니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

3.1. 시각 토큰의 높은 해석 가능성 입증

실험 설정: 10 가지 다른 VLM 구성 (3 개의 LLM: OLMo, LLaMA3, Qwen2 + 3 개의 비전 인코더: CLIP, SigLIP, DINOv2) 에서 100 개의 이미지 패치를 샘플링하여 평가했습니다.
결과:
- LATENTLENS: 모든 모델과 모든 레이어에서 시각 토큰의 **72%**가 해석 가능하다고 판별되었습니다.
- 기존 방법 비교: EmbeddingLens(30%), LogitLens(23%) 에 비해 LATENTLENS 가 시각 토큰의 해석 가능성을 훨씬 더 정확하게 포착했습니다.
- 의미: 시각 토큰은 LLM 의 어휘와 1:1 로 매핑되지는 않지만, 이미지 내용과 의미적으로 관련된 맥락화된 텍스트 표현과 매우 유사함을 보여줍니다.

3.2. 중간 레이어 도약 (Mid-Layer Leap) 현상 발견

현상: 시각 토큰의 잠재 표현은 입력 레이어 (Layer 0) 에서 시작하여 LLM 을 통과할 때, 동일한 레이어의 텍스트 표현보다는 중간 레이어 (예: 8~16 레이어) 의 텍스트 표현과 가장 높은 유사성을 보입니다.
해석: 이는 시각 토큰이 비전 인코더와 프로젝터 (connector) 를 거치면서 이미 "사전 맥락화 (pre-contextualized)"되어 LLM 에 입력된다는 것을 의미합니다. 즉, 시각 토큰은 LLM 이 텍스트를 처리하여 추상화하고 맥락화한 상태 (중간 레이어) 와 더 잘 정렬되어 있으며, LLM 은 이를 거의 변형 없이 처리합니다.

3.3. 정성적 분석 및 일반화

정성적 결과: LATENTLENS 는 "회색 탑에 여러 개의 시계가 있음"과 같은 구체적인 문장 설명을 제공하는 반면, LogitLens 는 종종 읽을 수 없는 하위 단어나 문맥 없는 토큰을 반환했습니다.
일반화: 학습된 모델뿐만 아니라, Qwen2-VL-7B-Instruct와 같은 오프더셸 (off-the-shelf) VLM 에서도 동일한 패턴이 관찰되었습니다.
비전 인코더 영향: 언어 지도 (language supervision) 가 없는 DINOv2 를 사용하더라도 시각 토큰은 높은 해석 가능성을 보였습니다. 이는 시각과 언어 표현 공간이 구조적으로 매우 유사하다는 '플라톤적 표현 가설 (Platonic Representation Hypothesis)'을 지지합니다.

4. 의의 및 결론 (Significance)

기존 가설의 도전: 시각 토큰은 해석 불가능하거나 LLM 의 어휘와 무관하다는 기존 관념을 반박하고, 시각 토큰이 LLM 내부에서 의미 있는 언어 표현과 밀접하게 연결되어 있음을 증명했습니다.
VLM 동작 원리 규명: 왜 LLM 을 동결 (frozen) 상태로 유지하면서 간단한 프로젝션만으로 VLM 을 구축할 수 있는지에 대한 설명을 제공합니다. 시각 토큰이 이미 LLM 의 중간 레이어 수준의 의미 표현과 정렬되어 있기 때문입니다.
미래 방향:
- 할루시네이션 감소: 시각 토큰의 해석 가능성을 높여 모델의 환각 현상을 줄이는 데 활용 가능.
- 다양한 모달리티 확장: 음성, 소프트 프롬프트 등 비언어적 토큰의 해석 가능성 분석으로 확장 가능.
- 도구 제공: 연구자들이 쉽게 접근할 수 있는 맥락 임베딩 데이터베이스와 LATENTLENS 패키지를 공개하여 VLM 분석의 새로운 방향을 제시합니다.

요약: LATENTLENS 는 시각 토큰을 단순한 토큰이 아닌, 풍부한 문맥을 가진 언어 표현과 비교함으로써 LLM 이 시각 정보를 어떻게 이해하고 처리하는지에 대한 새로운 통찰을 제공하며, 시각과 언어 표현 간의 깊은 구조적 유사성을 입증했습니다.