LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

이 논문은 비주얼 토큰의 표현을 자연어 설명과 매칭하여 기존 방법보다 훨씬 정교하고 해석 가능한 시각 토큰 분석을 가능하게 하는 'LatentLens'라는 새로운 기법을 제안하고, 이를 통해 다양한 VLM 모델에서 시각과 언어 표현 간의 깊은 정렬을 입증합니다.

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

게시일 2026-02-26
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 가 그림을 보는 방법

우리가 AI 에게 그림을 보여줄 때, 보통은 그림을 잘게 쪼개어 (패치) 숫자 열 (벡터) 로 바꾼 뒤, 이를 언어 모델이 이해할 수 있는 공간으로 옮겨줍니다. 마치 외계인 언어로 된 그림을 우리말 번역기 (MLP) 에 통과시켜서 AI 가 읽게 하는 것과 같습니다.

그런데 이상한 점은, 이 번역기가 아주 단순해도 (단순한 선형 변환) AI 가 그림을 잘 이해한다는 사실입니다. **"왜 이렇게 간단한 연결만으로도 AI 가 그림을 이해할 수 있는 걸까?"**가 연구자들의 의문입니다.

2. 기존 방법의 문제점: "단어 사전"만 보는 안경

이전까지 연구자들은 AI 가 그림을 볼 때, 그 그림이 어떤 단어 (Token) 에 가장 가까운지 확인했습니다.

  • 비유: AI 가 "강아지" 그림을 봤을 때, AI 의 머릿속 숫자 열을 **사전 (단어 목록)**과 비교해 "가장 비슷한 단어가 '강아지'인가?"를 확인하는 방식입니다.
  • 문제점: 이 방법은 실패했습니다. AI 가 그림을 볼 때 단순히 '강아지'라는 단어 하나만 떠올리는 게 아니라, **"비 오는 날의 작은 강아지"**처럼 문맥이 섞인 복잡한 생각을 하고 있었기 때문입니다. 기존 방법으로는 이 복잡한 생각을 제대로 읽어내지 못했습니다.

3. LATENTLENS 의 등장: "문맥이 있는 이야기"로 읽기

이 논문은 LATENTLENS라는 새로운 방법을 제안합니다. 핵심 아이디어는 매우 간단합니다.

"그림을 볼 때, AI 는 단어 하나를 떠올리는 게 아니라, 그 단어가 포함된 '문장'이나 '이야기'를 떠올린다."

  • 비유:
    • 기존 방법 (LogitLens): AI 가 "강아지" 그림을 볼 때, 사전에서 **'강아지'**라는 단어만 찾아봅니다. (결과: "강아지"가 나오지만, 왜 나왔는지 설명이 부족함)
    • LATENTLENS: AI 가 "강아지" 그림을 볼 때, **"비 오는 날 마당에 있는 작은 갈색 강아지"**라는 전체 문장을 찾아봅니다.
    • 작동 원리: 연구자들은 AI 가 수많은 문장을 읽으며 만든 수백만 개의 '문장 속 단어' 데이터베이스를 준비했습니다. 그리고 AI 가 그림을 볼 때 생긴 숫자 열을 이 데이터베이스와 비교합니다. 가장 비슷한 문장 조각을 찾아내면, 그것이 바로 AI 가 그 그림을 어떻게 이해하고 있는지 알려주는 '해석'이 됩니다.

4. 주요 발견: 놀라운 사실들

이 새로운 렌즈 (LATENTLENS) 를 통해 발견한 놀라운 사실들이 있습니다.

① 그림은 이미 '이해 가능한' 상태였다

기존 방법으로는 그림을 이해할 수 없다고 생각했지만, LATENTLENS 로 보니 AI 가 그림을 처음 보는 순간 (입력 단계) 부터 이미 매우 잘 이해하고 있었습니다.

  • 비유: AI 가 그림을 보는 순간, 마치 **"아, 저건 '금색 시계가 달린 회색 탑'이네!"**라고 문장으로 바로 생각할 수 있는 상태였던 것입니다. 우리가 생각했던 것보다 훨씬 더 직관적이고 언어적입니다.

② '중간층 점프 (Mid-Layer Leap)' 현상

AI 는 그림을 볼 때, 처음부터 끝까지 같은 방식으로 생각하지 않습니다.

  • 비유: 그림을 처음 입력받으면, AI 는 "중간 단계의 생각" (예: 8 번째~16 번째 층) 과 가장 잘 맞습니다. 마치 그림을 보고 바로 "이게 뭐야?"라고 묻기보다, 이미 머릿속에서 **"이건 탑이야"**라고 정리된 상태의 생각과 가장 비슷하다는 뜻입니다.
  • 그림은 AI 의 깊은 층으로 갈수록 변하지 않고, 처음부터 이미 '의미 있는 생각'으로 준비되어 있다는 뜻입니다.

③ 기존 방법의 과소평가

기존에 사용되던 방법 (LogitLens 등) 은 AI 의 그림 이해 능력을 30% 정도밖에 못 본다고 평가했지만, LATENTLENS 를 쓰니 72% 이상이 이해 가능한 것으로 나타났습니다. 즉, 우리는 AI 가 그림을 얼마나 잘 이해하는지 과소평가하고 있었던 것입니다.

5. 결론: 왜 이 연구가 중요한가?

이 연구는 **"시각 (눈) 과 언어 (말) 는 AI 안에서 완전히 다른 세계가 아니라, 서로 통하는 공통된 언어로 연결되어 있다"**는 것을 증명합니다.

  • 일상적인 비유: 우리가 그림을 볼 때 머릿속에 단어가 떠오르듯, AI 도 그림을 볼 때 머릿속에 문장이 떠오릅니다. LATENTLENS 는 그 떠오르는 문장을 우리가 읽을 수 있게 해주는 번역기 역할을 합니다.

이제 우리는 AI 가 그림을 볼 때 단순히 "이건 강아지"라고만 외우는 게 아니라, **"비 오는 날의 강아지"**처럼 풍부한 문맥으로 이해하고 있다는 것을 알게 되었습니다. 이는 AI 의 '생각'을 더 투명하게 만들고, 나중에 AI 가 환각 (거짓말) 을 할 때를 잡아내는 데도 큰 도움이 될 것입니다.

한 줄 요약:

"AI 가 그림을 볼 때, 단순한 '단어'가 아니라 '문장'으로 생각하고 있었다는 사실을 발견한, AI 의 눈을 읽는 새로운 안경 (LATENTLENS) 이야기."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →