Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

본 논문은 DINOv2 의 SAE 를 통해 선형 표현 가설을 검증하고, 작업별 개념의 기능적 특성을 규명한 후, 토큰 표현이 단순한 희소성이 아닌 아키타입의 볼록 혼합으로 구성된다는 '민코프스키 표현 가설 (MRH)'을 제안하여 비전 트랜스포머의 해석 가능성을 새로운 기하학적 관점에서 재정립합니다.

Thomas Fel, Binxu Wang, Michael A. Lepori, Matthew Kowal, Andrew Lee, Randall Balestriero, Sonia Joseph, Ekdeep S. Lubana, Talia Konkle, Demba Ba, Martin Wattenberg

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"DINOv2"**라는 매우 똑똑한 인공지능이 세상을 어떻게 '보고' 이해하는지 그 내부를 들여다본 탐사 보고서입니다.

기존에는 AI 가 이미지를 볼 때, 마치 수많은 독립적인 나침반들이 각각의 방향을 가리키며 정보를 저장한다고 생각했습니다 (선형 표현 가설). 하지만 이 연구팀은 AI 의 뇌를 더 자세히 들여다보니, 사실은 **수많은 나침반들이 모여 만든 '지형도'와 '건축물'**처럼 복잡하고 흥미로운 구조를 하고 있다는 새로운 사실을 발견했습니다.

이 내용을 쉽게 이해할 수 있도록 세 가지 핵심 이야기로 나누어 설명해 드릴게요.


1. 첫 번째 발견: AI 는 '무엇이 아닌지'도 배운다 (토끼 구멍으로의 여정)

연구팀은 DINOv2 가 다양한 일을 할 때 어떤 '개념'을 사용하는지 분석했습니다.

  • 분류 (Classify): "이건 토끼야!"라고 말할 때, AI 는 토끼 자체만 보는 게 아니라 **"토끼가 아닌 나머지 모든 곳"**을 동시에 봅니다. 마치 토끼가 있는 그림에서 토끼를 제외한 배경을 "여기 토끼가 있구나"라고 판단하는 근거로 사용하는 것과 같습니다. 이를 'Elsewhere(그 외의 곳)' 개념이라고 부릅니다.
  • 분할 (Segmentation): 물체의 경계를 그릴 때는 물체의 **가장자리 (테두리)**를 감지하는 개념들만 집중적으로 사용합니다.
  • 깊이 (Depth): 3D 깊이를 추정할 때는 그림자, 원근감, 질감의 변화 등 인간 시각 신경과학에서 알려진 세 가지 단서 (Monocular cues) 를 사용합니다.

비유하자면:
AI 는 단순히 "토끼"라는 스티커를 붙이는 게 아니라, "토끼가 있는 곳"과 "토끼가 없는 곳"의 관계를 통해 상황을 이해하는 논리적인 사고를 하고 있다는 것입니다.


2. 두 번째 발견: AI 의 뇌는 '선'이 아니라 '구름'과 '건물'이다

기존 이론은 AI 의 정보가 서로 겹치지 않는 독립적인 선 (Direction) 으로 이루어져 있다고 믿었습니다. 하지만 연구팀은 다음과 같은 이상한 점들을 발견했습니다.

  • 선형이 아닌 밀집된 구조: 개념들이 완전히 독립적이지 않고, 서로 뭉쳐 있거나 (클러스터), 정반대 방향 (예: 흰색 vs 검은색) 으로 짝을 이루고 있습니다.
  • 위치 정보의 압축: 처음에는 픽셀의 위치 (좌표) 를 정확히 기억하지만, AI 가 깊게 생각할수록 위치 정보는 2 차원 평면으로 압축되어 사라집니다. 하지만 그 후에도 이미지의 모양은 부드럽게 이어져 있습니다.

비유하자면:
기존의 생각은 **"각자 다른 방향을 가리키는 나침반 32,000 개"**가 있다고 생각한 것이었습니다.
하지만 실제로는 **"구름처럼 뭉쳐 있는 개념들"**과 **"서로 반대되는 극 (북극/남극) 을 가진 쌍"**들이 모여 있습니다. 마치 지도에서 특정 지역이 뭉쳐 있거나, 특정 방향으로만 뻗어 있는 지형과 같습니다.


3. 세 번째 제안: '민코프스키 가설' (Minkowski Representation Hypothesis)

이 모든 것을 설명하기 위해 연구팀은 새로운 이론을 제시합니다. 바로 **"민코프스키 표현 가설"**입니다.

이 가설의 핵심은 **"토큰 (이미지의 작은 조각) 은 몇 가지 '원형 (Archetype)'들의 합성물"**이라는 것입니다.

  • 원형 (Archetype): 가장 대표적인 예시들입니다. (예: '토끼'라는 동물, '갈색'이라는 색, '부드러움'이라는 질감)
  • 합성 (Convex Mixture): AI 는 새로운 이미지를 볼 때, 이 원형들을 섞어서 만듭니다.
    • 예: "이것은 토끼 (동물) + 갈색 (색상) + **부드러운 (질감)**의 혼합물이다."
  • 민코프스키 합 (Minkowski Sum): 이 혼합 과정이 여러 개의 '건축 블록 (Convex Polytopes)'을 쌓아 올리는 것과 같습니다. 각 블록은 하나의 카테고리 (동물, 색상, 질감 등) 를 나타내며, AI 는 이 블록들을 겹쳐서 최종적인 이미지를 이해합니다.

창의적인 비유:

  • 기존 생각 (선형 가설): AI 의 뇌는 수많은 독립적인 레이어가 쌓인 빌딩처럼, 각 층이 서로 다른 정보를 담고 있다고 생각했습니다.
  • 새로운 생각 (민코프스키 가설): AI 의 뇌는 레고 블록으로 만든 구조물입니다.
    • 레고 블록 하나하나가 '원형 (토끼, 갈색 등)'입니다.
    • AI 는 이 레고 블록들을 섞어서 (Convex Mixture) 새로운 모양을 만듭니다.
    • 이 레고 블록들은 서로 다른 '구역 (Tile)'에 모여 있고, AI 는 이 구역들을 겹쳐서 (Minkowski Sum) 최종적인 세상을 이해합니다.

결론: 왜 이 발견이 중요한가요?

이 연구는 AI 를 해석하는 방식을 완전히 바꿀 수 있습니다.

  1. 개념은 '화살표'가 아니라 '영역'이다: 우리는 이제 AI 가 특정 방향 (화살표) 을 가리킬 때만 개념을 찾는 게 아니라, 어떤 '영역'에 속해 있는지를 봐야 합니다.
  2. 조작의 한계: AI 를 조작할 때 (예: "토끼처럼 보이게 해줘"), 무한히 선을 따라가는 게 아니라, 특정 '원형 (레고 블록)'에 가까워지는 것이 중요합니다. 너무 멀리 가면 AI 가 엉뚱한 것을 보게 됩니다.
  3. 해석의 새로운 길: AI 가 어떻게 세상을 이해하는지 알기 위해서는, 단순히 결과만 보는 게 아니라 어떤 레고 블록들이 어떻게 섞였는지 그 과정을 추적해야 합니다.

한 줄 요약:
"AI 는 수많은 나침반으로 방향을 찾는 게 아니라, 세상의 기본 레고 블록 (원형) 들을 섞어서 세상을 재구성하고 있다."

이 연구는 AI 의 내면이 우리가 생각했던 것보다 훨씬 더 기하학적이고 구조적이며, 마치 수학적인 건축물처럼 정교하게 지어져 있음을 보여줍니다.