StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

이 논문은 언어 모델의 잔여 스트림 (residual stream) 내 의미 표현을 기반으로 최대 신장 트리를 구축하여 레이어 간 구조적 유사성을 정량화하는 분석 프레임워크 'StructLens'를 제안하고, 기존 코사인 유사도와 구별되는 구조적 패턴을 발견하여 레이어 가지치기 등 실제 과제에 유용함을 입증합니다.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

StructLens: 언어 모델의 '숨겨진 지도'를 보는 새로운 렌즈

이 논문은 거대한 인공지능 (언어 모델) 이 어떻게 생각을 처리하는지 이해하기 위해, 기존에 없던 새로운 분석 도구인 **'StructLens(구조 렌즈)'**를 소개합니다.

기존의 연구들은 AI 가 단어를 하나씩 처리하는 '국소적인' 관계만 보거나, 각 층 (Layer) 이 서로 얼마나 비슷한지 '벡터 거리'만 재는 데 그쳤습니다. 하지만 이 논문은 **"AI 내부에서 단어들이 어떻게 연결되어 거대한 구조를 이루는가?"**라는 질문에 답하기 위해, **최대 신장 트리 (Maximum Spanning Tree, MST)**라는 수학적 개념을 도입했습니다.

이 복잡한 개념을 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드리겠습니다.


1. 기존 방법 vs StructLens: "단어 나열" vs "가족 관계도"

기존 방법 (Cosine Similarity): "나열된 명함"
기존 연구자들은 AI 의 각 층 (Layer) 을 통과할 때, 같은 위치에 있는 단어들의 의미만 비교했습니다. 마치 "1 번 명함의 1 번 사람과 2 번 명함의 1 번 사람을 비교한다"는 식입니다.

  • 한계: 이는 개별 단어의 의미는 알 수 있어도, 문장 전체의 흐름이나 구조가 어떻게 변하는지는 알 수 없습니다. 마치 책의 각 페이지에 있는 단어만 비교해서 책의 줄거리를 이해하려는 것과 같습니다.

StructLens: "가족 관계도 (나무) 그리기"
StructLens 는 AI 가 문장을 처리할 때, 단어들이 서로 어떻게 연결되는지를 봅니다.

  • 비유: 문장을 읽을 때, AI 는 단어들을 나열하는 게 아니라, '어떤 단어가 어떤 단어를 설명하는지' 연결합니다. (예: '사과'는 '빨간'과 연결되고, '빨간'은 '사과'와 연결됨).
  • StructLens 는 이 연결들을 바탕으로 **최대 신장 트리 (MST)**라는 '가장 효율적인 연결도'를 그립니다. 마치 문장 전체를 하나의 가족 관계도처럼 그려, 누가 부모고 누가 자녀인지, 전체 가계가 어떻게 이어지는지를 한눈에 보여주는 것입니다.

2. 발견한 놀라운 사실: "구조의 섬 (Islands)"

이 렌즈로 AI 를 들여다보니, 기존 방법으로는 보이지 않던 **'구조의 섬'**들이 발견되었습니다.

  • 비유: AI 의 층 (Layer) 을 32 층짜리 빌딩이라고 상상해 보세요.
    • 기존 방법: 층 1 과 층 2, 층 2 와 층 3 이 서로 비슷하다고만 보였습니다. (모든 층이 비슷하게 보임).
    • StructLens: 층 13 은 '입구 로비', 층 417 은 '사무실 구역', 층 18~32 는 '최종 결정실'처럼 **서로 다른 목적을 가진 '구조적 구역 (Islands)'**으로 나뉘어 있음을 발견했습니다.
    • 의미: AI 는 문장을 처리할 때, 단순히 단어를 변환하는 게 아니라, **구체적인 단계 (단어 연결 -> 문장 구조 파악 -> 최종 의미 도출)**를 거쳐서 처리한다는 것을 증명했습니다.

3. 실용적인 효과: "불필요한 층 잘라내기 (Layer Pruning)"

이 발견은 AI 를 더 가볍게 만드는 데 큰 도움이 됩니다.

  • 비유: AI 를 32 층짜리 빌딩으로 다시 생각해 보세요.
    • 기존 방식: "이 층과 저 층이 비슷하니까 이 층을 없애자"라고 임의로 층을 잘라냈습니다. 하지만 중요한 '사무실 구역'을 실수로 잘라내 성능이 떨어지기도 했습니다.
    • StructLens 방식: "아, 이 층들은 '구조적 섬'이 다르네. 이 층들은 서로 다른 일을 하니까 함부로 잘라선 안 되고, 비슷한 구조를 가진 층끼리만 정리하자"라고 구조를 이해하고 불필요한 층을 제거했습니다.
    • 결과: 구조를 고려하여 층을 잘라내니, AI 의 크기는 줄었지만 성능은 훨씬 잘 유지되었습니다. (기존 방법보다 더 효율적인 압축이 가능해졌습니다.)

요약: 왜 이 연구가 중요한가요?

  1. 새로운 시선: AI 를 단순히 숫자의 집합이 아니라, 구조를 가진 살아있는 시스템으로 바라보게 했습니다.
  2. 내부 과정 해독: AI 가 문장을 이해하는 과정이 '단순 반복'이 아니라, 단계별 구조 변화를 거친다는 것을 증명했습니다.
  3. 실제 활용: 이 분석을 통해 AI 의 불필요한 부분을 찾아내어, 더 빠르고 가벼운 AI를 만드는 데 성공했습니다.

결론적으로, StructLens는 AI 의 '두뇌' 속에 숨겨진 지도를 그려주는 나침반과 같습니다. 이 지도를 통해 우리는 AI 가 어떻게 생각하고, 어떻게 최적화해야 하는지 훨씬 더 명확하게 이해할 수 있게 되었습니다.