핵심 아이디어: 트랜스포머의 "노이즈"에 귀 기울이기

트랜스포머 모델(챗봇 뒤에 있는 AI)을 거대한 오케스트라가 연주하는 음악이라고 상상해 보세요. 모델이 문장을 읽을 때마다 모든 음악가( "어텐션 헤드")들이 동시에 연주를 합니다. 인간의 귀에는 이것이 마치 거대한 소음의 벽처럼 들립니다.

이 논문은 이 오케스트라를 듣는 새로운 방법을 소개합니다. 저자들은 모든 개별 음표를 이해하려고 노력하는 대신, POD(Proper Orthogonal Decomposition)라는 수학적 도구를 사용하여 반복되는 주요 멜로디를 찾아냅니다.

그들은 트랜스포머의 어텐션(모델이 단어들을 서로 어떻게 연결하는지)을 난류가 흐르는 강처럼 취급합니다. 강에 크고 소용돌이치는 조류와 작고 잔잔한 물결이 있듯이, 트랜스포머에도 크고 넓은 패턴의 어텐션과 작고 구체적인 패턴이 있습니다. 목표는 "큰 소용돌이"와 "작은 물결"을 분리하여 모델이 실제로 무엇을 하고 있는지 파악하는 것입니다.

2단계 과정: "파동"과 "체"

저자들은 노이즈를 정화하기 위해 영리한 2단계 방법을 사용합니다.

파동 탐지기 (Morlet Scalogram):
헬리콥터에서 강을 내려다보고 있다고 상상해 보세요. 여러분은 "어디에 큰 파도가 있고, 어디에 작은 물결이 있는가?"를 알고 싶어 합니다.
저자들은 Morlet Scalogram이라는 도구를 사용하여 레이더 역할을 하게 합니다. 이 도구는 트랜스포머의 어텐션을 스캔하여 문장의 어느 지점에서, 그리고 어떤 크기(스케일)로 중요한 패턴이 발생하는지를 정확히 알려줍니다.
- 작은 스케일: 단어를 바로 옆의 글자와 연결하는 것과 같은 짧은 패턴 (문법).
- 큰 스케일: 문단의 시작과 끝을 연결하는 것과 같은 긴 패턴 (이야기 구조).
체 (Scale-Selective POD):
파동이 어디에 있는지 알게 되면, "체"(Gaussian window)를 사용하여 물을 걸러냅니다. 그들은 강을 여러 개의 양동이로 나눕니다. 작은 물결을 위한 양동이 하나, 중간 크기의 파도를 위한 양동이 하나, 그리고 큰 소용돌이를 위한 양동이 하나를 만듭니다.
그다음, 각 양동이에 POD를 개별적으로 적용합니다. POD는 일종의 "베스트 오브(best-of)" 필터와 같습니다. "작은 물결" 양동이에 있는 모든 패턴을 살펴보고 이렇게 말합니다. "좋아, 이 수많은 작은 움직임들 중에서 가장 자주 발생하고 가장 많은 에너지를 가진 움직임은 이 세 가지구나." 이 과정은 "큰 소용돌이" 양동리에 대해서도 동일하게 수행됩니다.

발견한 사실: 레이어마다 역할이 다르다

패턴을 크기별로 분리함으로써, 저자들은 트랜스포머의 레이어(AI가 문장을 처리하는 단계)가 어떻게 작동하는지에 대한 명확한 규칙을 발견했습니다.

초기 레이어 (현미경): 처음 몇 개의 레이어는 세부 사항에 집착합니다. 이들은 작은 스케일(예: 3~7글자)에 집중합니다. 즉, 철자, 구두점, 그리고 즉각적인 문법과 같은 "물결"을 보고 있는 것입니다.
후기 레이어 (망원경): 정보가 모델의 더 깊은 곳으로 이동함에 따라 초점이 바뀝니다. 후기 레이어는 작은 물결을 무시하고 거친 스케일(20~50자 이상)에 집중합니다. 이들은 구절, 절, 그리고 전체적인 이야기와 같은 "소용돌이"를 보고 있습니다.

비유: 책을 읽는다고 생각해 보세요.

레이어 1은 철자가 맞는지 확인하기 위해 글자를 훑어보는 당신의 눈과 같습니다.
레이어 6은 챕터의 줄거리를 이해하는 당신의 뇌와 같습니다.
이 논문은 모델이 자연스럽게 이런 방식으로 스스로를 조직한다는 것을 증명합니다. 즉, 작은 것부터 시작하여 큰 그림으로 나아갑니다.

어텐션의 "에너지"

저자들은 또한 이러한 패턴의 "에너지"를 측정했습니다. 물리학에서 에너지는 파동이 얼마나 강한지를 알려줍니다. 트랜스포머에서 "에너지"는 패턴이 얼마나 중요한지를 알려줍니다.

발견 내용: 초기 레이어에서는 에너지가 모든 곳에 퍼져 있습니다(마치 정전기 노이즈처럼). 모델이 너무 많은 세부 사항을 보고 있기 때문에 다음에 무엇을 할지 예측하기 어렵습니다.
발견 내용: 후기 레이어에서는 에너지가 단 몇 개의 강력한 패턴으로 집중됩니다. 모델은 매우 예측 가능해지고 주요 아이디어에 집중하게 됩니다.

그들은 이를 측정하기 위해 "복잡도 점수"(Spectral Concentration Index)를 만들었습니다.

높은 점수: 모델이 혼란스러워하거나 너무 많은 특정 세부 사항을 보고 있음 (초기 레이어).
낮은 점수: 모델이 주요 테마를 찾아내어 그것에 집중하고 있음 (후기 레이어).

이것이 왜 중요한가 (논문에 따르면)

이 논문은 이 방법이 AI를 변경하거나 질문을 던질 필요가 없기 때문에 강력하다고 주장합니다. 그저 AI가 작동하는 것을 관찰하고 수학을 사용하여 "지배적인 패턴"을 찾아낼 뿐입니다.

최적성: 이 수학적 방식은 그들이 찾은 패턴이 최소한의 선(line)으로 AI의 행동을 요약할 수 있는 가장 최적의 방법임을 보장합니다. 정확도를 잃지 않고는 이 정보를 더 압축할 수 없습니다.
"헤드(Heads)"를 설명함: 트랜스포머는 보통 레이어당 8개의 "헤드"(특화된 프로세서)를 가집니다. 이 논문은 아마도 모든 레이어에 8개의 헤드가 필요하지 않을 수도 있다고 제안합니다.
- 초기 레이어는 혼란스러운 노이즈를 처리하기 위해 더 많은 헤드가 필요할 수 있습니다.
- 후기 레이어는 패턴이 매우 명확하고 단순하기 때문에 더 적은 헤드가 필요할 수 있습니다.
구조적 비유이지, 물리학이 아님: 저자들은 자신들이 AI가 실제로 유체나 강이라고 말하는 것이 아님을 주의 깊게 밝힙니다. 그들은 단지 강을 연구하는 데 사용되는 수학을 AI를 이해하는 데 빌려온 것뿐입니다. 여기에는 물이나 바람이 전혀 관여하지 않습니다. 그것은 단지 데이터를 정리하는 하나의 방법일 뿐입니다.

한 문장 요약

이 논문은 트랜스포머의 어텐션을 작은 패턴과 큰 패턴으로 분리하는 수학적 "파동 탐지기"를 사용하여, 모델이 아주 작은 세부 사항에 집중하며 시작하여 점차 큰 그림의 테마를 이해하는 방향으로 변화한다는 것을 밝혀냈으며, 동시에 이러한 패턴들이 우리가 생각했던 것보다 훨씬 더 단순하게 요약될 수 있음을 증명했습니다.

기술 요약: 트랜스포머 어텐션 필드의 다중 스케일 POD (Multiscale POD of Transformer Attention Fields)

문제 정의

문서 집합(ensemble) 전체로 간주되는 트랜스포머 어텐션 행렬은 토큰 위치에 대한 2차원 쌍방향 상호작용 필드(two-dimensional pairwise interaction fields)로서 기능한다. 기존 연구들은 휴리스틱이나 특정 회로 개입을 통해 어텐션을 분석해 왔으나, 비지도 학습 방식으로 이러한 필드로부터 일관된 구조(지배적이고 반복되는 패턴)를 추출하기 위한 엄격한 데이터 기반 프레임워크는 부재했다. 전체 $L \times L$ 어텐션 필드에 표준 적정 직교 분해(Proper Orthogonal Decomposition, POD)를 적용하는 것은 서로 다른 시간적 스케일(예: 문자 수준 vs 담화 수준)의 구조를 분리하는 데 실패하며, 이로 인해 언어적으로 해석 불가능한 모드(modes)가 생성된다. 또한, 각 레이어에서의 어텐션 필드에 대한 유효 표현 랭크(effective representational rank)를 도출할 원칙적인 데이터 기반 지표나, 스펙트럼 감쇠(spectral decay)를 기반으로 어텐션 복잡도를 정량화하는 방법론도 존재하지 않는다.

방법론

본 논문은 난류 분석(turbulence analysis)에서 영감을 얻어 트랜스포머 어텐션에 구조적으로 적용한 스케일 선택적 적정 직교 분해(Scale-Selective Proper Orthogonal Decomposition, POD) 프레임워크를 제안한다. 방법론은 다음 네 단계로 진행된다:

확률적 필드 정식화 (Stochastic Field Formulation):
어텐션 필드를 확률적 상호작용 필드로 취급한다. 레이어 $l$ 에 대하여, 헤드 평균 어텐션 필드 $A^{(l)}_s(i, j)$ 는 평균 필드 $\bar{A}^{(l)}$ 와 변동 필드 $u^{(l)}_s(i, j) = A^{(l)}_s(i, j) - \bar{A}^{(l)}(i, j)$ 로 분해된다. 이 변동 필드는 유체 역학의 레이놀즈 분해(Reynolds decomposition)와 유사하다.
모를렛 스케일로그램을 통한 스케일 식별 (Scale Identification via Morlet Scalogram):
시간적 스케일을 해결하기 위해, 어텐션 지연 대각선(attention lag diagonal) $\tau = j - i$ 를 따라 모를렛 연속 웨이브릿 변환(Morlet Continuous Wavelet Transform, CWT)을 적용한다. 결과물인 스케일로그램 $|W_\psi[A^{(l)}](a, b)|^2$ 은 어텐션 에너지가 집중되는 지배적 스케일 $a^*$ (지연 크기)를 식별한다. 이는 어떤 언어적 스케일(문자, 단어, 절)이 활성화되어 있는지를 결정하는 진단 도구 역할을 한다.
스케일 선택적 필터링 및 POD (Scale-Selective Filtering and POD):
원시 필드에 직접 POD를 적용하는 대신, 스케일로그램에 의해 식별된 각 지배적 스케일 $a^*_m$ 에서 가우시안 지연-윈도우(Gaussian lag-window) 필터를 적용한다. 이는 특정 지연 범위에서의 어텐션 구조를 격리한다. 그 후, 이러한 스케일 필터링된 스냅샷 앙상블에 대해 POD를 개별적으로 적용한다.
- 최적성 (Optimality): 고전적인 POD 최적성 정리(Theorem 1)에 따라, 결과적인 모드 $\{\phi_k\}$ 는 주어진 랭크 $K$ 에 대해 앙상블에 대한 평균 $L_2$ 재구성 오차를 최소화한다.
- 일관성 (Coherency): 본 논문은 문서 앙상블 전반에 걸쳐 토큰 위치 $i$ 와 $j$ 사이의 어텐션 패턴의 위상 일관성을 측정하기 위해 교차 일관성(cross-coherency) $\gamma_{ij}(a)$ 를 정의한다. 높은 일관성은 지배적이고 반복되는 언어적 패턴을 나타낸다.
복잡도 및 랭크 지표 (Complexity and Rank Metrics):
- 스펙트럼 집중 지수 ( $T^{(l)}_{spec}$ ): POD 고윳값의 거듭제곱 법칙 감쇠율( $\lambda_k \sim k^{-\beta}$ )로부터 유도된다. $T^{(l)}_{spec} = 1/\beta$ 는 어텐션 복잡도의 대리 지표 역할을 한다.
- 유효 표현 랭크 ( $H^*_l(\epsilon)$ ): 상대 오차 $\epsilon$ 내에서 어텐션 필드를 재구성하는 데 필요한 최소 POD 모드 수로 정의된다. 이는 특정 레이어에서 필요한 어텐션 헤드 수의 이론적 하한을 제공한다.

주요 결과

실험은 네 가지 학습된 GPT 스타일 모델(표준 및 에너지 게이팅 변형 포함)을 대상으로 TinyShakespeare(데이터 $N=150$ 스냅샷, $L=6$ 레이어)에서 수행되었다.

레이어별 스케일 조직화 (Layer-Dependent Scale Organization):
- 초기 레이어 (1–2): 어텐션 에너지는 미세 스케일 ( $a \le 7$ 토큰)에 집중되며, 이는 문자 수준 및 단거리 형태론적 패턴에 해당한다. 스펙트럼 집중 지수는 낮으며 ( $T_{spec} \approx 1.0$ ), 이는 많은 모드가 에너지를 공유하는 분포된 스펙트럼을 가짐을 의미한다.
- 후기 레이어 (5–6): 에너지는 조대 스케일 ( $a \ge 20$ 토큰)로 이동하며, 이는 구(phrase) 및 담화 수준에 해당한다. 스펙트럼은 더 집중되며(일부 맥락에서 더 높은 $T_{spec}$ ), 지배적인 모드들이 변동성의 더 큰 부분을 포착한다.
해석 가능한 일관된 구조 (Interpretable Coherent Structures):
스케일 선택적 POD는 언어적으로 유의미한 모드들을 성공적으로 추출하였다:
- 레이어 2: 짧은 지연(2–10 토큰)에서의 진동 패턴으로, 문자 n-gram에 해당한다.
- 레이어 4: 10–35 토큰에서 피크를 보이는 구조적 모드로, 단어 및 구 경계에 해당한다.
- 레이어 6: 10–40 토큰에 걸친 복잡한 다중 피크 모드로, 절(clause) 수준의 반복되는 패턴을 포착한다.
유효 랭크 및 헤드 할당 (Effective Rank and Head Allocation):
분석 결과, 표현 요구 사항에서 뚜렷한 대조가 나타났다:
- 레이어 1–2: 90% 에너지 포착을 위해 $\epsilon=0.10$ 에서 150개 이상의 모드가 필요하며, 이는 매우 문서 특이적이고 분산된 어텐션을 시사하며 지배적인 저차원 구조가 없음을 의미한다.
- 레이어 3–6: 동일한 허용 오차에 대해 약 91개의 모드만 필요하며, 이는 중간 및 심층 레이어가 일관된 저차원 어텐션 패턴으로 수렴함을 나타낸다.
- 이는 표준적인 균등 헤드 할당( $H=8$ )이 심층 레이어에서는 **과잉 지정(over-specified)**되어 있고, 초기 레이어에서는 **과소 지정(under-specified)**되어 있을 가능성이 높음을 시사한다.
에너지 게이팅 (EGA) 효과:
에너지 게이팅(EGA)이 적용된 모델은 모든 레이어에서 체계적으로 더 높은 스케일로그램 에너지를 보였으며, 이는 에너지 게이팅이 일관된 구조를 증폭시킨다는 것을 확인시켜 준다. EGA-1은 베이스라인에 비해 중간 레이어(3–4)에서는 약간 더 높은 스펙트럼 복잡성을, 최종 레이어(5–6)에서는 더 낮은 복잡성을 보였는데, 이는 다양한 패턴의 선택적 증폭 이후의 응집(consolidation)을 시사한다.

의의 및 주장

본 논문은 트랜스포머 어텐션과 난류 흐름 사이의 구조적 유사성을 확립한다고 주장하며, 물리적 동등성(Navier-Stokes 역학)을 주장하는 것이 아니라 수학적 도구(앙상블 공분산, POD, 웨이브릿 분석)를 차용한다.

최적의 해석 가능성: 휴리스틱한 해석 방법(예: 프로빙, 패칭)과 달리, 이 접근 방식은 엄격한 재구성-최적성 보장을 제공한다. 추출된 모드들은 앙상블에 대한 평균 제곱 오차를 최소화하는 유일한 선형 기저이다.
데이터 기반 복잡도: 어텐션 필드의 통계로부터 직접 유도된, 어텐션 복잡도( $T_{spec}$ )와 유효 랭크( $H^*_l$ )에 대한 최초의 데이터 기반 정량적 척도를 도입한다.
스케일 분리: 어텐션 분석에서 스케일을 "혼합"하는 것은 언어적 의미를 흐린다는 점을 입증한다. 스케일 선택적 POD는 해석 가능한 패턴(예: 단어 경계 어텐션과 담화 구조의 구분)을 격리하는 데 필수적이다.
이론적 경계: 본 연구는 어텐션 헤드의 프루닝(pruning) 및 레이어별 랭크 할당을 위한 원칙적인 오차 경계 기준을 제공하며, 헤드의 수는 밑바닥의 스펙트럼 복잡도에 맞춰 레이어별로 달라져야 함을 시사한다.

저자들은 난류 비유가 물리적이 아닌 구조적임을 명시한다: "우리는 유체 역학 자체가 아니라 앙상블 공분산과 모드 분석을 빌려온 것이다." 이 프레임워크는 어텐션 필드를 다중 스케일 확률적 상호작용 필드로 취급하며, 여기서 지배적인 모드는 문서 앙상블 전반에 걸친 정보 전달의 가장 반복적인 패턴을 나타낸다.

Multiscale POD of Transformer Attention Fields: Scale-Selective Analysis via Morlet Scalogram