이 논문은 간단한 언어와 창의적인 비유를 사용하여 설명합니다.

큰 그림: 낡은 집의 새로운 방

이미 글쓰기, 코딩, 추론 방법을 알고 있는 거대하고 매우 지능적인 도서관 (기저 모델) 을 상상해 보세요. 이 도서관은 책과 생각을 조직하는 특정한 방식을 가지고 있는데, 연구자들은 이를 '내부 기하학'이라고 부릅니다.

이제 이 도서관에 특정 스타일로 글을 쓰거나 새로운 안전 규칙을 따르는 것과 같은 새로운 기술을 가르치고 싶다고 가정해 봅시다. 도서관 전체를 재건하는 대신, 작은 임시 별관을 추가합니다. 이것이 LoRA(저랭크 적응)입니다. 이는 원래 도서관의 책들을 변경하지 않고 그 위에 얹혀 행동을 미세 조정하는 경량의 '어댑터' 역할을 합니다.

문제점: 우리는 이 별관이 도서관이 무엇을 말하는지는 바꾼다는 것을 알지만, 도서관의 내부 사고가 어떻게 변하는지는 잘 모릅니다. 이 별관이 기존 책들을 단순히 재배열하는 것일까요, 아니면 원래 도서관의 지도에 표시되지 않는 완전히 새로운 보이지 않는 날개를 짓는 것일까요?

실험: '델타' 탐정

연구자들은 이 별관 (LoRA 어댑터) 이 도서관의 뇌 내부에서 정확히 무엇을 하고 있는지 확인하고자 했습니다.

전후 사진: 그들은 별관을 추가하기 전 ( $h_{base}$ ) 과 추가한 후 ( $h_{adapted}$ ) 도서관의 사고 상태를 스냅샷으로 찍었습니다.
차이점 ( $h_\Delta$ ): '이후' 사진에서 '이전' 사진을 뺐습니다. 그 결과인 델타는 어댑터의 순수한 '유령'입니다. 이는 원래 도서관이 이미 알고 있던 모든 것을 제거하고 새로운 별관이 추가한 것만을 보여줍니다.
번역기 (희소 오토인코더): 이 '유령'을 이해하기 위해 **희소 오토인코더 **(SAE)라는 특수 도구를 사용했습니다. SAE 는 '행복', '수학', '위험'과 같은 단순하고 명확한 개념들의 특정 사전으로 복잡한 사고를 설명하려는 번역기라고 생각하면 됩니다.

발견: 두 가지 다른 언어

연구자들은 번역기를 두 가지 다른 것으로 훈련시켰습니다.

사전 A: 원래 도서관의 기존 개념들 (사전 훈련된 SAE).
사전 B: 별관의 '유령'에 특화되어 훈련된 새로운 사전 (델타 SAE).

그들이 발견한 바는 다음과 같습니다:

1. 번역기가 구식 사전으로 실패함

그들이 원래 도서관의 사전을 사용하여 별관의 사고를 설명하려 했을 때, 번역기는 처참하게 실패했습니다.

비유: 사과와 오렌지에 대한 단어만으로 새로운 종류의 외계인 과일을 설명하려고 상상해 보세요. 불가능합니다. '오류'가 너무 커서 번역기가 과일의 모양조차 포착하지 못했습니다.
결과: 원래 사전은 어댑터가 생성한 새로운 특징들에 대해 맹목적이었습니다.

2. 새로운 사전이 완벽하게 작동함

그들이 별관에 특화되어 훈련된 새로운 사전을 사용했을 때, 사고를 완벽하게 설명했습니다.

비유: 그들은 별관이 약간 다른 사투리를 사용하고 있음을 깨달았습니다. 그 특정 사투리를 배우자마자 모든 것이 이해되었습니다.
결과: 어댑터는 원래 모델과 기하학적으로 구별되는 고유한 '특징 공간'을 생성합니다.

3. '유령'은 다른 방에 살다

연구자들은 원래 도서관의 사고와 어댑터의 사고 사이의 각도를 측정했습니다.

비유: 원래 도서관의 사고가 북쪽을 가리켰다면, 어댑터의 사고는 거의 정서쪽을 가리켰습니다 (약 74 도 차이). 그들은 단순히 약간 다른 것이 아니라 완전히 다른 방향으로 작동합니다.
결과: 어댑터의 크기가 크든 작든 (별관의 '랭크'나 크기를 변경하든), 항상 이 별도의 고유한 방을 짓습니다.

이것이 중요한 이유 (논문에 따르면)

이 논문은 안전과 관련된 특정 '모니터링 격차'를 강조합니다.

맹점: 기저 모델 (원래 도서관) 에 안전 필터를 훈련시킨 후 안전 어댑터 (LoRA) 를 연결하면, 안전 도구들이 잘못된 지도를 볼 수 있습니다. 그들은 원래 도서관의 '북쪽'을 점검하는 반면, 어댑터는 '서쪽'에서 작동합니다.
위험: 어댑터의 내부 변화가 기저 모델과 너무 다르기 때문에, 표준 안전 점검은 어댑터가 도입하는 위험한 행동을 놓칠 수 있습니다. 어댑터는 효과적으로 안전 검사관들이 볼 수 없는 방에 숨어 있습니다.

주요 발견 사항 요약

LoRA 는 단순한 미세 조정이 아닙니다; 새로운 구조입니다. 이는 원래 모델의 사전이 볼 수 없는 특징들을 생성합니다.
크기는 방향을 바꾸지 않습니다. 어댑터가 작든 크든 항상 이 별도의 고유한 '방'을 짓습니다.
우리는 새로운 지도가 필요합니다. 이러한 적응된 모델을 이해하거나 감사하기 위해 원래 모델을 위해 만들어진 도구만으로는 충분하지 않습니다. 어댑터가 추가하는 것을 특별히 살펴보는 새로운 도구 (예: '델타 SAE') 를 구축해야 합니다.

간단히 말해: 어댑터는 원래 집의 가구를 단순히 재배열하는 것이 아니라, 이해하기 위해 고유한 청사진이 필요한 새로운 보이지 않는 날개를 짓습니다.

기술 요약: LoRA 어댑터의 특징 기하학

문제 제기

저랭크 적응 (LoRA) 은 대규모 언어 모델 (LLM) 을 파인튜닝하는 주된 방법이지만, LoRA 가 유도하는 내부 표현적 변화는 여전히 잘 이해되지 않고 있습니다. 기존 기계적 해석 가능성 도구, 특히 희소 자동 인코더 (SAE) 는 베이스 모델과 RLHF 튜닝 변형에 성공적으로 적용되어 잔류 스트림 활성화를 희소하고 단일 의미론적 특징으로 분해해 왔습니다. 그러나 이러한 도구들은 일반적으로 전체 적응 모델 출력에 적용되어, 베이스 모델 표현과 어댑터 특정 기여를 혼동합니다.

이러한 세분화 부족은 중요한 격차를 만듭니다. 만약 LoRA 어댑터가 베이스 모델 해석 가능성 도구가 "볼 수 없는" 표현 부분 공간에서 작동한다면, 파인튜닝된 모델의 안전성 감사 및 정렬 분석은 체계적으로 불완전할 수 있습니다. 또한, 안전성 파인튜닝이 후속 적응에 의해 쉽게 무효화될 수 있는 기계적 이유는 특징 수준에서 아직 탐구되지 않았습니다.

방법론: 델타 SAE 프레임워크

LoRA 어댑터의 특정 기여를 분리하기 위해, 저자들은 델타 활성화 프레임워크를 도입합니다. 전체 적응 활성화 ( $h_{adapted}$ ) 를 분석하는 대신, 본 연구는 활성화 델타에 초점을 맞춥니다:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
이 델타는 베이스 모델의 신호에서 자유로운 어댑터의 정확하고 기계적으로 정제된 기여를 나타냅니다.

실험 파이프라인은 다음과 같습니다:

모델 설정: 베이스 모델로 Gemma-2-9B를 사용합니다. 네 개의 LoRA 어댑터를 Alpaca 데이터셋 (10,000 개 샘플) 에서 랭크 $r \in \{4, 8, 16, 32\}$ 로 훈련했으며, 랭크를 변수로 격리하기 위해 모든 다른 하이퍼파라미터를 고정했습니다.
델타 추출: 베이스 모델과 적응 모델 모두에 대해 6 개의 타겟 레이어 (5, 10, 18, 22, 32, 38) 에서 잔류 스트림 활성화를 포착하기 위해 포워드 후크를 사용하여 $h_\Delta$ 를 계산했습니다.
델타 SAE 훈련: 각 (랭크, 레이어) 쌍에 대해 정규화된 $h_\Delta$ 벡터에 전적으로 전용 SAE 를 훈련했습니다. 이를 베이스 모델의 잔류 스트림으로 훈련된 사전 훈련된 Gemma Scope SAE 와 비교했습니다.
기하학적 분석: 어댑터 유도 특징과 베이스 모델 특징 간의 정렬을 평가하기 위해 세 가지 보완적 측정을 사용했습니다:
- 코사인 유사도: 델타 SAE 디코더 방향과 Gemma Scope 특징 방향 간의 최대 유사도.
- 주요 각도 분석: 델타 SAE 와 Gemma Scope 디코더 행렬의 상위 256 차원 부분 공간 간의 각도.
- 중앙 커널 정렬 (CKA): $h_{base}$ 와 $h_\Delta$ 활성화 세트 간의 표현적 유사도를 측정.

주요 결과

1. 어댑터 신호 재구성을 실패한 베이스 SAE

Gemma Scope (베이스 모델) SAE 를 사용하여 $h_\Delta$ 를 재구성했을 때, 모든 레이어와 랭크에서 상대 재구성 오차가 1.0을 초과했습니다. 이는 베이스 사전의 근사 오차가 어댑터 자체의 신호 크기보다 크다는 것을 나타냅니다. 오차는 초기 레이어 (레이어 5, $\epsilon \approx 2.3$ ) 에서 가장 심각했으며 깊이에 따라 약간 개선되었지만 여전히 높았습니다.

2. 어댑터 전용 SAE 의 우월성

$h_\Delta$ 에 특별히 훈련된 SAE 는 홀드아웃 데이터에서 베이스 SAE 보다 훨씬 우수한 성능을 보였습니다. 재구성 개선 폭은 **46.3% 에서 86.2%**에 달했으며, 이는 LoRA 어댑터가 베이스 모델의 특징 사전으로 포착되지 않는 진정한 일반화 가능한 구조를 학습함을 보여줍니다.

3. 기하학적 분기

세 가지 독립적 분석은 LoRA 특징이 기하학적으로 구별되는 부분 공간을 차지함을 확인했습니다:

코사인 유사도: 델타 특징과 베이스 특징 간의 평균 최대 코사인 유사도는 약 0.071로, 3,584 차원에서의 무작위 벡터에 대한 기대값 (약 0) 을 barely 상회했습니다. 델타 특징의 0.01–0.02% 만 베이스 특징과 강한 정렬 (>0.7) 을 보였습니다.
주요 각도: 부분 공간 간의 평균 주요 각도는 **약 74°**였으며, 정렬 (<20°) 을 보이는 방향은 **0%**였습니다. 약 66% 의 부분 공간은 거의 직교 (>70°) 했습니다.
CKA: $h_{base}$ 와 $h_\Delta$ 간의 CKA 는 의미론적 처리 레이어인 레이어 18 에서 가장 낮아 약 0.05–0.08까지 떨어졌으며, 이는 의미론적 처리가 집중되는 곳에서 최대 표현적 분기를 나타냅니다.

4. 랭크 및 깊이 효과

특징 밀도: 활성화된 특징의 수는 레이어 깊이와 LoRA 랭크 모두에 따라 단조 증가했습니다. 예를 들어, 레이어 38 에서 랭크 4 는 토큰당 약 30 개의 특징을 활성화한 반면, 랭크 32 는 약 41 개를 활성화했습니다.
기하학적 안정성: 밀도와 용량의 변화에도 불구하고 근본적인 기하학적 새로움 (주요 각도와 코사인 유사도로 측정) 은 랭크 불변으로 유지되었습니다. 모든 랭크는 베이스 모델과 기하학적으로 분리된 표현을 생성했습니다.
약하게 정렬된 특징: $h_\Delta$ 에 의해 활성화된 특징의 93% 이상이 "약하게 정렬된" (델타에서만 활성화되고 베이스에서는 활성화되지 않음) 특징이었으며, 이 비율은 모든 랭크와 레이어에서 일관되게 유지되었습니다.

중요성 및 주장

본 논문은 LoRA 특징 기하학에 대한 최초의 체계적 기계적 분석을 제공한다고 주장합니다. 주요 기여는 **"모니터링 격차"**의 식별입니다: 베이스 모델 활성화에 전적으로 훈련된 해석 가능성 도구는 LoRA 어댑터의 표현적 기여에 체계적으로 맹목적입니다.

저자들은 다음과 같이 주장합니다:

안전성 감사는 불완전합니다: 조직이 안전성 파인튜닝된 LoRA 모델을 배포할 경우, 베이스 사전이 델타 신호를 재구성할 수 없기 때문에 표준 SAE 기반 감사는 어댑터 인코딩된 표현을 탐지하지 못할 수 있습니다.
취약성에 대한 기계적 설명: 기하학적 분리는 안전성 파인튜닝이 쉽게 무효화될 수 있는 기계적 설명을 제공합니다. 후속 파인튜닝은 단순히 모델을 원래 안전성 제약 (베이스 기하학에 인코딩됨) 이 효과적으로 모니터링하지 않는 구별된 부분 공간으로 이동시킬 수 있습니다.
방법론적 해결책: 파인튜닝된 모델의 특징 수준 감사를 위한 필수 도구로서 델타 SAE 프레임워크가 제안되어 어댑터 특정 기여의 격리 및 분석을 가능하게 합니다.

본 연구는 LoRA 어댑터가 더 높은 랭크로 표현 용량 (밀도) 을 증가시키지만, 근본적으로 구별된 기하학적 부분 공간에서 작동하므로 파인튜닝된 모델을 위한 새로운 해석 가능성 접근법이 필요하다고 결론지었습니다.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models