Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "무대 위의 배우 vs. 대본의 정신"

이 논문의 주인공은 두 가지입니다.

기능 벡터 (Function Vectors, FV): 모델이 실제로 문제를 풀게 만드는 **'실제 배우'**들입니다.
개념 벡터 (Concept Vectors, CV): 문제의 본질 (예: '반대말'이라는 규칙) 을 담고 있는 **'대본의 정신'**입니다.

1. 상황 설정: 같은 문제, 다른 무대

생각해 보세요. "뜨겁다 (Hot) → 차갑다 (Cold)"라는 반대말 관계를 학습시키는 상황입니다.

상황 A: "Hot → Cold, Big → Small, Clean → ?"라고 글로만 물어봅니다. (열린 질문)
상황 B: "Hot → (a) Cold (b) Hot"처럼 선택지를 줍니다. (객관식)

사람은 두 상황 모두에서 똑같이 "반대말"이라는 규칙을 적용합니다. 하지만 AI 모델은 어떨까요?

2. 발견 1: "실제 배우 (FV)"는 무대 장면에 따라 달라진다

기존 연구자들은 모델이 문제를 풀 때, 그 문제의 '개념'을 담고 있는 하나의 고정된 뇌 회로 (기능 벡터) 를 쓴다고 믿었습니다. 마치 어떤 무대에서든 똑같은 연기를 하는 한 명의 배우가 있다고 생각한 거죠.

하지만 이 논문의 저자들은 놀라운 사실을 발견했습니다.

글로 물어볼 때 쓰는 배우와 객관식으로 물어볼 때 쓰는 배우는 완전히 다른 사람입니다!
이 두 배우는 서로 전혀 통하지 않습니다 (수학적으로 거의 직교합니다).
비유: "글로 물어보면 영어 배우가 나와서 연기를 하고, 객관식으로 물어보면 프랑스어 배우가 나와서 연기를 합니다."
결과: 이 '기능 벡터 (FV)'는 개념 자체보다는 **질문 방식 (포맷)**에 더 민감하게 반응합니다. 질문이 바뀌면 모델이 쓰는 '도구'도 완전히 바뀝니다.

3. 발견 2: "대본의 정신 (CV)"은 어디에 숨어 있을까?

그렇다면 모델은 '반대말'이라는 추상적인 개념을 전혀 모를까요? 아닙니다. 모델은 알고 있습니다. 하지만 그 정보는 실제 연기를 담당하는 배우 (FV) 가 아니라, 다른 곳에 숨어 있습니다.

저자들은 **RSA(표상 유사성 분석)**라는 새로운 안경을 쓰고 모델을 살펴봤습니다.

이 안경을 쓰면, 질문 방식 (글 vs 객관식) 이 달라도 '반대말'이라는 개념을 일관되게 표현하는 뇌 회로 (개념 벡터, CV) 를 찾아낼 수 있었습니다.
비유: 이 '개념 벡터 (CV)'는 무대 위의 배우가 아니라, 극장의 지붕에 있는 '지시자' 같은 존재입니다. 배우들이 누구든, 무대가 무엇이든 "이건 반대말 게임이야!"라고 일관되게 알려줍니다.
중요한 점: 이 '지시자 (CV)'와 '배우 (FV)'는 서로 다른 뇌 회로에 있습니다. 즉, 모델은 '개념을 이해하는 부분'과 '문제를 실제로 푸는 부분'을 분리해서 사용하고 있습니다.

4. 실험: "조종 (Steering)"하기

연구자들은 이 두 가지를 인위적으로 조작해 보았습니다.

기능 벡터 (FV) 를 조작했을 때: 질문 방식이 원래와 같을 때 (예: 영어로 된 글 질문) 는 모델이 아주 잘 작동했습니다. 하지만 질문 방식이 바뀌면 (예: 객관식) 모델이 엉뚱한 답을 하거나, 질문의 형식 (예: 객관식의 괄호) 을 그대로 답에 섞어버리는 등 혼란을 겪었습니다.
개념 벡터 (CV) 를 조작했을 때: 질문 방식이 바뀌어도 (영어, 프랑스어, 객관식 등) 모델이 '반대말'이라는 규칙을 일관되게 따랐습니다. 다만, FV 에 비해 효과의 크기는 조금 작았습니다.

📝 한 줄 요약 및 교훈

"LLM 은 문제를 풀 때, '질문하는 방식'에 맞춰 즉석에서 도구를 만드는 능력 (FV) 과, '문제 자체의 규칙'을 이해하는 능력 (CV) 을 따로 가지고 있다."

기존의 오해: "모델은 개념을 추상적으로 이해해서 어떤 상황에서도 똑같이 적용한다."
이 논문의 결론: "모델은 개념을 이해하고 있긴 하지만 (CV), 실제 문제를 풀 때는 질문의 형태에 맞춰 그 순간그순간 새로운 '도구' (FV) 를 만들어 쓴다. 그래서 질문 방식이 바뀌면 모델의 행동도 크게 달라진다."

💡 왜 이 연구가 중요한가요?

이 연구는 AI 를 더 잘 이해하고 제어하는 데 중요한 힌트를 줍니다.

AI 의 한계: AI 가 "이해"한 것처럼 보여도, 사실은 질문의 형식에 너무 의존하고 있을 수 있습니다.
AI 제어: 만약 우리가 AI 를 특정 방향으로 조종하고 싶다면, 질문의 형식을 일정하게 유지해야 가장 강력하게 (FV 활용) 작동시킬 수 있습니다. 하지만 AI 가 다양한 상황에서도 일관된 지식을 발휘하게 하려면, '개념'을 직접 자극하는 (CV 활용) 방법이 더 안전합니다.

결국, 인공지능은 인간처럼 완전히 추상화된 '지혜' 하나로 모든 문제를 해결하는 것이 아니라, 상황 (질문 형식) 에 맞춰 다양한 '기술'을 동원하는 정교한 기계라는 사실을 깨닫게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: CAUSALITY ≠ INVARIANCE: FUNCTION AND CONCEPT VECTORS IN LLMS

(원제: 인과성은 불변성이 아니다: LLM 내의 기능 벡터와 개념 벡터)

이 논문은 대규모 언어 모델 (LLM) 이 표면적 입력 형식 (예: 개방형 질문 vs. 객관식, 영어 vs. 프랑스어) 에 구애받지 않고 추상적인 개념을 표현하는지, 그리고 이러한 표현이 모델의 성능을 실제로 주도하는지 여부를 탐구합니다. 저자들은 **기능 벡터 (Function Vectors, FVs)**와 **개념 벡터 (Concept Vectors, CVs)**를 구분하여, LLM 내에서는 '인과적 성능 주도 메커니즘'과 '추상적 개념 표현 메커니즘'이 서로 다른 신경 회로에 의해 처리된다는 것을 증명합니다.

1. 연구 배경 및 문제 제기 (Problem)

핵심 질문: LLM 은 입력의 표면적 형식 (surface form) 에 독립적인 추상적 개념 (예: "반의어", "카테고리") 을 표현하는가?
기존 연구의 한계: 최근 연구 (Todd et al., 2024 등) 는 **기능 벡터 (FV)**가 컨텍스트 학습 (ICL) 과제를 수행하는 핵심 메커니즘이라고 주장했습니다. FV 는 특정 어텐션 헤드들의 출력을 합산하여 만든 벡터로, 다양한 컨텍스트에서 과제를 수행하게 하는 인과적 역할을 한다고 여겨졌습니다.
가설의 모호성: FV 가 다양한 입력 형식 (예: 영어 개방형 vs. 프랑스어 객관식) 에서 동일한 개념을 인코딩하는지, 아니면 입력 형식과 개념이 혼재되어 있는지에 대한 명확한 검증이 부족했습니다. 즉, **인과성 (Causality)**과 **불변성 (Invariance)**이 동일한 메커니즘에 의해 구현되는지 여부가 불분명했습니다.

2. 방법론 (Methodology)

저자들은 4 개의 모델 (Llama 3.1 8B/70B, Qwen 2.5 7B/72B) 과 7 가지 관계적 개념 (반의어, 카테고리, 인과, 동의어, 번역, 시제, 단수/복수) 을 사용하여 실험을 수행했습니다. 입력 형식은 영어 개방형 (OE-EN), 외국어 개방형 (OE-FR/ES), 객관식 (MC) 으로 다양화했습니다.

주요 기법:

활성화 패치 (Activation Patching, AP):
- 목적: 모델 출력에 **인과적 영향 (Causal Effect)**을 미치는 어텐션 헤드를 식별.
- 방식: 깨끗한 프롬프트 (Clean) 의 활성화 값을 손상된 프롬프트 (Corrupted) 에 주입하여 정답 예측 확률의 변화 (CIE, Indirect Effect) 를 측정.
- 결과: **기능 벡터 (FV)**는 이 방법으로 선택된 상위 K 개의 어텐션 헤드의 활성화 합으로 구성됨.
표현 유사성 분석 (Representational Similarity Analysis, RSA):
- 목적: 입력 형식에 **불변 (Invariant)**인 개념 정보를 인코딩하는 헤드를 식별.
- 방식: 각 헤드의 출력 벡터 간 유사도 행렬 (RSM) 과 개념이 동일한지 여부에 따른 이진 설계 행렬 (Design Matrix) 간의 상관관계 (Spearman's $\rho$ ) 를 계산.
- 결과: **개념 벡터 (CV)**는 이 RSA 점수가 높은 헤드의 활성화 합으로 구성됨.
스티어링 (Steering) 실험:
- 추출된 FV 와 CV 를 모델의 잔여 스트림 (residual stream) 에 주입하여 모델의 예측을 변경하는 실험.
- AmbiguousICL 태스크: 한 프롬프트 내에 두 가지 개념 (예: 반의어 vs. 번역) 이 혼재되어 있을 때, 특정 개념으로 모델을 유도하는지 확인.

3. 주요 결과 (Key Results)

3.1 FV 와 CV 는 서로 다른 어텐션 헤드로 구성됨

헤드 불일치: FV 를 구성하는 헤드는 AP(인과성) 기반, CV 를 구성하는 헤드는 RSA(불변성) 기반입니다. 두 세트의 헤드는 층 (Layer) 은 비슷하게 분포하지만, 실제 헤드 식별자 (Identity) 는 거의 겹치지 않습니다 (Top-K 에서 겹침이 거의 0 에 가까움).
의미: 추상적 개념을 표현하는 메커니즘과 ICL 성능을 실제로 주도하는 메커니즘은 분리되어 있습니다.

3.2 불변성 (Invariance) 의 차이

FV (기능 벡터): 입력 형식에 따라 크게 달라집니다. 동일한 개념이라도 개방형 vs 객관식, 영어 vs 프랑스어 등 형식이 다르면 FV 벡터는 거의 직교 (Orthogonal) 합니다. 즉, FV 는 개념 + 입력 형식이 혼합된 상태입니다.
CV (개념 벡터): 입력 형식에 관계없이 개념별로 군집 (Clustering) 합니다. FV 는 형식별로 뭉치는 반면, CV 는 개념별로 뭉칩니다. CV 는 입력 형식의 표면적 정보 (예: 객관식 괄호, 외국어 토큰) 를 덜 포함합니다.

3.3 스티어링 성능 비교

분포 내 (In-Distribution, ID): 추출 형식과 적용 형식이 일치할 때 (예: 모두 영어 개방형), FV가 더 큰 성능 향상 ( $\Delta P$ ) 을 보입니다.
분포 외 (Out-of-Distribution, OOD): 추출 형식과 적용 형식이 다를 때 (예: 프랑스어에서 추출하여 영어 객관식에 적용), CV가 훨씬 더 일관된 성능을 보입니다.
- FV 는 OOD 환경에서 성능이 급격히 떨어지거나, 추출된 형식의 특징 (예: 프랑스어 번역어, 객관식 괄호) 을 잘못 반영하는 경향이 있습니다.
- CV 는 형식과 언어에 구애받지 않고 추상적인 개념 관계 (예: "반의어 관계") 를 일관되게 강화합니다.

4. 주요 기여 (Key Contributions)

FV 의 비불변성 증명: 기존에 FV 가 추상적 개념을 인코딩한다고 여겨졌으나, 실제로는 입력 형식과 개념이 혼재되어 있음을 증명했습니다.
RSA 를 통한 CV 발견: RSA 를 사용하여 입력 형식에 불변인 고수준 추상 개념을 인코딩하는 어텐션 헤드를 식별하고 이를 **개념 벡터 (CV)**로 정의했습니다.
인과성과 불변성의 분리: LLM 내에서 ICL 성능을 주도하는 메커니즘 (FV) 과 추상적 개념을 표현하는 메커니즘 (CV) 이 서로 다른 신경 회로 (Disjoint Heads) 에 의해 구현됨을 발견했습니다.
실용적 트레이드오프 제시:
- FV: 분포 내 환경에서 강력한 제어 (Steering) 가 필요할 때 유용.
- CV: 분포 외 환경에서의 일반화나 추상적 지식 탐지에 더 안정적.

5. 의의 및 결론 (Significance)

이 연구는 LLM 의 내부 작동 원리에 대한 중요한 통찰을 제공합니다.

이론적 함의: LLM 이 인간과 유사한 추상적 유추 (Analogical Reasoning) 능력을 보일 때, 이것이 가장 추상적인 개념 표현 (CV) 에 의해 직접 주도되는 것이 아니라, 형식에 의존적인 메커니즘 (FV) 을 통해 해결될 수 있음을 시사합니다. 즉, 인과성 (Causality) 이 반드시 불변성 (Invariance) 을 의미하지는 않습니다.
모델 해석 및 제어: LLM 을 해석하거나 제어 (Steering) 할 때, 단순히 "작업 벡터" 하나만 찾는 것이 아니라, **과제를 수행하게 하는 벡터 (FV)**와 **개념을 표현하는 벡터 (CV)**를 구분하여 접근해야 함을 강조합니다.
미래 연구 방향: CV 와 FV 가 추론 과정에서 어떻게 상호작용하는지 (예: CV 가 감지/인코딩을 담당하고 FV 가 실행을 담당하는지) 에 대한 추가 연구가 필요합니다.

요약: LLM 은 추상적인 개념을 표현할 수 있지만 (CV), 실제 과제를 수행하고 성능을 내는 주체는 입력 형식에 민감한 기능 벡터 (FV) 입니다. 두 메커니즘은 서로 다른 어텐션 헤드를 사용하며, 이는 LLM 의 추론 능력이 단일한 "기능 벡터"가 아니라 분산되고 분리된 회로들의 협력으로 이루어짐을 보여줍니다.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs