Causality \neq Invariance: Function and Concept Vectors in LLMs

이 논문은 대규모 언어 모델이 문맥 학습 성능을 주도하는 함수 벡터가 입력 형식에 따라 변하지 않는 불변성을 갖지 않는 반면, 다양한 형식과 언어에 걸쳐 추상적인 개념을 더 안정적으로 표현하는 개념 벡터가 존재함을 규명합니다.

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "무대 위의 배우 vs. 대본의 정신"

이 논문의 주인공은 두 가지입니다.

  1. 기능 벡터 (Function Vectors, FV): 모델이 실제로 문제를 풀게 만드는 **'실제 배우'**들입니다.
  2. 개념 벡터 (Concept Vectors, CV): 문제의 본질 (예: '반대말'이라는 규칙) 을 담고 있는 **'대본의 정신'**입니다.

1. 상황 설정: 같은 문제, 다른 무대

생각해 보세요. "뜨겁다 (Hot) → 차갑다 (Cold)"라는 반대말 관계를 학습시키는 상황입니다.

  • 상황 A: "Hot → Cold, Big → Small, Clean → ?"라고 글로만 물어봅니다. (열린 질문)
  • 상황 B: "Hot → (a) Cold (b) Hot"처럼 선택지를 줍니다. (객관식)

사람은 두 상황 모두에서 똑같이 "반대말"이라는 규칙을 적용합니다. 하지만 AI 모델은 어떨까요?

2. 발견 1: "실제 배우 (FV)"는 무대 장면에 따라 달라진다

기존 연구자들은 모델이 문제를 풀 때, 그 문제의 '개념'을 담고 있는 하나의 고정된 뇌 회로 (기능 벡터) 를 쓴다고 믿었습니다. 마치 어떤 무대에서든 똑같은 연기를 하는 한 명의 배우가 있다고 생각한 거죠.

하지만 이 논문의 저자들은 놀라운 사실을 발견했습니다.

  • 글로 물어볼 때 쓰는 배우와 객관식으로 물어볼 때 쓰는 배우는 완전히 다른 사람입니다!
  • 이 두 배우는 서로 전혀 통하지 않습니다 (수학적으로 거의 직교합니다).
  • 비유: "글로 물어보면 영어 배우가 나와서 연기를 하고, 객관식으로 물어보면 프랑스어 배우가 나와서 연기를 합니다."
  • 결과: 이 '기능 벡터 (FV)'는 개념 자체보다는 **질문 방식 (포맷)**에 더 민감하게 반응합니다. 질문이 바뀌면 모델이 쓰는 '도구'도 완전히 바뀝니다.

3. 발견 2: "대본의 정신 (CV)"은 어디에 숨어 있을까?

그렇다면 모델은 '반대말'이라는 추상적인 개념을 전혀 모를까요? 아닙니다. 모델은 알고 있습니다. 하지만 그 정보는 실제 연기를 담당하는 배우 (FV) 가 아니라, 다른 곳에 숨어 있습니다.

저자들은 **RSA(표상 유사성 분석)**라는 새로운 안경을 쓰고 모델을 살펴봤습니다.

  • 이 안경을 쓰면, 질문 방식 (글 vs 객관식) 이 달라도 '반대말'이라는 개념을 일관되게 표현하는 뇌 회로 (개념 벡터, CV) 를 찾아낼 수 있었습니다.
  • 비유: 이 '개념 벡터 (CV)'는 무대 위의 배우가 아니라, 극장의 지붕에 있는 '지시자' 같은 존재입니다. 배우들이 누구든, 무대가 무엇이든 "이건 반대말 게임이야!"라고 일관되게 알려줍니다.
  • 중요한 점: 이 '지시자 (CV)'와 '배우 (FV)'는 서로 다른 뇌 회로에 있습니다. 즉, 모델은 '개념을 이해하는 부분'과 '문제를 실제로 푸는 부분'을 분리해서 사용하고 있습니다.

4. 실험: "조종 (Steering)"하기

연구자들은 이 두 가지를 인위적으로 조작해 보았습니다.

  • 기능 벡터 (FV) 를 조작했을 때: 질문 방식이 원래와 같을 때 (예: 영어로 된 글 질문) 는 모델이 아주 잘 작동했습니다. 하지만 질문 방식이 바뀌면 (예: 객관식) 모델이 엉뚱한 답을 하거나, 질문의 형식 (예: 객관식의 괄호) 을 그대로 답에 섞어버리는 등 혼란을 겪었습니다.
  • 개념 벡터 (CV) 를 조작했을 때: 질문 방식이 바뀌어도 (영어, 프랑스어, 객관식 등) 모델이 '반대말'이라는 규칙을 일관되게 따랐습니다. 다만, FV 에 비해 효과의 크기는 조금 작았습니다.

📝 한 줄 요약 및 교훈

"LLM 은 문제를 풀 때, '질문하는 방식'에 맞춰 즉석에서 도구를 만드는 능력 (FV) 과, '문제 자체의 규칙'을 이해하는 능력 (CV) 을 따로 가지고 있다."

  • 기존의 오해: "모델은 개념을 추상적으로 이해해서 어떤 상황에서도 똑같이 적용한다."
  • 이 논문의 결론: "모델은 개념을 이해하고 있긴 하지만 (CV), 실제 문제를 풀 때는 질문의 형태에 맞춰 그 순간그순간 새로운 '도구' (FV) 를 만들어 쓴다. 그래서 질문 방식이 바뀌면 모델의 행동도 크게 달라진다."

💡 왜 이 연구가 중요한가요?

이 연구는 AI 를 더 잘 이해하고 제어하는 데 중요한 힌트를 줍니다.

  1. AI 의 한계: AI 가 "이해"한 것처럼 보여도, 사실은 질문의 형식에 너무 의존하고 있을 수 있습니다.
  2. AI 제어: 만약 우리가 AI 를 특정 방향으로 조종하고 싶다면, 질문의 형식을 일정하게 유지해야 가장 강력하게 (FV 활용) 작동시킬 수 있습니다. 하지만 AI 가 다양한 상황에서도 일관된 지식을 발휘하게 하려면, '개념'을 직접 자극하는 (CV 활용) 방법이 더 안전합니다.

결국, 인공지능은 인간처럼 완전히 추상화된 '지혜' 하나로 모든 문제를 해결하는 것이 아니라, 상황 (질문 형식) 에 맞춰 다양한 '기술'을 동원하는 정교한 기계라는 사실을 깨닫게 해줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →