Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures

이 논문은 행동 분석과 개입 기반 방법을 결합하여 다양한 아키텍처의 대규모 언어 모델에서 문맥 학습 (ICL) 의 내부 메커니즘을 탐구하며, 특히 기능 벡터가 매개변수 지식 검색에 중요한 역할을 하지만 Mamba2 는 다른 메커니즘을 사용할 수 있음을 규명했습니다.

Shenran Wang, Timothy Tin-Long Tse, Jian Zhu

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 연구의 배경: "새로운 문제"를 푸는 능력 (ICL)

대부분의 AI 는 미리 학습된 지식만 가지고 있습니다. 하지만 최신 AI 는 학습 없이도 시험 문제 앞에 제시된 몇 가지 예시 (예: "사과→과일, 당근→채소"를 보고 "포도→?"를 맞히는 것) 를 보고 그 패턴을 파악해 답을 맞출 수 있습니다. 이를 **맥락 학습 **(In-Context Learning)이라고 부릅니다.

기존 연구는 이 능력이 주로 **변환기 **(Transformer)라는 특정 뇌 구조에서 어떻게 작동하는지 분석했습니다. 하지만 최근에는 Mamba나 **하이브리드 **(Transformer+Mamba)라는 새로운 뇌 구조의 AI 들도 등장했는데, 이들이 똑같은 일을 할 때 내부적으로 어떤 다른 방식으로 작동하는지는 아직 알려지지 않았습니다.

🔍 2. 연구 방법: 두 가지 다른 시험 유형

연구진은 AI 들에게 두 가지 종류의 시험을 치르게 했습니다.

  1. **기억력 테스트 **(Parametric Knowledge Retrieval)
    • 비유: "대한민국의 수도는?" 같은 사실 지식을 묻는 문제.
    • AI 가 이미 머릿속에 저장해 둔 지식을 꺼내와서 답을 찾는 과정입니다.
  2. **이해력 테스트 **(Contextual Knowledge Understanding)
    • 비유: "이 글에서 화난 사람은 누구인가?"처럼 지문 내용을 읽고 추론하는 문제.
    • AI 가 지문이라는 '새로운 맥락'을 이해하고 답을 찾아야 합니다.

🧪 3. 주요 발견: 겉은 비슷해도 속은 다르다!

① 겉보기엔 비슷하지만, 내부 엔진은 다름

모든 AI 모델 (변환기, Mamba, 하이브리드) 이 시험 점수는 비슷하게 잘 받았습니다. 하지만 내부 작동 방식을 들여다보니 완전히 달랐습니다.

  • 비유: 같은 '자동차'라도 엔진이 가솔린인지, 전기인지, 하이브리드인지에 따라 작동 원리가 다르듯이, AI 도 겉으로는 똑같은 일을 하지만 내부 회로는 다릅니다.

② '기능 벡터 (FV)'라는 특수 부대의 역할

기존 연구에서는 AI 가 새로운 문제를 풀 때 **'기능 벡터 **(Function Vectors)라는 특정 부서가 핵심 역할을 한다고 했습니다. 마치 특수 부대가 작전을 수행하는 것처럼요.

  • **기억력 테스트 **(사실 지식)
    • **변환기 **(Transformer)와 Mamba 모델에서는 이 '특수 부대' (자율 주의 Attention 레이어) 가 아주 중요한 역할을 했습니다.
    • 하지만 Mamba2 모델은 이 특수 부대를 거의 쓰지 않았습니다. Mamba2 는 완전히 다른 방식으로 기억력 테스트를 해결하고 있었습니다.
  • **이해력 테스트 **(지문 이해)
    • 사실 지식을 묻는 문제와 달리, 지문을 이해하는 문제에서는 '특수 부대'의 중요도가 크게 떨어졌습니다. AI 는 다른 방식으로 맥락을 이해하고 있었습니다.

③ 하이브리드 모델의 비밀: "이중 엔진"

변환기와 Mamba 를 섞은 하이브리드 모델은 흥미로운 결과를 보였습니다.

  • 비유: 하이브리드 차처럼 두 가지 엔진 (Attention 과 Mamba) 이 달렸지만, 새로운 문제를 풀 때는 주로 'Attention 엔진'이 주도했습니다.
  • 특히 Mamba 엔진 쪽을 건드리면 오히려 성능이 떨어지기도 했습니다. 이는 하이브리드 모델이 새로운 학습을 할 때, 기존에 잘 알려진 'Attention' 방식에 더 의존한다는 뜻입니다.

💡 4. 결론: 왜 이 연구가 중요한가요?

이 연구는 **"모든 AI 가 똑같은 방식으로 학습하는 게 아니다"**라는 사실을 밝혀냈습니다.

  • 과거의 생각: AI 는 모두 같은 원리 (특수 부대) 로 학습한다.
  • 새로운 발견:
    • Mamba2는 아예 다른 원리로 학습한다.
    • 기억력이해력은 AI 내부에서 서로 다른 부서가 담당한다.
    • 하이브리드 모델은 두 엔진 중 하나에 더 의존한다.

🌟 한 줄 요약

"똑똑한 AI 들이 시험을 잘 치는 건 비슷해 보이지만, 그 속을 들여다보면 기억력이해력을 처리하는 방식이 모델마다 천차만별입니다. 특히 최신 모델인 Mamba2는 기존 AI 들과 완전히 다른 '비밀 무기'를 쓰고 있었죠!"

이 연구를 통해 우리는 AI 의 내부 작동 원리를 더 정교하게 이해하게 되었고, 앞으로 더 효율적이고 똑똑한 AI 를 설계하는 데 중요한 단서를 얻었습니다.