Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures
이 논문은 행동 분석과 개입 기반 방법을 결합하여 다양한 아키텍처의 대규모 언어 모델에서 문맥 학습 (ICL) 의 내부 메커니즘을 탐구하며, 특히 기능 벡터가 매개변수 지식 검색에 중요한 역할을 하지만 Mamba2 는 다른 메커니즘을 사용할 수 있음을 규명했습니다.