SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Each language version is independently generated for its own context, not a direct translation.

🌍 문제: "말이 섞이는" AI 의 버그

여러분이 AI 에게 "한국어로 설명해 줘"라고 했다고 상상해 보세요. 그런데 AI 가 설명을 하다가 갑자기 **"The main concept is..."**라고 영어를 섞거나, **"Это очень важно..."**라고 러시아어를 튀어나오게 한다면 어떨까요?

이걸 **'언어 섞임 (Code-switching)'**이라고 합니다. 특히 AI 가 의도치 않게 다른 언어를 섞어 쓰는 것은 사용자를 혼란스럽게 하고, AI 의 신뢰도를 떨어뜨립니다. 마치 한국인 친구가 대화 중 갑자기 갑자기 불쑥 영어나 중국어를 섞어 말하며 "왜 갑자기 저런 말을 하지?"라고 생각하게 만드는 것과 비슷합니다.

기존에는 이 문제를 해결하기 위해 AI 에게 "언어 일관성 점수"를 매겨서 강제로 고치려 했지만, 효과가 미미했습니다.

🔍 원인 발견: AI 의 뇌속 '언어 스위치'

연구팀은 AI 의 내부 작동 원리를 들여다보기 위해 **'희소 오토인코더 (SAE)'**라는 특수한 현미경을 사용했습니다.

비유: AI 의 뇌속에는 각 언어마다 전용으로 작동하는 **'스위치'**들이 있습니다. 예를 들어, '중국어 스위치', '러시아어 스위치', '한국어 스위치'가 있는 거죠.
발견: AI 가 엉뚱하게 언어를 섞을 때, 그 '엉뚱한 언어의 스위치'가 너무 세게 켜져서 (과도하게 활성화되어) 있었습니다.
- 마치 한국어를 말해야 하는데, 옆에 있던 '중국어 스위치'가 너무 세게 눌려서 한국어를 말하다가 갑자기 중국어 소리가 튀어나오는 상황과 같습니다.

💡 해결책: SASFT (AI 의 뇌를 재교육하다)

연구팀은 이 문제를 해결하기 위해 **SASFT(Sparse Autoencoder-guided Supervised Finetuning)**라는 새로운 방법을 제안했습니다.

기존 방식 (인위적 제어): AI 가 말을 할 때마다 "아, 지금 중국어 스위치가 너무 켜졌네? 끄자!"라고 외부에서 강제로 조절하는 방식입니다. (매번 수동으로 해야 해서 번거롭고 근본 해결이 안 됨)
새로운 방식 (SASFT): AI 를 훈련시키는 과정에서 **"한국어를 말할 때는 중국어 스위치를 적당히 낮게 유지해라"**라고 AI 스스로 배우게 만드는 것입니다.
- 비유: AI 를 새로운 학교에 보내서 "너는 한국어를 말할 때, 옆에 있는 다른 언어 스위치들은 조용히 누르고 있어야 해"라고 교육을 시키는 것입니다.
- 이렇게 훈련된 AI 는 더 이상 외부의 간섭 없이 스스로 올바른 언어만 선택할 수 있게 됩니다.

📊 결과: 놀라운 성공

이 방법을 다양한 AI 모델 (Gemma, Llama, Qwen 등) 에 적용해 보았더니:

언어 섞임 50% 이상 감소: 대부분의 경우 엉뚱한 언어 섞임이 절반 이상 줄었습니다. 어떤 경우에는 완전히 100% 사라지기도 했습니다.
기존 능력 유지: 엉뚱한 언어를 섞지 않게 했다고 해서 AI 의 지능이 떨어지거나, 다른 언어를 못 하는 것은 아니었습니다. 오히려 일부 테스트에서는 성능이 더 좋아지기도 했습니다.

🎯 결론

이 연구는 **"AI 가 왜 엉뚱한 언어를 섞는지 그 원리를 찾아내고, AI 의 뇌속 스위치 조절법을 가르쳐서 자연스럽게 고쳤다"**는 점에 의의가 있습니다.

앞으로 우리는 AI 와 대화할 때, 갑자기 외국어가 튀어나와서 당황하지 않아도 될 것입니다. AI 가 우리가 원하는 언어로만 깔끔하게 대화할 수 있게 된 것입니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 뛰어난 다국어 능력을 갖추고 있지만, 예상치 못한 코드 스위칭 (Unexpected Code-Switching) 또는 언어 혼합 현상에 시달립니다. 이는 모델이 사용자의 의도와는 무관하게 응답 중 갑자기 다른 언어로 전환하는 것을 의미합니다.

영향: 사용자의 가독성을 떨어뜨리고 모델의 실용성을 저하시킵니다.
기존 연구의 한계: 기존 연구 (Guo et al., 2025) 는 GRPO(강화 학습) 와 언어 일관성 보상을 사용하여 이 문제를 해결하려 했으나, 메커니즘에 대한 깊은 이해가 부족하여 효과가 제한적이었습니다.

2. 방법론 (Methodology)

이 논문은 희소 오토인코더 (Sparse Autoencoders, SAEs) 를 활용하여 LLM 의 내부 표현을 분석하고, 이를 기반으로 새로운 파인튜닝 기법인 SASFT(Sparse Autoencoder-guided Supervised Finetuning) 를 제안합니다.

가. 핵심 발견 (Mechanistic Analysis)

SAE 기반 분석: LLM 은 특정 언어에 고유한 특징 (Language-specific features) 을 가지며, 이는 잔여 스트림 (residual stream) 의 특정 방향에 해당합니다.
예상치 못한 전환의 원인: 모델이 특정 언어로 전환하기 직전, 해당 불필요한 언어 (Target language) 의 특징에 대한 사전 활성화 값 (Pre-activation value) 이 비정상적으로 높게 나타나는 것을 발견했습니다.
인과 관계 검증:
- Ablation: 불필요한 언어의 특징을 제거 (Ablation) 하면 코드 스위칭 비율이 감소합니다.
- Enhancement: 반대로, 특정 언어의 특징을 인위적으로 강화하면 예상치 못한 코드 스위칭이 유발됩니다.

나. SASFT 알고리즘

기존의 추론 시 외부 개입 (Ablation) 방식의 단점 (모델 변경 없음, 오버헤드) 을 해결하기 위해 학습 단계에서 모델이 스스로 적절한 활성화 값을 유지하도록 가르칩니다.

언어 특징 식별: SAE 를 사용하여 특정 언어 (예: 한국어, 러시아어) 에 고유한 특징을 식별합니다.
보조 손실 함수 (Auxiliary Loss) 도입:
- 모델이 특정 언어 (예: 영어) 로 응답을 생성할 때, 불필요한 언어 (예: 한국어) 의 특징 사전 활성화 값이 임계치 ( $\alpha$ ) 를 초과하지 않도록 제약을 가합니다.
- 손실 함수: $L_{reduce} = \mathbb{E} [ \sum \text{ReLU}(f_s(x) - \alpha_j) ]$
- 최종 학습 손실: $L_{training} = L_{cross-entropy} + \lambda L_{reduce}$
적용 범위: 단일 레이어가 아닌 여러 레이어 (Multi-layer) 에 걸쳐 적용하여 더 안정적이고 효과적인 결과를 얻습니다.

3. 주요 기여 (Key Contributions)

메커니즘 규명: SAE 를 사용하여 LLM 에서 발생하는 예상치 못한 코드 스위칭의 원인이 '불필요한 언어 특징의 과도한 사전 활성화'임을 최초로 규명했습니다.
새로운 기법 제안 (SASFT): 추론 시가 아닌 학습 단계에서 언어 특징의 활성화 값을 제어함으로써 근본적인 해결책을 제시했습니다.
광범위한 실험 검증: Gemma-2, Llama-3.1, Qwen-3 등 5 개의 모델과 3 개 언어 (중국어, 러시아어, 한국어) 에서 효과성을 입증했습니다.

4. 실험 결과 (Results)

코드 스위칭 감소:
- 표준 SFT 대비 50% 이상의 코드 스위칭 감소 효과를 보였습니다.
- 특정 시나리오 (예: Qwen3-1.7B 에서 한국어로 전환) 에서는 100% (완전 제거) 를 달성했습니다.
- 기존 방법인 GRPO 보다 일관되게 우수한 성능을 보였으며, GRPO 는 오히려 성능이 악화되는 불안정한 결과를 보인 경우가 많았습니다.
다국어 능력 유지:
- MMLU, HumanEval, Flores-200 등 6 개의 다국어 벤치마크에서 모델의 원래 능력을 유지하거나 오히려 성능이 향상되는 결과를 보였습니다.
- 이는 SASFT 가 불필요한 언어 전환만 억제하고 모델의 본질적인 다국어 이해 능력은 해치지 않음을 의미합니다.
레이어 및 특징 선택:
- 단일 레이어 적용보다 여러 레이어에 걸쳐 적용할 때 더 안정적이고 우수한 성능을 보였습니다.
- 단일 특징보다 여러 특징 (Multi-feature) 을 동시에 제어하는 것이 더 효과적이었습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 언어 혼합 문제를 단순한 데이터 편향이나 학습 부족의 문제가 아니라, 모델 내부의 기계적 (Mechanistic) 특징 활성화 문제로 접근했습니다.

실용성: 추론 시 추가적인 연산이나 외부 개입 없이, 학습 단계에서 해결책을 제시하여 배포 및 운영 비용이 증가하지 않습니다.
신뢰성: 다국어 LLM 의 신뢰성을 높여, 사용자가 의도한 언어로만 응답을 받을 수 있게 함으로써 실제 서비스 적용 가능성을 크게 높였습니다.
미래 방향: SAE 를 활용한 모델 내부 상태 제어 (Steering) 의 새로운 패러다임을 제시하며, 향후 DPO 나 GRPO 등 다른 파인튜닝 기법으로도 확장 가능한 가능성을 보여줍니다.

요약하자면, SASFT 는 SAE 를 통해 LLM 의 '언어 스위치' 메커니즘을 해석하고, 이를 학습 과정에서 정교하게 제어하여 모델의 언어 순결성을 회복시키는 혁신적인 방법론입니다.

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

🌍 문제: "말이 섞이는" AI 의 버그

🔍 원인 발견: AI 의 뇌속 '언어 스위치'

💡 해결책: SASFT (AI 의 뇌를 재교육하다)

📊 결과: 놀라운 성공

🎯 결론

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 핵심 발견 (Mechanistic Analysis)

나. SASFT 알고리즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization