SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

이 논문은 희소 오토인코더를 활용하여 언어 특징의 과도한 사전 활성화 값을 분석하고 제어하는 SASFT 기법을 제안함으로써, 대규모 언어 모델의 예기치 않은 코드 스위칭을 50% 이상 감소시키면서도 다국어 능력을 유지하거나 향상시킵니다.

Boyi Deng, Yu Wan, Baosong Yang, Fei Huang, Wenjie Wang, Fuli Feng

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 문제: "말이 섞이는" AI 의 버그

여러분이 AI 에게 "한국어로 설명해 줘"라고 했다고 상상해 보세요. 그런데 AI 가 설명을 하다가 갑자기 **"The main concept is..."**라고 영어를 섞거나, **"Это очень важно..."**라고 러시아어를 튀어나오게 한다면 어떨까요?

이걸 **'언어 섞임 (Code-switching)'**이라고 합니다. 특히 AI 가 의도치 않게 다른 언어를 섞어 쓰는 것은 사용자를 혼란스럽게 하고, AI 의 신뢰도를 떨어뜨립니다. 마치 한국인 친구가 대화 중 갑자기 갑자기 불쑥 영어나 중국어를 섞어 말하며 "왜 갑자기 저런 말을 하지?"라고 생각하게 만드는 것과 비슷합니다.

기존에는 이 문제를 해결하기 위해 AI 에게 "언어 일관성 점수"를 매겨서 강제로 고치려 했지만, 효과가 미미했습니다.

🔍 원인 발견: AI 의 뇌속 '언어 스위치'

연구팀은 AI 의 내부 작동 원리를 들여다보기 위해 **'희소 오토인코더 (SAE)'**라는 특수한 현미경을 사용했습니다.

  • 비유: AI 의 뇌속에는 각 언어마다 전용으로 작동하는 **'스위치'**들이 있습니다. 예를 들어, '중국어 스위치', '러시아어 스위치', '한국어 스위치'가 있는 거죠.
  • 발견: AI 가 엉뚱하게 언어를 섞을 때, 그 '엉뚱한 언어의 스위치'가 너무 세게 켜져서 (과도하게 활성화되어) 있었습니다.
    • 마치 한국어를 말해야 하는데, 옆에 있던 '중국어 스위치'가 너무 세게 눌려서 한국어를 말하다가 갑자기 중국어 소리가 튀어나오는 상황과 같습니다.

💡 해결책: SASFT (AI 의 뇌를 재교육하다)

연구팀은 이 문제를 해결하기 위해 **SASFT(Sparse Autoencoder-guided Supervised Finetuning)**라는 새로운 방법을 제안했습니다.

  • 기존 방식 (인위적 제어): AI 가 말을 할 때마다 "아, 지금 중국어 스위치가 너무 켜졌네? 끄자!"라고 외부에서 강제로 조절하는 방식입니다. (매번 수동으로 해야 해서 번거롭고 근본 해결이 안 됨)
  • 새로운 방식 (SASFT): AI 를 훈련시키는 과정에서 **"한국어를 말할 때는 중국어 스위치를 적당히 낮게 유지해라"**라고 AI 스스로 배우게 만드는 것입니다.
    • 비유: AI 를 새로운 학교에 보내서 "너는 한국어를 말할 때, 옆에 있는 다른 언어 스위치들은 조용히 누르고 있어야 해"라고 교육을 시키는 것입니다.
    • 이렇게 훈련된 AI 는 더 이상 외부의 간섭 없이 스스로 올바른 언어만 선택할 수 있게 됩니다.

📊 결과: 놀라운 성공

이 방법을 다양한 AI 모델 (Gemma, Llama, Qwen 등) 에 적용해 보았더니:

  1. 언어 섞임 50% 이상 감소: 대부분의 경우 엉뚱한 언어 섞임이 절반 이상 줄었습니다. 어떤 경우에는 완전히 100% 사라지기도 했습니다.
  2. 기존 능력 유지: 엉뚱한 언어를 섞지 않게 했다고 해서 AI 의 지능이 떨어지거나, 다른 언어를 못 하는 것은 아니었습니다. 오히려 일부 테스트에서는 성능이 더 좋아지기도 했습니다.

🎯 결론

이 연구는 **"AI 가 왜 엉뚱한 언어를 섞는지 그 원리를 찾아내고, AI 의 뇌속 스위치 조절법을 가르쳐서 자연스럽게 고쳤다"**는 점에 의의가 있습니다.

앞으로 우리는 AI 와 대화할 때, 갑자기 외국어가 튀어나와서 당황하지 않아도 될 것입니다. AI 가 우리가 원하는 언어로만 깔끔하게 대화할 수 있게 된 것입니다!