SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

本論文は、スパースオートエンコーダを用いたメカニズム分析に基づき、LLM の予期せぬコードスイッチングを抑制しつつ多言語能力を維持する新しい微調整手法「SASFT」を提案し、その有効性を検証したものです。

Boyi Deng, Yu Wan, Baosong Yang, Fei Huang, Wenjie Wang, Fuli Feng

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「AI が話している言語を突然変えてしまう(コードスイッチング)」という困った現象を、新しい方法で解決しようとした研究です。

想像してみてください。あなたが英語で「今日の天気はどう?」と AI に聞いています。AI は英語で答えるはずなのに、突然「今日は晴れですが、明日は雨です」と、日本語が混ざり出したり、ロシア語や韓国語が飛び出したりしたらどうでしょう?
ユーザーは混乱し、AI の信頼性も下がってしまいます。これを**「予期せぬ言語の混入」**と呼びます。

この論文では、その原因を突き止め、**「SASFT」**という新しいトレーニング方法で AI を直す方法を提案しています。


1. 原因の発見:AI の頭の中の「言語スイッチ」

まず、研究者たちは**「スパース・オートエンコーダー(SAE)」**という、AI の頭の中を分解して見るための「X 線カメラ」のような道具を使いました。

  • 発見した事実:
    AI が英語を話している最中に、突然日本語に切り替えてしまう直前、AI の頭の中の**「日本語のスイッチ(特徴量)」が、必要以上に強く点灯(活性化)している**ことがわかりました。

    🍳 料理の例え:
    料理人が「パスタ」を作っているのに、鍋の中に「寿司」の材料(ネタ)が勝手に大量に飛び出し、味付けが乱れてしまうような状態です。
    通常、パスタを作る時は寿司の材料は出さないはずですが、AI の頭の中では「寿司スイッチ」が勝手に大音量で点灯してしまっているのです。

2. 解決策:SASFT(AI に「自制心」を教える)

これまでの方法は、AI が間違えた時に「言語を統一しろ」と罰を与える(報酬を与える)という、**「後付けの指導」**でした。しかし、これでは根本的な原因(スイッチの点灯)を治せず、効果も限定的でした。

そこで提案されたのが**「SASFT(スパース・オートエンコーダー指導付き教師あり微調整)」**です。

  • SASFT の仕組み:
    AI をトレーニングする段階で、**「英語を話している時は、日本語のスイッチを『静かに』しておくこと」**を、AI の頭の中(内部の信号)に直接教えてあげます。

    🎮 ゲームの例え:
    従来の方法は、「ゲーム中に日本語のキャラクターが出たら、ゲームオーバーにする(罰)」というやり方でした。
    SASFT は、**「ゲームを始める前に、日本語のキャラクターが勝手に飛び出さないように、そのキャラクターの『足』を優しく縛っておく(またはスイッチの感度を下げる)」というトレーニングを行います。
    これにより、AI は「日本語を出さないようにする」という意識を、
    「自然な癖」**として身につけます。

3. 実験の結果:劇的な改善

5 つの異なる AI モデル(Gemma, Llama, Qwen など)で実験を行いました。

  • 結果:
    • 予期せぬ言語の混入が、50% 以上減少しました。
    • 韓国語などの場合は、100% 完全に消滅させたケースもありました。
    • 重要なのは、「言語を混ぜないようにする」ことで、AI の他の能力(数学やプログラミングなど)が落ちたどころか、むしろ向上したことです。

🌱 園芸の例え:
庭に雑草(不要な言語)が生えてきたとき、従来の方法は「雑草を抜くたびに除草剤を撒く(推論時の修正)」という面倒な作業でした。
SASFT は、**「雑草が生えないように土壌(AI のトレーニング)自体を改良する」**方法です。その結果、雑草は消え、花(本来の言語能力)はより美しく咲くようになりました。

まとめ

この論文が伝えているのは、**「AI の言語の混入は、頭の中の特定の『スイッチ』が暴走しているから」であり、「トレーニングの段階でそのスイッチの感度を適切に調整すれば、AI は自然に正しい言語だけを使えるようになる」**ということです。

これにより、より信頼性が高く、使いやすい多言語 AI が作れるようになるでしょう。


参考:

  • 論文タイトル: SASFT: Sparse Autoencoder-Guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs
  • 発表: ICLR 2026 (会議用論文)
  • コード: GitHub で公開されています。