Each language version is independently generated for its own context, not a direct translation.

この論文は、「AI が話している言語を突然変えてしまう（コードスイッチング）」という困った現象を、新しい方法で解決しようとした研究です。

想像してみてください。あなたが英語で「今日の天気はどう？」と AI に聞いています。AI は英語で答えるはずなのに、突然「今日は晴れですが、明日は雨です」と、日本語が混ざり出したり、ロシア語や韓国語が飛び出したりしたらどうでしょう？
ユーザーは混乱し、AI の信頼性も下がってしまいます。これを**「予期せぬ言語の混入」**と呼びます。

この論文では、その原因を突き止め、**「SASFT」**という新しいトレーニング方法で AI を直す方法を提案しています。

1. 原因の発見：AI の頭の中の「言語スイッチ」

まず、研究者たちは**「スパース・オートエンコーダー（SAE）」**という、AI の頭の中を分解して見るための「X 線カメラ」のような道具を使いました。

発見した事実:
AI が英語を話している最中に、突然日本語に切り替えてしまう直前、AI の頭の中の**「日本語のスイッチ（特徴量）」が、必要以上に強く点灯（活性化）している**ことがわかりました。

🍳 料理の例え:
料理人が「パスタ」を作っているのに、鍋の中に「寿司」の材料（ネタ）が勝手に大量に飛び出し、味付けが乱れてしまうような状態です。
通常、パスタを作る時は寿司の材料は出さないはずですが、AI の頭の中では「寿司スイッチ」が勝手に大音量で点灯してしまっているのです。

2. 解決策：SASFT（AI に「自制心」を教える）

これまでの方法は、AI が間違えた時に「言語を統一しろ」と罰を与える（報酬を与える）という、**「後付けの指導」**でした。しかし、これでは根本的な原因（スイッチの点灯）を治せず、効果も限定的でした。

そこで提案されたのが**「SASFT（スパース・オートエンコーダー指導付き教師あり微調整）」**です。

SASFT の仕組み:
AI をトレーニングする段階で、**「英語を話している時は、日本語のスイッチを『静かに』しておくこと」**を、AI の頭の中（内部の信号）に直接教えてあげます。

🎮 ゲームの例え:
従来の方法は、「ゲーム中に日本語のキャラクターが出たら、ゲームオーバーにする（罰）」というやり方でした。
SASFT は、**「ゲームを始める前に、日本語のキャラクターが勝手に飛び出さないように、そのキャラクターの『足』を優しく縛っておく（またはスイッチの感度を下げる）」というトレーニングを行います。
これにより、AI は「日本語を出さないようにする」という意識を、「自然な癖」**として身につけます。

3. 実験の結果：劇的な改善

5 つの異なる AI モデル（Gemma, Llama, Qwen など）で実験を行いました。

結果:
- 予期せぬ言語の混入が、50% 以上減少しました。
- 韓国語などの場合は、100% 完全に消滅させたケースもありました。
- 重要なのは、「言語を混ぜないようにする」ことで、AI の他の能力（数学やプログラミングなど）が落ちたどころか、むしろ向上したことです。

🌱 園芸の例え:
庭に雑草（不要な言語）が生えてきたとき、従来の方法は「雑草を抜くたびに除草剤を撒く（推論時の修正）」という面倒な作業でした。
SASFT は、**「雑草が生えないように土壌（AI のトレーニング）自体を改良する」**方法です。その結果、雑草は消え、花（本来の言語能力）はより美しく咲くようになりました。

まとめ

この論文が伝えているのは、**「AI の言語の混入は、頭の中の特定の『スイッチ』が暴走しているから」であり、「トレーニングの段階でそのスイッチの感度を適切に調整すれば、AI は自然に正しい言語だけを使えるようになる」**ということです。

これにより、より信頼性が高く、使いやすい多言語 AI が作れるようになるでしょう。

参考:

論文タイトル: SASFT: Sparse Autoencoder-Guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs
発表: ICLR 2026 (会議用論文)
コード: GitHub で公開されています。

Each language version is independently generated for its own context, not a direct translation.

SASFT: 疎性オートエンコーダを用いた教師あり微調整による LLM における予期せぬコードスイッチングの軽減

本論文は、多言語大規模言語モデル（LLM）において発生する「予期せぬコードスイッチング（意図しない言語混入）」の問題を、疎性オートエンコーダ（SAE）のメカニズム的解釈に基づいて解決する新しい手法SASFT（Sparse Autoencoder-guided Supervised Finetuning）を提案するものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 問題の背景と定義

近年の LLM（Qwen, Llama, Gemma など）は多言語対応能力が向上していますが、ユーザーが特定の言語（例：英語）で質問をした際、回答中に意図せず別の言語（例：中国語、ロシア語、韓国語）に切り替わる**「予期せぬコードスイッチング」**が発生する問題が指摘されています。

課題: この現象は回答の可読性を損ない、モデルの実用性を低下させます。
既存研究の限界: 従来のアプローチ（例：GRPO を用いた言語一貫性報酬の付与）は、現象のメカニズム的な理解が浅く、効果も限定的でした。

2. 手法：SASFT (Sparse Autoencoder-guided Supervised Finetuning)

本研究は、SAE を用いたメカニズム解析から得られた知見に基づき、モデルの内部表現そのものを制御する新しい微調整手法を提案しました。

2.1 予備調査と発見

まず、SAE を用いて LLM の内部状態を解析したところ、以下の重要な発見がありました。

言語固有の特徴: LLM には特定の言語に強く反応する「言語固有の特徴（feature directions）」が存在する。
予期せぬスイッチングの兆候: 意図しない言語への切り替えが発生する直前、その対象言語の特徴の「前活性化値（pre-activation values）」が異常に高くなる傾向がある。
介入効果: 推論時にこれらの特徴の活性化値を人工的に抑制（アブレーション）すると、コードスイッチングが軽減される。

2.2 SASFT のアルゴリズム

推論時の外部介入ではなく、学習段階でモデルに「不要な言語の特徴の活性化値を適切に抑える」ことを教える手法です。

言語固有特徴の特定: 特定の言語（例：中国語）に対してのみ高活性化を示す SAE の特徴ベクトルを特定します。
補助損失関数（Auxiliary Loss）の導入: 教師あり微調整（SFT）の過程で、ターゲット言語（回答すべき言語）以外の言語特徴が活性化しすぎないようにする損失関数 $L_{reduce}$ $L_{r e d u ce}$ を追加します。
- 具体的には、不要な言語の特徴 $s$ の前活性化値 $f_s(x)$ が、事前推定された平均値 $\alpha_j$ を超えた場合にペナルティを与える（ReLU 関数を使用）。
最終的な損失関数:
$\mathcal{L}_{training} = \mathcal{L}_{cross-entropy} + \lambda \mathcal{L}_{reduce}$
ここで、 $\lambda$ はハイパーパラメータです。

このアプローチにより、モデルは学習中に「特定の言語を生成する際、他の言語の特徴が過剰に活性化しないように制御する」ことを習得します。

3. 主要な貢献

メカニズム的解析の初提供: SAE を用いて、予期せぬコードスイッチングが「不要な言語特徴の異常な高活性化」と密接に関連することを初めて明らかにしました。
SASFT の提案: 推論時の修正ではなく、トレーニング中にモデルの挙動を根本的に修正する新しい手法を提案しました。
広範な実験による検証: 5 つの異なるモデル（Gemma-2, Llama-3.1, Qwen-3 シリーズ）および 6 つのベンチマークを用いた実験で、その有効性を証明しました。

4. 実験結果

4.1 コードスイッチングの軽減効果

5 つのモデル、3 つのターゲット言語（中国語、ロシア語、韓国語）における評価結果は以下の通りです。

大幅な改善: 標準的な SFT と比較して、予期せぬコードスイッチングを 50% 以上削減しました。
完全な排除: いくつかのケース（特に韓国語へのスイッチング）では、**100% 削減（完全排除）**を達成しました。
既存手法との比較: GRPO（言語一貫性報酬を用いた強化学習）やペナルティ項を追加した SFT などの既存手法よりも、一貫して高い性能と安定性を示しました。

4.2 多言語能力の維持・向上

コードスイッチングを抑制しても、モデルの本来の多言語能力が損なわれることはありませんでした。

ベンチマーク性能: MMLU, HumanEval, Flores-200 などの 6 つの多言語ベンチマークにおいて、SASFT 適用後のモデルは性能を維持、あるいは向上させました。
例: Llama-3.1-8B では、MMLU (+3.13), HumanEval (+4.14) などで SFT ベースラインより高いスコアを記録しました。

4.3 層と特徴の選択に関する分析

マルチレイヤー効果: 単一の層ではなく、複数の層（特に最後の数層）に SASFT を適用する方が、より安定して効果的であることが示されました。
マルチ特徴効果: 単一の言語特徴だけでなく、上位の複数の言語特徴に対して同時に抑制をかけるアプローチが最も効果的でした。

5. 意義と結論

本研究は、LLM の内部表現を「疎性オートエンコーダ」によって可視化・制御するアプローチの有効性を示しました。

実用性: 推論時のオーバーヘッドを増やすことなく、学習段階でモデルの挙動を修正するため、実システムへの導入が容易です。
信頼性の向上: 多言語 LLM の信頼性を高め、ユーザー体験を向上させるための実用的な解決策を提供しました。
将来展望: この手法は、DPO や GRPO などの他の微調整手法への拡張や、より微細なトークンレベルの閾値設定など、今後の研究の基盤となる可能性があります。

総括すると、SASFT は、LLM の「言語混入」という深刻な問題を、その内部メカニズム（特徴の活性化値）にアプローチすることで、効果的かつ効率的に解決する画期的な手法です。

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs