Each language version is independently generated for its own context, not a direct translation.
この論文は、「AI が話している言語を突然変えてしまう(コードスイッチング)」という困った現象を、新しい方法で解決しようとした研究です。
想像してみてください。あなたが英語で「今日の天気はどう?」と AI に聞いています。AI は英語で答えるはずなのに、突然「今日は晴れですが、明日は雨です」と、日本語が混ざり出したり、ロシア語や韓国語が飛び出したりしたらどうでしょう?
ユーザーは混乱し、AI の信頼性も下がってしまいます。これを**「予期せぬ言語の混入」**と呼びます。
この論文では、その原因を突き止め、**「SASFT」**という新しいトレーニング方法で AI を直す方法を提案しています。
1. 原因の発見:AI の頭の中の「言語スイッチ」
まず、研究者たちは**「スパース・オートエンコーダー(SAE)」**という、AI の頭の中を分解して見るための「X 線カメラ」のような道具を使いました。
発見した事実:
AI が英語を話している最中に、突然日本語に切り替えてしまう直前、AI の頭の中の**「日本語のスイッチ(特徴量)」が、必要以上に強く点灯(活性化)している**ことがわかりました。🍳 料理の例え:
料理人が「パスタ」を作っているのに、鍋の中に「寿司」の材料(ネタ)が勝手に大量に飛び出し、味付けが乱れてしまうような状態です。
通常、パスタを作る時は寿司の材料は出さないはずですが、AI の頭の中では「寿司スイッチ」が勝手に大音量で点灯してしまっているのです。
2. 解決策:SASFT(AI に「自制心」を教える)
これまでの方法は、AI が間違えた時に「言語を統一しろ」と罰を与える(報酬を与える)という、**「後付けの指導」**でした。しかし、これでは根本的な原因(スイッチの点灯)を治せず、効果も限定的でした。
そこで提案されたのが**「SASFT(スパース・オートエンコーダー指導付き教師あり微調整)」**です。
SASFT の仕組み:
AI をトレーニングする段階で、**「英語を話している時は、日本語のスイッチを『静かに』しておくこと」**を、AI の頭の中(内部の信号)に直接教えてあげます。🎮 ゲームの例え:
従来の方法は、「ゲーム中に日本語のキャラクターが出たら、ゲームオーバーにする(罰)」というやり方でした。
SASFT は、**「ゲームを始める前に、日本語のキャラクターが勝手に飛び出さないように、そのキャラクターの『足』を優しく縛っておく(またはスイッチの感度を下げる)」というトレーニングを行います。
これにより、AI は「日本語を出さないようにする」という意識を、「自然な癖」**として身につけます。
3. 実験の結果:劇的な改善
5 つの異なる AI モデル(Gemma, Llama, Qwen など)で実験を行いました。
- 結果:
- 予期せぬ言語の混入が、50% 以上減少しました。
- 韓国語などの場合は、100% 完全に消滅させたケースもありました。
- 重要なのは、「言語を混ぜないようにする」ことで、AI の他の能力(数学やプログラミングなど)が落ちたどころか、むしろ向上したことです。
🌱 園芸の例え:
庭に雑草(不要な言語)が生えてきたとき、従来の方法は「雑草を抜くたびに除草剤を撒く(推論時の修正)」という面倒な作業でした。
SASFT は、**「雑草が生えないように土壌(AI のトレーニング)自体を改良する」**方法です。その結果、雑草は消え、花(本来の言語能力)はより美しく咲くようになりました。
まとめ
この論文が伝えているのは、**「AI の言語の混入は、頭の中の特定の『スイッチ』が暴走しているから」であり、「トレーニングの段階でそのスイッチの感度を適切に調整すれば、AI は自然に正しい言語だけを使えるようになる」**ということです。
これにより、より信頼性が高く、使いやすい多言語 AI が作れるようになるでしょう。
参考:
- 論文タイトル: SASFT: Sparse Autoencoder-Guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs
- 発表: ICLR 2026 (会議用論文)
- コード: GitHub で公開されています。