Optimizing Language Models for Crosslingual Knowledge Consistency

本論文は、強化学習に基づく新しい手法「Direct Consistency Optimization(DCO)」を提案し、報酬モデルを必要とせずに大規模言語モデルの多言語間における知識の一貫性を大幅に向上させることを示しています。

Tianyu Liu, Jirui Qi, Mrinmaya Sachan, Ryan Cotterell, Raquel Fernández, Arianna Bisazza

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

多言語 AI の「二重人格」を治す方法:DCO の仕組み

この論文は、現代の巨大な言語モデル(AI)が抱えるある「不思議な病気」を治す新しい治療法を紹介しています。

🌍 問題:AI の「二重人格」現象

想像してください。ある AI がいます。
この AI に**「オランダの首都はどこ?」と英語で聞くと、「アムステルダム」と正しく答えます。
しかし、同じ質問を
日本語で聞くと、なぜか「ロッテルダム」**(間違い)と答えてしまいます。

これが、現在の多言語 AI が抱える大きな問題です。
**「同じ知識を持っているはずなのに、言語が変わると答えがバラバラになる」**という「二重人格」のような状態です。ユーザーが混乱し、AI を信頼できなくなる原因になっています。

💡 解決策:DCO(直接的一貫性最適化)

この論文の著者たちは、この問題を解決するために**「DCO(Direct Consistency Optimization)」**という新しい治療法を開発しました。

🎭 従来の方法との違い(魔法の先生 vs. 鏡合わせ)

  • 従来の方法(DPO など):
    人間が「正解はこれ!」と教える必要があります。まるで、**「魔法の先生」**が正解を教えるようなイメージです。しかし、すべての言語に正解を教えるのは大変で、コストもかかります。
  • 新しい方法(DCO):
    正解を教える必要がありません。代わりに、「鏡合わせ」の原理を使います。
    「英語で答えたときと、日本語で答えたとき、
    『どちらの答えをより選びたがるか』という順序が同じになるように
    調整しよう」という考え方です。

🛠️ DCO がどうやって働くのか?(3 つのステップ)

DCO は、AI 自身を「先生」と「生徒」の両方にさせ、互いに教え合うことで学習を進めます。

  1. 翻訳して比較する
    AI に「英語でオランダの首都を答えなさい」と聞きます。そして、その答えを日本語に翻訳します。
    次に、AI に「日本語でオランダの首都を答えなさい」と聞きます。
  2. 「好き嫌い」を揃える
    AI は、英語の質問に対して「アムステルダム」を 1 位、他の都市を 2 位以下に選びました。
    DCO は、「じゃあ、日本語の質問に対しても、『アムステルダム』を 1 位、他の都市を 2 位以下にするように調整しなさい」と指示します。
    正解が何かは関係なく、「言語が変わっても、答えの『順位』が同じになること」を目標にします。
  3. バランスを取る(ハイパーパラメータ)
    ここがポイントです。英語と日本語、どちらの言語を優先するかを調整する「つまみ(γ)」があります。
    • 英語を安定させたい場合: 英語の答えをあまり変えず、日本語側を英語に合わせるように調整します。
    • 両方バランスよく: 両方の言語を少しずつ調整して、お互いが歩み寄るようにします。

📊 結果:驚くべき効果

この方法を実験したところ、以下のような素晴らしい結果が出ました。

  • 一貫性の劇的な向上:
    英語と日本語、あるいは英語とスワヒリ語(資源の少ない言語)など、どんな言語のペアでも、答えのバラつきが大幅に減りました。
  • 正解率もアップ:
    一貫性を高めるだけでなく、「正解する確率」も上がりました
    これは、AI が「自信のなさ(迷走)」を減らし、高確率で正しい答えにたどり着けるようになったからです。
  • 未知の分野にも通用する:
    「経済」のデータで学習させた AI が、テストでは「医学」や「数学」の問題を解いても、言語ごとのバラつきが減りました。つまり、「言語の壁」を越えた知識の整理ができたのです。

🌟 まとめ:なぜこれが重要なのか?

DCO は、「正解を教えるという重労働」をせずに、AI 自身に「言語を超えて一貫した思考」を身につけさせる画期的な方法です。

まるで、**「二重人格の AI に、言語が変わっても『自分自身』であることを思い出させる鏡」**を与えたようなものです。これにより、世界中の人々が、どの言語で質問しても、同じ信頼できる答えを得られる未来が近づいています。

この技術は、AI が単に「多言語対応」するだけでなく、**「多言語で『同じ』賢さを持つ」**ための重要な一歩となるでしょう。