Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

本論文は、同じデータで異なるランダム性を用いて訓練されたトランスフォーマーモデルの解釈が、文脈、クラス、タスクのいずれにも統計的に有意な影響を受けることを示し、その影響度が文脈<クラス<タスクの順で大きくなることを明らかにしています。

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(特に「トランスフォーマー」と呼ばれる高度な言語モデル)が「なぜその答えを出したのか」を説明する際、「AI を訓練する時の偶然の要素(ランダム性)」がどれくらい説明に影響を与えるかを調査したものです。

難しい専門用語を使わず、日常の例え話を使って解説しますね。

🎭 物語の舞台:「同じ料理、違うシェフ」

まず、AI を「料理を作るシェフ」に例えてみましょう。
この研究では、**「全く同じレシピ(データ)」と「全く同じ材料(テキスト)」を使って、「200 人のシェフ(AI モデル)」に料理を作らせました。ただし、唯一の違いは、「シェフの気分や手元の動きの偶然性(ランダム性)」**です。

通常、私たちは「同じレシピなら、同じ味(答え)が出るはず」と考えがちですが、実は**「同じ答えを出しても、その答えに至るまでの『味付けの理由(説明)』がシェフによって大きく異なる」**ことがわかってきました。

この研究は、**「どんな状況(文脈、クラス、タスク)だと、その『理由の説明』が不安定になりやすいのか?」**を調べたものです。


🔍 3 つの実験:何が説明を揺さぶるのか?

研究者たちは、3 つの異なるシチュエーションで実験を行いました。

1. 言葉の並べ替え(文脈の影響)

  • 実験内容: 「ジョンが本を読んだ」という文章と、「本、ジョン、読んだ」という言葉の順序をバラバラにした文章で AI を訓練しました。
  • 結果: 言葉の順序が整っているときは、AI の説明は非常に安定していました(「ジョン」が重要だと一貫して言います)。しかし、言葉の順序をバラバラにすると、説明が少し不安定になりました。
  • たとえ話: 整然とした料理は「なぜこの具材を使ったか」が明確ですが、材料を混ぜ合わせた状態だと、シェフによって「あえてこの順番で混ぜた」という理由づけがバラバラになってしまうようなものです。
  • 結論: 文脈(言葉の並び)の影響は**「小さめ」**ですが、無視できないレベルです。

2. 「目印」があるか、ないか(クラスの影響)

  • 実験内容:
    • パターン A: 「ジョン」という名前が入っているか入っていないかで判断するタスク(明確な目印がある)。
    • パターン B: 「ジョン」が入っているか、**「全く名前が入っていない(あるいは無関係な単語)」**かで判断するタスク(明確な目印がない)。
  • 結果: 「ジョン」という明確な目印がある場合は、説明が安定していました。しかし、「目印がない場合(名前がないこと自体が正解の理由)は、説明が大きく揺らぎました
  • たとえ話: 「赤いリンゴ」を探すのは簡単で、誰に聞いても「赤いから」と言います。しかし、「赤くないリンゴ」を探すのは難しく、人によって「形が違うから」「匂いが違うから」と、理由がバラバラになりがちです。
  • 結論: 判断基準が曖昧な場合、説明の不安定さは**「中くらい」**になります。

3. 難易度の違うタスク(タスクの影響)

  • 実験内容:
    • タスク A: 物理学の論文か数学の論文か(専門用語が明確に違う)。
    • タスク B: ニュース記事が「事実」か「意見」か(言葉の使い方が微妙に違う)。
  • 結果: 専門用語で明確に区別できるタスク(A)では説明が安定していました。しかし、「事実か意見か」のように、文脈やニュアンスを深く理解する必要があるタスク(B)では、説明が非常に不安定になりました。
  • たとえ話: 「リンゴとバナナ」を見分けるのは簡単で、誰が説明しても「色が違う」と言えます。しかし、「美味しい料理とまずい料理」を見分けるのは難しく、シェフによって「塩味が足りないから」「香りが悪いから」と、理由が人によって大きく異なります。
  • 結論: 判断が難しいタスクほど、説明の不安定さは**「最大」**になります。

📊 全体のまとめ:何が最も重要?

この研究は、AI の説明が「偶然(トレーニング時のランダム性)」にどれくらい左右されるかを、以下の順で影響が大きいと結論づけました。

  1. 🥇 タスクの難易度(最大の影響): 判断が難しいタスクほど、説明がバラバラになりやすい。
  2. 🥈 判断基準の明確さ(中くらい): 明確な「目印」がないと、説明が揺らぎやすい。
  3. 🥉 文脈の並び(最小の影響): 言葉の順序が乱れると少し影響するが、他の要素に比べると小さい。

💡 私たちにとっての意味は?

この研究からわかるのは、**「AI が『なぜそう思ったか』を説明する際、その説明は絶対的な真実ではない」**ということです。

特に、**「難しい判断」「明確なルールがない判断」をする AI の場合、同じ AI でも訓練のタイミングや偶然によって、「全く違う理由」**を言い出す可能性があります。

**「AI の説明を信じる時は、その説明が『たまたまその時だけ』の理由なのか、それとも『普遍的な理由』なのかを、複数の視点(複数のモデル)で確認する必要がある」**という重要な教訓を私たちに教えてくれています。

AI の「説明」は、単一の答えではなく、**「確率の分布」**として捉えるべきだという、新しい視点の提案なのです。