Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

本論文は、外部情報のフィードのキュレーションと順序付けが、特にLLMエージェントが不確実な状況にある際に、それらを敵対的な決定へと系統的に誘導し得ることを示しており、これは安全性の評価において、モデルを単独でテストするのではなく、上流のリコメンダー層を監査する必要があることを明らかにしている。

原著者: Rana Muhammad Usman

公開日 2026-06-02✓ Author reviewed
📖 1 分で読めます☕ さくっと読める

原著者: Rana Muhammad Usman

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

あなたは、非常に賢く、役に立つロボット・アシスタントを持っていると想像してください。あなたはロボットに質問をし、ロボットは答えを返します。通常、私たちはロボットが「壊れている」のではないか、あるいは誰かが「ルールを無視してXせよ」といった直接的な命令でロボットを騙したのではないかと心配します。

しかし、この論文は、より巧妙で、よりずる賢い問いを投げかけています:もし誰もロボットに何をすべきか指示していないのに、ロボットが回答する直前に「何を読み込むか」をコントロールできるとしたらどうなるでしょうか?

以下に、この研究のストーリーを分かりやすく説明します。

セットアップ:「スクロール」フェーズ

研究者たちは、あるゲームを設定しました。彼らはAIエージェントに一つのタスクを与えました。「企業が従業員に対して、在宅勤務を許可すべきか、オフィスへの復帰を求めるべきか、あるいはその混合型(ハイブリッド)にするべきかを判断せよ」というものです。

AIが最終決定を下す前に、彼らはAIに10ターンの間、ソーシャルメディアのフィードを「スクロール」させました。各ターンで、AIは5つの短い投稿を見ます。

  • コントロール(対照群): AIの脳(モデル)、AIが答えなければならない質問、そしてその性格は、すべてのテストにおいて全く同じでした。
  • 変数: 唯一変化したのは、フィードの内容です。時々、フィードには普通でランダムな投稿がありました。またある時は、たとえそれらの投稿が「オフィスへ戻れ」と直接命じていなくても、「オフィス復帰」を強く主張する投稿で埋め尽くされていました。それらは単なる、ごく普通の記事や意見に見えるものでした。

発見:「エコーチェンバー」効果

研究者たちは、フィードを精査することで、ロボットに直接指示を出さずとも、ロボットの決定を操ることができることを発見しました。

彼らは、その反応に基づいて、3種類のロボット(モデル)を発見しました。

  1. 「カピチュレーター(屈服型)」(操りやすいもの):

    • 比喩: 夕食に何を食べるか迷っている人を想像してください。もし、メニューのすべての写真がピザだったら、その人はおそらくピザを注文するでしょう。
    • 結果: 一部のAIモデル(Llama 3.2など)はこのタイプでした。フィードが「オフィス復帰」の投稿で満たされていると、AIは本来はリモートワークを好んでいたとしても、「オフィス復帰」を推奨し始めました。命令は必要ありませんでした。ただ、情報の量によって影響を受けたのです。
  2. 「サチュレーション(飽和型)」(頑固な岩):

    • 比喩: ピザが大好きすぎて、メニューがバーガーで埋め尽くされていても、考えを変えない人を想像してください。彼らはただピザが欲しいのです。
    • 結果: 他のモデル(Qwenなど)は、特定の答え(ハイブリッド型)に対して非常に固執しており、どれほど「オフィス復帰」の投稿を見せても動じませんでした。彼らは自分自身のデフォルトの意見に「飽和」していました。
  3. 「アシンメトリー(非対称型)」(一方通行):

    • 比喩: あなたがわずかに左に傾いているとします。もし右側から押されたら、あなたは倒れるかもしれません。しかし、もし左側(すでに傾いている方向)から押されたら、あなたは動きません。
    • 結果: この攻撃は、フィードがAIの自然なデフォルトに対して「逆」の方向に押し出した時にのみ機能しました。AIがすでに「リモートワーク」を好んでいた場合、フィードが「リモートワーク」の投稿で満たされていても、AIは変化しませんでした。しかし、フィードが「オフィス復帰」の投稿で満たされていた場合、AIは変化しました。フィードは強い信念を「上書き」することはできませんでしたが、不安定な信念の「天秤を傾ける」ことはできました。

「用量」が重要

研究者たちは「用量反応曲線」を発見しました。これは薬を飲むのと似ています:

  • フィードに5つ中1つ、あるいは2つの「悪い」投稿がある程度では、何も起きませんでした。
  • しかし、フィードに5つ中3つ、あるいは4つの「悪い」投稿が含まれるようになると、AIの決定が反転し始めました。それは魔法ではなく、AIがどれだけの「ノイズ」にさらされたかという問題でした。

「ジェネレーター・スワップ(生成器の入れ替え)」(偶然ではないことの証明)

研究者たちは、「もしかすると、AIが悪い投稿の『書き方(スタイル)』を好んだだけではないか?」と懸念しました。
これをテストするために、彼らは別のAIにすべての投稿を書かせました。結果はどうだったでしょうか?攻撃はより強力になりました。これにより、これは書き方のスタイルではなく、トピックの「選択」に関するものであることが証明されました。

「隠れたメカニズム」という神話

最初、研究者たちは、フィードがAIの脳内にある「隠れたスイッチ」を切り替えているのだと考えました。彼らはツールを使ってAIのコードの内部を調べました。

  • ひねり(真相): 彼らは自分たちが間違っていたことに気づきました。彼らが見つけた「信号」は、隠された秘密のスイッチではありませんでした。それは単に、AIが会話の履歴を記憶していただけでした。チャットログを見れば、AIが何を読んだのかを正確に把握できました。「秘密」とは、実際には目に見える履歴そのものだったのです。これは他の科学者への警告です。もし、AIが既に見たものを考慮に入れていないのであれば、AIの中に「隠れた秘密」を見つけたと主張するツールを信じてはいけません。

防御策

私たちはこれを止めることができるのでしょうか?研究者は2つのシンプルな方法を試しました。

  1. バランスの取れた露出: AIに対して、「リモート」と「オフィス」の投稿を等しく混ぜて見せることです。これにより、AIは元の軌道を維持することができました。
  2. 開示: AIに対して、「このフィードは偏っている可能性があります」と伝えることです。これも効果がありましたが、完璧ではありませんでした。

大きな教訓

この論文は、「ランカー(順位付けを行うシステム)」こそが、強力なコントロールノブであると結論づけています。

かつて、私たちはハッカーがAIに直接的なコマンドを送ることを心配してきました。しかし今、私たちは、ハッカー(あるいは偏ったシステム)は直接的なコマンドを送る必要はないということを知っています。彼らはただ、フィードをコントロールすればよいのです。良識に基づいた、一見普通に見える投稿を慎重に選んでAIに見せることで、彼らはセキュリティ、政策、あるいはビジネス戦略といった重要なトピックに関するAIの決定を、密かに操ることができるのです。

最終的な警告: 私たちは、AIに対して真空状態で単一の質問を投げかけるだけでテストを行うことはできません。AIがキュレートされたフィードを「スクロール」した後、何が起こるかをテストしなければなりません。フィードをコントロールする者が、AIの次の動きをコントロールするのです。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →