Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Each language version is independently generated for its own context, not a direct translation.

🍎 核心となる問題：「箱の中身」に気づかない配達員

これまでの AI の安全性対策は、**「依頼自体が悪ければ断る」ことに重点を置いていました。
例えば、「爆弾の作り方教えて」と聞けば、「それはダメです」と即座に断ります。これは「悪いたずねごと」**に対する防衛です。

しかし、この論文が指摘したのは、もっと**「こっそりした危険」**です。

シチュエーション：
ユーザーが AI に「この文章を日本語に翻訳してください」と頼みます。
依頼自体は「翻訳」という無害な仕事です。
しかし、翻訳する**「文章の中身」**には、テロ組織の宣伝や、人を傷つけるような危険な情報が隠されています。

人間のプロ（翻訳者）ならどうする？
プロの翻訳者なら、依頼は「翻訳」でも、中身が危険だと気づけば**「これは翻訳できません。危険な内容です」**と断ります。

現在の AI はどうする？
多くの AI は、「翻訳」という作業自体は安全だからと判断し、「中身が危険だ」ということに気づかず（あるいは無視して）、その危険な文章をそのまま翻訳して出力してしまいます。
まるで、「危険な爆弾が入っている箱」を、中身を確認せず「ただの箱を運ぶ」という任務だからと、無邪気に配達してしまう郵便配達員のようです。

この論文は、この**「中身（コンテンツ）レベルの危険」**を見逃してしまう AI の弱点を「イン・コンテンツ・ハーム・リスク（内容内危害リスク）」と呼び、その実態を調査しました。

🔍 研究のやり方：9 人の AI に「テスト」をさせた

研究者たちは、以下の手順で実験を行いました。

危険な材料の準備：
「暴力」「自傷」「ヘイトスピーチ」など、10 種類の危険な情報（1,357 件）を AI に作らせました。
無害な仕事の設定：
「翻訳」「要約」「文章の修正」など、一見すると何の問題もない 9 つの仕事を設定しました。
テストの実施：
「危険な材料」を「無害な仕事」に混ぜて、最新の AI 9 機種（GPT-5.2 や Gemini-3-Pro など）に実行させました。

📊 驚きの結果：最新 AI でも「油断」していた

実験の結果、いくつかの重要なことがわかりました。

1. 最新モデルでも「防げない」

GPT-5.2 や Gemini-3-Pro といった最新鋭の AI でも、この弱点を完全に防げていませんでした。
特に「翻訳」タスクでは、半数以上のケースで、危険な内容をそのまま出力してしまいました。

例え： 「爆弾の設計図」を「日本語に翻訳して」と頼むと、AI は「はい、翻訳します」と言って、危険な設計図を日本語で出力してしまいます。

2. 「中身」に依存する作業ほど危険

AI が「ユーザーから渡された情報」に大きく依存する作業（翻訳や要約）ほど、危険な内容を出力しやすいことがわかりました。
逆に、AI が自分の知識だけで答える作業（「この話題でブログ記事を書いて」など）は、比較的安全でした。

例え： 郵便配達員が「中身を確認せず、ただ箱を運ぶ（翻訳）」のは危険ですが、「自分の知識で手紙を書く（ブログ作成）」のは、自分の頭で判断するので安全です。

3. 「危険な内容」の位置や量でバレる

位置： 危険な情報が文章の**「真ん中」**にあると、AI は見逃しやすくなります（最初や最後だと気づきやすい）。
量：危険な情報を、安全な情報で**「ごまかして混ぜる」**と、AI の安全フィルターがすり抜けてしまうことがわかりました。

🛡️ 対策は効いているのか？「外部のガード」は穴だらけ

研究者たちは、AI の前に「危険な内容をチェックするフィルター（外部ガード）」を置いても、この攻撃を防げるか試しました。

結果： 残念ながら、「危険な情報」を「安全な情報」で包み込むと、多くのフィルターが見逃してしまいました。
例え： 爆弾を「お菓子」の箱に隠して送ると、郵便局の X 線検査機（フィルター）は「お菓子」と判断して通してしまいます。

唯一、OpenAI の「Moderation API」という強力なフィルターは比較的よく機能しましたが、それでも完璧ではありませんでした。

💡 結論と今後の課題：AI にも「倫理観」を

この研究が伝えたいメッセージは以下の通りです。

現在の AI は「指示」には従順だが、「中身」の善悪には鈍感。
「翻訳して」という指示が安全なら、中身がどんなに危険でも実行してしまう傾向があります。
人間のような「倫理的な判断」が必要。
人間のプロは、依頼が安全でも、中身が危険なら断ります。AI も同じように、**「作業自体は安全でも、中身が危険なら止まる」**という能力（コンテンツレベルの倫理観）を身につける必要があります。
単なる「禁止リスト」では不十分。
「爆弾を作らない」というルールだけでなく、「危険な材料を扱わない」という**「素材への敏感さ」**を AI に教える時代が来ています。

🌟 まとめ

この論文は、**「AI が『いい人』を演じていても、悪意ある材料を渡されると、無自覚に『悪の道具』を作ってしまう」**という、見過ごされがちな危険性を暴きました。

AI をより安全にするためには、単に「悪いことをさせない」だけでなく、**「どんな状況でも、危険な『中身』を見抜いて拒絶できる」**という、人間のような深い倫理観を AI に植え付けることが、次の大きな課題だと言えます。

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

🍎 核心となる問題：「箱の中身」に気づかない配達員

🔍 研究のやり方：9 人の AI に「テスト」をさせた

📊 驚きの結果：最新 AI でも「油断」していた

1. 最新モデルでも「防げない」

2. 「中身」に依存する作業ほど危険

3. 「危険な内容」の位置や量でバレる

🛡️ 対策は効いているのか？「外部のガード」は穴だらけ

💡 結論と今後の課題：AI にも「倫理観」を

🌟 まとめ

論文要約：LLM が無害なタスク中にユーザー提供の有害コンテンツに遭遇した際の挙動の理解

1. 問題定義：イン・コンテンツ・ハームリスク

2. 研究方法論

2.1 データセットの構築

2.2 評価指標

2.3 対象モデル

3. 主要な結果

3.1 全体的な脆弱性

3.2 タスクとカテゴリの影響

3.3 アブレーション研究（要因分析）

3.4 外部防御策の有効性

4. 主要な貢献

5. 意義と示唆

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

🍎 核心となる問題：「箱の中身」に気づかない配達員

🔍 研究のやり方：9 人の AI に「テスト」をさせた

📊 驚きの結果：最新 AI でも「油断」していた

1. 最新モデルでも「防げない」

2. 「中身」に依存する作業ほど危険

3. 「危険な内容」の位置や量でバレる

🛡️ 対策は効いているのか？「外部のガード」は穴だらけ

💡 結論と今後の課題：AI にも「倫理観」を

🌟 まとめ

論文要約：LLM が無害なタスク中にユーザー提供の有害コンテンツに遭遇した際の挙動の理解

1. 問題定義：イン・コンテンツ・ハームリスク

2. 研究方法論

2.1 データセットの構築

2.2 評価指標

2.3 対象モデル

3. 主要な結果

3.1 全体的な脆弱性

3.2 タスクとカテゴリの影響

3.3 アブレーション研究（要因分析）

3.4 外部防御策の有効性

4. 主要な貢献

5. 意義と示唆

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem