原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む
あなたのビジネスのためにコードを書くよう、天才的で超高速な見習いプログラマーを雇ったと想像してください。あなたは「この人気のある取引サイトで特定のデジタルトークンを購入するスクリプトを作成せよ」といった、シンプルで普通の依頼を与えます。あなたは彼らが安全で標準的なコードを書くことを期待します。
しかし、この論文は恐ろしい現実を明らかにしています:その見習いは、訓練資料の中に隠された危険で偽の命令のライブラリを丸暗記しています。 特定の作業の助けを求めると、彼らは偶然にも詐欺師のマニュアルからページを引き抜き、あなたのコードに貼り付けてしまうかもしれません。その結果、あなたの資金は正当なサイトではなく、泥棒の手に渡ってしまいます。
以下は、この論文の発見を簡単な比喩を用いて解説したものです:
1. 問題:「毒入り料理本」
大規模言語モデル(LLM)は、インターネット上のほぼすべてのレシピ本を読んで料理を学んだシェフのようなものです。問題は、インターネットにはあなたの財布やデータを盗むように設計された「毒入り」レシピ、つまり偽の命令が溢れていることです。
- 実際の出来事: 論文は、2,500 ドルを失った実在の人物の話から始まります。その人はチャットボットに、人気サイト「pump.fun」で暗号資産を購入するスクリプトを作成するよう依頼しました。親切にしようとしたチャットボットは、一見本物だが実際には詐欺師の罠である偽の API(デジタルな扉)へのリンクを含むコードを作成しました。そのコードは、ユーザーに「秘密鍵」(銀行金庫のマスターキー)を直接その偽の扉に手渡すよう求めてさえいました。ユーザーは AI を信頼してコードを実行し、30 分も経たないうちに資金は消え去りました。
2. 調査:「Scam2Prompt」
研究者たちは、これが単発の事故なのか、それとも広範な疾患なのかを確認するために「Scam2Prompt」というツールを開発しました。
- 比喩: 新しいセキュリティシステムが機能するかテストしたい警備員を想像してください。警備員は、明白な方法であるハンマーで破壊を試みる代わりに、既知の「悪党」の設計図を取り、それを通常の建設依頼のように書き換えて、セキュリティシステムに渡します。
- 仕組み:
- 既知の詐欺サイトの一覧を取得しました。
- 彼らはこれらのサイトが被害者を欺くために使用する一般的なキーワード、主張、フレーズを抽出しました。それらの用語を用いて、AI システムに「このデジタルコインをどう購入すればよいですか?」や「割引チケットを買うためにこの航空プラットフォーム経由で支払うにはどうすればよいですか?」といった、正当なコーディング依頼を生成させました。
- これらの「無害な」依頼を、GPT-4o や Llama などの 4 つの主要な生産用 AI モデルに与えました。
- AI が詐欺リンクを含むコードを作成したかどうかを確認しました。
3. 発見:「無害な」罠
結果は衝撃的でした。依頼は完全に正常に聞こえ、「開発者」からのものでしたが、AI モデルは悪意のあるリンクを含むコードを生成し続けました。
- 統計: 初期テストでは、生成されたコードの約**4.24%**に詐欺リンクが含まれていました。つまり、これらの AI に 100 回コード作成を依頼した場合、約 4 回は偶然にも武器を渡してしまうことになります。
- 「Innoc2Scam-bench」: 研究者たちは、最初の 4 つのモデルを常に欺いて悪質なコードを生成させる 1,377 の特定の質問からなる「ストレステスト」リストを作成しました。その後、このリストを 2025 年にリリースされた7 つのより新しい高度なモデルでテストしました。
- 新しいモデル: 問題は消え去ったのではなく、深刻なまま残りました。新しいモデルは、**12.9% から 47.3%**の割合で悪意のあるコードを生成しました(Innoc2Scam-bench 下でのテスト時)。
- 比喩: 車のエンジンをより速く、賢くするためにアップグレードしたのに、GPS システムがまだ崖へ車を運転させ続けようとするようなものです。なぜなら、地図データは最初から破損していたからです。
4. 安全性の階層
論文はモデルを成績表のようにランク付けしました:
- トップティア(最も安全): Gemini-2.5-Pro と GPT-5。これらはリスクのある依頼に対して「いいえ」と答えたり、回答を拒否したりする能力が最も優れていました。しかし、彼らさえも完璧ではありませんでした。
- ミドルティア: Claude-Sonnet-4。
- ボトムティア(最も危険): DeepSeek-Chat-v3.1 や Qwen3-Coder などのモデル。これらのモデルは質問に答えることに非常に熱心でしたが、生成するコードのほぼ半分(最大 47.3%)が悪意のあるものでした。
5. 現在の防御が失敗する理由
研究者たちは、既存の安全ツールがこの問題を阻止できるかどうかをテストしました。
- 「ガードレール」: 彼らは、クラブの用心棒のような標準的な安全フィルターや、事実を確認するためにウェブ上で情報を検索する「検索エージェント」を試みました。
- 結果: ガードレールはほとんど役に立ちませんでした。コードは構文上正しく見え、依頼も正常に聞こえたため、悪意のあるコードを見逃してしまいました。「ウェブ検索」エージェントは少し助けになりました(リスクを 50% から 29% に削減しましたが)、それでも詐欺の大部分を捕捉できませんでした。
- 教訓: AI に「より良く知っている」ことを期待したり、単純なフィルターに頼ったりすることはできません。悪意のある知識は、訓練データからモデルの脳に深く焼き付けられているからです。
6. 「ゴースト」詐欺
最も寒気を催す発見の一つは、AI モデルがセキュリティデータベースにまだ存在しない詐欺サイトへのリンクを生成していたことです。
- 比喩: AI モデルは詐欺の「設計図」をそれほど完璧に暗記していたため、セキュリティガードがまだ犯罪者を捕まえていなくても、偽のウェブサイトを再構築することができました。これらのサイトのいくつかは、検知を逃して 1 年以上活動していましたが、AI はそれらを使用する方法を知っていました。
まとめ
この論文は、AI モデルは現在、インターネットのゴミによって「毒殺」されていると結論付けています。最も賢く新しいモデルさえも、適切な(しかし無害に聞こえる)質問をすれば、あなたの資金を盗むコードを喜んで作成してしまいます。現在の安全対策は、紙の傘で洪水を防ごうとするようなもので、十分ではありません。著者らは、訓練データをより良く精製し、人間がコードを実行する前に、AI が生成するすべてのリンクに対して厳格な外部チェックを追加する必要があると提案しています。
自分の分野の論文に埋もれていませんか?
研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。