原著者： Aleksandr Churilov (Independent Researcher)

公開日 2026-05-19✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Aleksandr Churilov (Independent Researcher)

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたが新しいレシピを作ろうとしている料理人と想像してください。あなたは超賢い、AI 搭載のシェフ助手に助けを求めます。助手は自信満々に「スーパースパイス9000を食料品店で買う必要があります！」と言います。あなたは店に行きますが、スーパースパイス9000は存在しません。

コンピュータプログラミングの世界において、この「食料品店」は PyPI（Python 用）または npm（JavaScript 用）と呼ばれるデジタル倉庫です。これらの倉庫には、プログラマーが単一のコマンドでダウンロードできる数百万もの既製のコード「材料」（パッケージ）が保管されています。

この論文は、昨年に語られた恐ろしい物語の続編です。当時、研究者たちは AI 料理人が材料の名前を付けるのが非常に下手であることを発見しました。彼らは「スーパースパイス9000」のような架空の名前を、約 5% から 22% の頻度で発明していました。ずるい泥棒は、その架空の名前で悪意のあるパッケージを登録し、プログラマーが AI にそれを求めるのを待ち、プログラマーをウイルスのインストールにだますことができます。これは「スロップスクワッティング」と呼ばれます。

この論文の著者である独立研究者は、こう問いかけました：「2 年後の今、AI はこの点で改善したでしょうか？」

以下に、彼らの発見を簡単に説明します。

1. 「架空の材料」の問題は小さくなったが、消えたわけではない

研究者たちは、2026 年初頭に利用可能な最も賢い 5 つの AI コーディングモデル（Anthropic、OpenAI、Google、DeepSeek などの企業から提供されているもの）をテストしました。

良い知らせ: 「最高」の AI と「最低」の AI の間の格差は劇的に縮まりました。2024 年、一部の AI はひどく（22% の架空名）、他の AI はまあまあ（5%）でした。2026 年、それらはすべてほぼ同じです：すべてが約 4.6% から 6.1% の頻度で架空の名前を作り出します。「悪さ」のばらつきは崩壊しました。
悪い知らせ: 脅威は依然として非常に現実的です。率が下がったとはいえ、4〜6% はまだ泥棒が利益を得るのに十分な高さです。AI が 20 回に 1 回架空の名前を作る場合、泥棒はその架空の名前を登録し、何千人ものプログラマーが誤ってそれをダウンロードするのを待つことができます。

2. 「普遍的な架空」の発見

これがこの論文最大の驚きです。研究者たちは、上位 5 つの AI モデルすべてが発明した 127 個の特定の架空の名前を発見しました。

比喩: 5 人の異なる専門家料理人に「このスープの秘密の材料は何ですか？」と尋ねたところ、彼らがすべて独立して「それはブルーフレーバー7です」と答えたと想像してください。その材料は存在しないのに。
危険性: 泥棒が一度「ブルーフレーバー7」を登録すれば、5 つの AI 企業のすべてのユーザーを同時に攻撃できます。これは、どの AI を使うかに依存しない「普遍的な罠」です。

3. いくつかの奇妙なひねり

この論文は、私たちが予想していたのとは逆のパターンをいくつか発見しました。

Python 対 JavaScript: 2024 年、AI は JavaScript の材料の名前付けがより下手でした。2026 年、実際には Python の材料の名前付けがより下手です。AI は Python の厄介な命名規則に混乱しているようです。
「小」対「大」の兄弟: 通常、小さく安価な AI モデルは、大きく高価なモデルよりも多くの間違いを犯します。しかしここでは、「小」モデル（Claude Haiku）は、その「大の兄弟」（Claude Sonnet）よりも架空の名前を少なく作りました。小モデルは指示に対して特に慎重になるように訓練されたようです。

4. なぜ問題は縮んだのか？

著者は、AI が現在わずかに改善した理由として 3 つの要因を挙げています。

競争環境の公平化: 「オープンソース」モデル（無料で利用可能）が非常に良くなり、今では「商用」モデル（有料）と同等に賢くなったため、それらの間の格差が埋まりました。
より良いトレーニング: AI にデータを供給する企業は、より多くの架空の材料名を除去するために「レシピ本」（トレーニングデータ）を整理したようです。
標準化されたトレーニング: すべての大手 AI 企業が現在、同様の教授方法を使用しているため、それらはすべて同様の（わずかに改善された）間違いを犯します。

結論

AI 料理人たちは少しだけ行動を正しましたが、依然として頻繁に架空の材料を発明しており、危険です。最も懸念すべき点は、彼らがすべて同じ架空の材料を発明していることです。

この論文が言っていないこと:

これは解決された問題だとは言っていない。
AI の使用を中止すべきだとは言っていない。
すべての AI モデルが悪いと主張しているわけではない（彼らは上位 5 つの「フロンティア」モデルのみをテストした。より小さく古いモデルは依然としてはるかに悪い可能性がある）。

著者の主なメッセージは次の通りです：エラーの範囲は縮小したが、脅威は残っている。 プログラマーとセキュリティチームは、今日の最も賢い AI でさえも、あなたを架空で危険なダウンロードに導く可能性があることを認識する必要があります。

技術的サマリー：2026 年最先端モデル群における LLM パッケージ幻覚の再評価

問題定義

本論文は、スロップスクワッティング（slopsquatting）と呼ばれるセキュリティ脆弱性に対処する。これは、敵対者が大規模言語モデル（LLM）が幻覚する名前を用いて PyPI または npm に悪意のあるパッケージを登録するサプライチェーン攻撃ベクトルである。開発者が存在しないパッケージに対する pip install または npm install ディレクティブを含む LLM 生成コードを信頼すると、意図せずこれらの悪意のあるアーティファクトをインストールしてしまう。

Spracklen ら（USENIX Security '25）は 2024 年にこの脅威の存在を確立し、商用モデルで 5.2%、オープンソースモデルで 21.7% の幻覚率を報告したが、2025 年末から 2026 年初頭にかけてリリースされた最先端モデルの急速な進歩に伴い、この現象がどのように変化したかは依然として実証的な未解決課題であった。具体的には、著者らは幻覚率が低下したか、モデル間のばらつきが縮小したか、そして新しいモデルに依存しない攻撃面が出現したかを判定することを目的とした。

手法

本研究は、2025 年 10 月から 2026 年 3 月の間にリリースされた 5 つの最先端コード対応 LLM の新しいコホートに対して、Spracklen らの手法を忠実に再現したものである：

Claude Sonnet 4.6（Anthropic）
Claude Haiku 4.5（Anthropic）
GPT-5.4-mini（OpenAI）
Gemini 2.5 Pro（Google）
DeepSeek V3.2（DeepSeek）

実験設計：

プロンプトコーパス：著者らは Spracklen のアーティファクト（元の研究では 16 モデルで合計 576,000 のプロンプト）から正確なプロンプトデータセットを利用し、Python と JavaScript を均等に分割した 20,163 の Stack Overflow 質問と 19,806 の LLM 合成質問で構成されている。
生成：合計 199,845 のコードサンプルが生成された（モデルあたり約 39,969）。
抽出と検証：パッケージ参照は、pip install、npm install、およびインポート文に一致する正規表現ベースのヒューリスティクスを用いて抽出された。抽出された名前は、2026 年 4 月 28 日時点の PyPI（500,565 名前）および npm（約 300 万名前）の既存パッケージのマスターリストに対して検証された。
統計分析：幻覚率は、解決しない参照の数を総参照数で割った比率として計算された。統計的有意性は、ペアワイズ比較に対して Holm–Bonferroni 補正を適用した Pearson の $\chi^2$ 統計量を用いて検定され、さらに幻覚した名前の重複を測定するために Jaccard 類似度指標が併用された。

主要な貢献

最先端モデルへの再現：5 つの最先端モデル全体にわたるパッケージ幻覚率の包括的な測定により、2026 年の新しい基準値を生成した。
範囲圧縮の特定：2024 年のデータと比較して、モデル間の幻覚の広がりが著しく縮小したことを文書化した。
普遍的幻覚の発見：評価された 5 つのモデルすべてが同一に幻覚する127 のパッケージ名（PyPI 上で 109、npm 上で 18）のセットを特定し、モデルに依存しない攻撃面を構成した。
異常の観察：
- Python/JavaScript の幻覚の非対称性の逆転（Python の率が現在高い）。
- Anthropic ファミリー内での逆転（小型モデルである Haiku 4.5 が大型モデルである Sonnet 4.6 よりも幻覚が少ない）。
- DeepSeek V3.2 と GPT-5.4-mini の間で高い Jaccard 類似度（0.343）が観測され、共有された学習データ由来または収束する誤りパターンを示唆している。
オープンサイエンスアーティファクト：再現コード、検証ログ、分析スクリプトの公開、および完全な幻覚コーパスへの検証済み研究者アクセスポリシーの導入。

結果

幻覚率と範囲の圧縮

本研究により、2026 年コホートにおける幻覚率は 4.62%（Claude Haiku 4.5）から 6.10%（GPT-5.4-mini）の範囲であることが判明した。

圧縮：これは Spracklen の 2024 年の結果（5.2%–21.7%）と比較して、モデル間の広がりが11 倍縮小したことを示している。
原因：この圧縮は、オープンウェイトモデルと商用モデルの間のギャップの縮小（例：DeepSeek V3.2 は現在商用リーダーと競争力がある）およびパッケージ参照に関する学習データキュレーションの飽和に起因している。
持続性：圧縮にもかかわらず、この脅威は敵対者にとって経済的に実行可能であり、4.62% の率であってもモデルあたり数百の固有の幻覚名を生み出す。

普遍的幻覚セット

重要な発見として、5 つのモデルすべてによって幻覚される127 のパッケージ名の存在が挙げられる。

重要性：これは「モデルに依存しない」攻撃面を作成する。敵対者が単一の悪意のあるパッケージ（例：opentelemetry または @ember/service）を登録するだけで、5 つの主要プロバイダーのいずれかのユーザーを同時に標的とすることができる。
メカニズム：著者らは、これらの普遍的な誤りが共有された学習データのサブ文字列（例：名前を誤用するドキュメント）または名前空間規約の体系的な過剰一般化（例：内部サブパッケージをインストール可能なターゲットとして扱う）に起因すると示唆している。

特定の異常

言語非対称性：2024 年の結果では JavaScript が「ノイズが多かった」のに対し、2026 年の 5 つのモデルすべては Python においてより高い幻覚率を示した（JavaScript より +2.73 から +4.13 パーセントポイント高い）。著者らは、JavaScript のフラットな構造と比較して、Python のより多様な命名規則（スネークケース、ダッシュ、ドット）が原因であると仮説を立てている。
Anthropic 逆転：Anthropic ファミリー内では、Claude Haiku 4.5（4.62%）はClaude Sonnet 4.6（5.41%）よりも有意に少ない幻覚を示した。これは、通常小型モデルの方が幻覚が多いというパターンに反する。著者らは、Haiku 4.5 のデフォルトの「拡張思考」機能と、指示忠実性への特定のポストトレーニングの重点を原因として挙げている。
DeepSeek/OpenAI 収束：DeepSeek V3.2 と GPT-5.4-mini は、最も高いペアワイズ Jaccard 類似度（0.343）を示し、共有されたバイアスまたは学習データ由来を示唆している。

意義と主張

本論文は、幻覚率の範囲は縮小したが、脅威は解消されていないと結論づけている。

経済的実行可能性：4–7% の率において、パッケージ登録の無コスト性により、スロップスクワッティング攻撃は敵対者にとって極めて収益性が高い。
手法の転換：著者らは、単一モデルの研究では不十分であると主張する。普遍的幻覚セットの存在は、単一のモデルのみを評価する場合、総攻撃面が過小評価されていることを意味する。将来のセキュリティ研究では、コホート間交差分析が標準的な指標となるべきである。
防衛への示唆：これらの知見は、安全性ポストトレーニングとモデルのスケーリングがばらつきを減少させたものの、モデルが特定の誤ったパッケージ名に収束するという根本的な問題は解消されていないことを浮き彫りにしている。著者らは、「最先端」は圧縮されたが、下位層のオープンソースモデルは依然として 2024 年に観測された高い率を示す可能性があることを強調している。

本研究は、主張に関して控えめなトーンを維持しており、プロンプトコーパスが 2025 年にリリースされたことによる学習データの漏洩の可能性や、検索メカニズムが幻覚を軽減する可能性のあるエージェント構成の除外などの限界を指摘している。主な貢献は、スロップスクワッティングの脅威が存続し、マルチプロバイダーの脆弱性へと進化しているという実証的証拠である。

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort