Beyond Public Access in LLM Pre-Training Data

原著者： Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

公開日 2026-05-07

📖 1 分で読めます☕ さくっと読める

原著者： Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

この論文を、平易な言葉と日常的ななぞなぞを用いて解説します。

大きな問い：AI は「有料のケーキ」を食べてしまったのか？

巨大な学生（AI）が、大規模な最終試験の勉強をしていると想像してください。この学生が学ぶためには、数百万冊の本を読む必要があります。これらの本の中には、公共の図書館の棚に置かれた無料のもの（公開データ）もあります。一方で、サブスクリプション料金を支払った人だけがアクセスできる、有料の壁の向こうに隠されたもの（非公開データ）もあります。

この論文が問うている大きな疑問は、**「この学生は不正をしたのか？」**という点です。許可されていないのに、有料の壁の向こうにある本を読むために、図書館の施錠された区域に忍び込んだのでしょうか？

実験：「味見テスト」

研究者たちは、AI に「これを読んだか？」とただ尋ねるだけでは、AI が嘘をついたり「わからない」と言ったりする可能性があるため、そうはしませんでした。代わりに、彼らは巧妙な**「味見テスト」**を設定しました。

設定： 彼らは O'Reilly Media（有名な技術出版社）から 34 冊の本を選びました。各書には「無料サンプル」の章（公開データ）と、有料の壁の向こうにある残りの部分（非公開データ）があります。
トリック： 彼らは本から 1 段落を選び、AI に 4 つの選択肢の中から、本物の人間が書いた段落を選ばせました。残りの 3 つの選択肢は、本物と非常に似ていますがオリジナルではない別の AI が書いた偽の段落でした。
論理： もし AI がトレーニング中にその本物の段落を「見た」ことがあれば、100 回聞いたことのある曲を認識するように、それを簡単に見分けるはずです。もし見ていなければ、カードのデッキから引くように、単にランダムに推測するはずです。

結果：誰がテストに合格したか？

研究者たちは、OpenAI の AI「学生」の 3 つの異なるバージョンをテストしました。

古参の学生（GPT-3.5 Turbo）： この学生は 2 年前に勉強を止めていました。本をテストしたところ、ランダムな推測よりも良い成績は出ませんでした。有料の本についての記憶はなかったようです。
小さな学生（GPT-4o Mini）： これは新しく、より小さく、性能も低いモデルです。大きな学生と同じ時期にトレーニングされたにもかかわらず、これもランダムな推測をするような結果でした。本物のテキストと偽のテキストを見分けることができませんでした。
大きな学生（GPT-4o）： これが最新で最も強力なモデルです。このモデルが際立っていました。 有料の本から選ばれた本物の人間が書いた段落を、ランダムな確率よりも著しく高い精度で正しく識別しました。
- スコア： 研究者はこれに0.82というスコアをつけました（0.5 はランダムな推測、1.0 は完璧を意味します）。これは、大きな学生がアクセスすべきではなかったコンテンツを認識したことを示唆しています。

「タイムトラベル」の問題（留保事項）

研究者たちは慎重でした。もしかすると、大きな学生は単に特定のテストされた本だけでなく、あらゆる人間による文章を見分けるのが上手くなっただけなのではないかと懸念したのです。

これを検証するために、彼らは AI が勉強を止めた後に出版された本を確認しました。大きな学生は、これらの新しい本における人間による文章の検出においても依然として非常に優れていました。これは、AI が現在、一般的に人間によるテキストを見分けるのが上手くなっていることを意味します。しかし、特定の古い本に対しては、それ以上に優れていたという事実は、トレーニング中にそれらを見た可能性が高いことを示唆しています。

結果が 100% 確実ではない理由

この論文は、その限界について率直に述べています。混雑した部屋でささやきを聞き取ろうとするようなものだと考えてください。

サンプル数の少なさ： 彼らがテストしたのは 34 冊の本だけでした。まるで、3 枚のスライスだけを味わってピザ全体の味を推測しようとするようなものです。結果は有望ですが、「信頼区間」（確実性の統計的尺度）は広いです。
モデルのサイズが重要： 「小さな学生（Mini）」が本を認識しなかったという事実は、それらを見ていなかったからではなく、記憶するサイズが小さすぎただけなのかもしれません。「大きな学生」はより大きな記憶容量を持っているため、アクセスすべきではなかったとしても、情報を保持していた可能性があります。

主な結論

この研究は、OpenAI の最も高度なモデル（GPT-4o）が、アクセスすべきではなかった有料の壁の向こうにある著作権付きの本から学習した可能性が高いことを示唆しています。

著者たちは、これが透明性の必要性を浮き彫りにしていると主張しています。学生が試験のために勉強した本をリストアップできるべきであるのと同様に、AI 企業も、モデルのトレーニングにどのようなデータを使用したかを正確に示せるべきです。許可や支払いなしに有料コンテンツを使用している場合、それはそれらの本を書く人々にとって問題となり、長期的にはインターネット上で利用可能なコンテンツの質を損なう可能性があります。

要約すると： 「大きな学生」は施錠された本を忍び込んで覗いたようですが、「小さな学生」と「古参の学生」はそうしませんでした。しかし、クラスサイズ（サンプル数）が小さいため、これを決定的な不正と呼ぶ前に、さらに多くの証拠を検討する必要があります。

Each language version is independently generated for its own context, not a direct translation.

技術的サマリー：LLM 前学習データにおける公衆アクセスの限界を超えて

問題定義
大規模言語モデル（LLM）は前学習に膨大な量のデータを必要とするが、AI 企業はこのデータの由来と法的地位についてほとんど開示していない。重要な懸念は、モデルが著作権を侵害し、専門的なコンテンツ制作の経済的持続可能性を損なう可能性のある、非公開かつ有料壁に囲まれたコンテンツを許可なく学習しているかどうかである。以前の研究では公開データに対するメンバーシップ推論攻撃が利用されてきたが、法的にアクセスできなかった非公開の著作権材料をモデルが認識しているかどうかに関する実証的証拠は欠如している。本論文は、OpenAI の GPT シリーズモデルが、同じ書籍内の自由に利用可能なプレビューテキストと有料壁に囲まれたコンテンツを区別し、非公開の O'Reilly Media 書籍コンテンツで学習されたことと整合的な認識パターンを示すかどうかを調査する。

手法
本研究は、法的に入手した 34 冊の著作権保護された O'Reilly Media 書籍のデータセットに適用された、DE-COP（Paraphrasing による著作権出力の露出検出） メンバーシップ推論攻撃手法（Duarte et al., 2024）を採用している。

データ構築: 34 冊の書籍は 13,962 の段落に分割された。重要なのは、データセットが以下の点を区別していることである：
- 公開データ: 無料で利用可能なプレビューコンテンツ（章の最初の 1,500 文字、および第 1 章と第 4 章の全文）。
- 非公開データ: 無料で利用できない有料壁に囲まれたコンテンツ。
- 時間的分割: 書籍はモデルの学習カットオフ前に出版された「潜在的にデータセット内（ $t-n$ ）」と、カットオフ後に出版された「既知のデータセット外（ $t+n$ ）」に分類された。
DE-COP テスト: 各段落について、モデルには、1 つの人間が作成した元の段落と、Claude 3.5 Sonnet を使用して作成された 3 つの機械生成の言い換えを含む多肢選択テストが提示された。モデルの「推測率」（24 の回答順列にわたって元のテキストを正しく識別した割合）が計算された。
集計（AUROC）: 段落レベルの推測率が書籍レベルで平均化された。その後、各モデルに対して受動操作特性曲線下面積（AUROC） スコアが計算された。このスコアは、モデルが学習中に潜在的に目にした可能性のある書籍（ $t-n$ ）と、見るはずがなかった書籍（ $t+n$ ）を区別する能力を測定する。AUROC が 0.5 は偶然の確率を示し、1.0 に近い値は強い分離性（認識）を示す。
テスト対象モデル: GPT-3.5 Turbo（カットオフ：2021 年 9 月）、GPT-4o Mini（カットオフ：2023 年 10 月）、および GPT-4o（カットオフ：2023 年 10 月）。
堅牢性チェック: 本研究は、時間的な言語変化を制御するために、同じ学習カットオフを持つ 2 つのモデル（GPT-4o と GPT-4o Mini）をテストした。また、学習露出とは無関係な人間対 AI テキストの違いを検出しているだけではないことを確認するため、未見データにおけるベースライン推測率を分析した。

主要な結果

GPT-4o の認識: GPT-4o は非公開の O'Reilly コンテンツを強く認識し、非公開データに対してAUROC スコア 0.82（95% ブートストラップ信頼区間：0.60–0.96）を達成した。これは、モデルがこれらの有料壁に囲まれたテキストについて事前知識を持っていることを示唆している。
旧モデル/小規模モデルとの比較:
- GPT-3.5 Turbo: 0.50 をわずかに上回るスコアであり、より早い学習カットオフと一致して、コンテンツの検出可能な認識を示さなかった。
- GPT-4o Mini: GPT-4o と同じ学習カットオフを共有しているにもかかわらず、公開データおよび非公開データのいずれについてもほとんど認識を示さなかった（非公開データで AUROC 約 0.56）。これは偶然に近い性能であった。著者らは、これが学習データ構成の違いではなく、小規模モデルの記憶容量の低下によるものである可能性を指摘している。
公開対非公開: GPT-4o は、公開データ（0.64）と比較して、非公開データ（0.82）でより高い AUROC を示した。この差は段落レベルでは統計的に有意であった（ $p \approx 0.02$ ）が、サンプルサイズが小さいため、書籍レベルでは統計的に有意ではなかった（ $p \approx 0.295$ ）。
時間的バイアス制御: 同じ期間で学習された GPT-4o と GPT-4o Mini の結果の乖離は、これらの知見が主に時間的な言語変化や、モデルの人間テキストと言い換えを区別する一般的な能力によって駆動されていないことを示唆している。

限界と不確実性
著者は、これらが 1 モデルあたり 26〜28 冊という小規模なサンプルに基づく予備的な結果であり、広い信頼区間と限られた統計的検出力をもたらしていると強調している。本研究は以下の点を認めている：

小規模モデル（GPT-4o Mini など）は、記憶容量が低いため、メンバーシップ推論による正確なテストが難しい可能性がある。
モデルの能力が向上するにつれて、人間テキストと言い換えを区別するベースライン能力が高まり、最終的にはメンバーシップ推論のシグナルを不明瞭にする可能性がある。
データの具体的なソース（例：LibGen、Books3）は推測されるが確認されていない。

意義と貢献
本論文の主な貢献は、法的に入手した非公開の著作権材料に対するメンバーシップ推論手法の適用であり、これにより公開データのみに依存する研究では特定できない潜在的なアクセス違反の検出が可能になった。

この知見は、以下の必要性を浮き彫りにしている：

企業の透明性向上: 前学習データソースとその由来に関するより多くの開示。
正式なライセンス枠組みの構築: コンテンツエコシステムに対する「搾取的な行き詰まり」を防ぐための、学習データライセンスおよび報酬のための商業市場の発展。
説明責任: メンバーシップ推論攻撃を、モデル開発者にライセンス契約の交渉を迫るメカニズムとして使用すること。ただし、著者はこの手法単独では不十分であり、特に小規模またはより高度なモデルに対しては限界があると指摘している。

本研究は、証拠が OpenAI と O'Reilly Media に特化したものであるが、その背後にある力学は他のモデル開発者にも及ぶ可能性が高いと結論づけており、AI の時代における専門的なコンテンツ制作の持続可能性を確保するための構造化された市場と責任体制の緊急の必要性を浮き彫りにしている。