Beyond Public Access in LLM Pre-Training Data

원저자: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 쉬운 언어와 일상적인 비유를 사용하여 설명합니다.

핵심 질문: AI 가 '유료 구독' 케이크를 먹었을까?

거대한 시험을 준비하는 거대 학생 (AI) 을 상상해 보세요. 이 학생이 학습하려면 수백만 권의 책을 읽어야 합니다. 이 책들 중 일부는 공공 도서관 선반에 놓인 무료 책들 (공개 데이터) 입니다. 반면, 다른 책들은 유료 구독료만 지불한 사람만 접근할 수 있는 유료 구독 벽 뒤에 잠겨 있습니다 (비공개 데이터).

이 논문이 던지는 핵심 질문은 다음과 같습니다: 이 학생이 부정행위를 했을까? 그들은 허가되지 않았음에도 불구하고, 유료 책을 읽기 위해 잠긴 도서관 구역에 몰래 침입했을까요?

실험: '맛보기 테스트'

연구진들은 AI 에게 "이 책을 읽었니?"라고 단순히 묻지 않았습니다. AI 가 거짓말을 하거나 "모른다"고 답할 수 있기 때문입니다. 대신 그들은 교묘한 맛보기 테스트를 고안했습니다.

준비: 그들은 유명한 기술 출판사인 O'Reilly Media 의 책 34 권을 선정했습니다. 각 책은 무료 샘플 챕터 (공개) 와 유료 구독 벽 뒤에 있는 나머지 책 내용 (비공개) 으로 구성되어 있습니다.
기법: 그들은 책의 한 단락을 가져와 AI 에게 네 가지 옵션 중 진짜 인간이 쓴 단락을 골라내도록 요청했습니다. 나머지 세 가지 옵션은 원본과 매우 비슷하게 들리지만 실제로는 다른 AI 가 작성한 가짜 단락들이었습니다.
논리: 만약 AI 가 학습 과정에서 진짜 단락을 '본' 적이 있다면, 백 번 들은 노래를 알아차리듯 쉽게 식별해 낼 것입니다. 만약 본 적이 없다면, 카드 덱에서 카드를 뽑듯 무작위로 추측할 것입니다.

결과: 누가 테스트를 통과했나?

연구진들은 OpenAI 의 세 가지 다른 버전 AI '학생'들을 테스트했습니다.

오래된 학생 (GPT-3.5 Turbo): 이 학생은 2 년 전에 학습을 중단했습니다. 책들을 대상으로 테스트했을 때, 이 학생은 무작위 추측보다 더 좋은 성적을 내지 못했습니다. 유료 책에 대한 기억이 없는 것처럼 보였습니다.
작은 학생 (GPT-4o Mini): 이는 더 최신이지만 작고 덜 강력한 모델입니다. 큰 학생과 같은 시기에 학습되었음에도 불구하고, 무작위 추측자처럼 행동했습니다. 진짜 텍스트와 가짜 텍스트를 구별하지 못했습니다.
큰 학생 (GPT-4o): 이는 가장 최신이고 가장 강력한 모델입니다. 이 모델이 두드러졌습니다. 무작위 확률보다 훨씬 더 정확하게 유료 책에 있는 진짜 인간이 쓴 단락들을 식별해 냈습니다.
- 점수: 연구진들은 이 모델에게 0.82의 점수를 매겼습니다 (0.5 는 무작위 추측, 1.0 은 완벽함). 이는 큰 학생이 접근해서는 안 되는 콘텐츠를 실제로 인식했다는 것을 시사합니다.

'시간 여행' 문제 (주의점)

연구진들은 신중했습니다. 어쩌면 큰 학생이 특정 테스트 책뿐만 아니라 어떤 인간이 쓴 글이든 더 잘 알아보는 지능을 얻었을 뿐일 수도 있다고 우려한 것입니다.

이를 확인하기 위해 그들은 AI 가 학습을 중단한 이후에 출판된 책들을 살펴보았습니다. 큰 학생은 이 새로운 책들에서도 인간이 쓴 글을 식별하는 데 매우 뛰어났습니다. 이는 AI 가 현재 일반적으로 인간이 쓴 텍스트를 더 잘 알아본다는 것을 의미합니다. 그러나 특정 오래된 책들을 식별하는 데서 더 나은 성과를 보였다는 사실은, 학습 과정에서 그 책들을 실제로 보았을 가능성이 높음을 시사합니다.

결과가 100% 확실하지 않은 이유

이 논문은 한계를 솔직하게 인정합니다. 붐비는 방에서 속삭임을 듣는 것과 같다고 생각하세요:

작은 표본 크기: 그들은 책 34 권만 테스트했습니다. 피자 세 조각만 맛보고 전체 피자의 맛을 추측하는 것과 같습니다. 결과는 유망하지만, '신뢰 구간' (확실성의 통계적 척도) 은 넓습니다.
모델 크기의 중요성: '작은 학생' (Mini) 이 책을 인식하지 못했다는 사실은 단순히 기억할 만큼 모델이 작아서일 뿐, 보지 않았다는 뜻은 아닐 수 있습니다. '큰 학생'은 더 큰 기억력을 가지고 있으므로, 허용되지 않았더라도 정보를 기억했을 수도 있습니다.

주요 결론

이 연구는 OpenAI 의 가장 진보된 모델 (GPT-4o) 이 유료 구독 벽 뒤에 있는 저작권이 있는 책들로부터 학습했을 가능성이 높음을 시사합니다.

저자들은 이것이 투명성의 필요성을 강조한다고 주장합니다. 마치 학생이 시험을 위해 공부한 책 목록을 나열할 수 있어야 하듯, AI 기업들은 모델을 학습시키는 데 사용된 데이터가 정확히 무엇인지 보여줄 수 있어야 합니다. 허가나 지불 없이 유료 콘텐츠를 사용하는 것은 그 책들을 쓴 사람들에게 문제를 야기하며, 장기적으로는 인터넷에 제공되는 콘텐츠의 질을 떨어뜨릴 수 있습니다.

요약하자면: '큰 학생'은 잠긴 책들을 몰래 훔쳐본 것 같지만, '작은 학생'과 '오래된 학생'은 그렇지 않았습니다. 하지만 반의 크기가 작았기 때문에, 이를 결정적인 부정행위로 규정하기 전에 더 많은 증거를 살펴봐야 합니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: LLM 사전 학습 데이터의 공개 접근을 넘어선 문제

문제 제기
대규모 언어 모델 (LLM) 은 사전 학습을 위해 방대한 양의 데이터가 필요하지만, 인공지능 기업들은 이 데이터의 출처와 법적 지위에 대해 대부분 공개하지 않고 있습니다. 중요한 우려 사항은 모델이 무단으로 비공개 유료 콘텐츠로 학습되었는지 여부이며, 이는 저작권을 침해하고 전문 콘텐츠 제작의 경제적 지속 가능성을 훼손할 수 있습니다. 이전 연구들은 공개 데이터셋에 대한 멤버십 추론 공격을 활용했으나, 모델이 법적으로 접근할 수 없었던 비공개 저작권 자료를 인식하는지에 대한 경험적 증거는 부족합니다. 본 논문은 오픈에이아이 (OpenAI) 의 GPT 시리즈 모델이 동일한 책 내의 무료 미리보기 텍스트와 유료 차단 콘텐츠 사이를 구분하며, 비공개 오'Reilly 미디어 책 콘텐츠로 학습되었음을 시사하는 인식 패턴을 보이는지 조사합니다.

데이터 구성: 34 권의 책은 13,962 개의 단락으로 나뉘었습니다. 핵심적으로 데이터셋은 다음을 구분합니다:
- 공개 데이터: 무료 사용 가능한 미리보기 콘텐츠 (챕터의 첫 1,500 자 및 전체 챕터 1 과 4).
- 비공개 데이터: 무료로 제공되지 않는 유료 차단 콘텐츠.
- 시간적 분할: 모델의 학습 컷오프 이전에 출판된 "잠재적 데이터셋 내" ( $t-n$ ) 책과 컷오프 이후에 출판된 "알려진 데이터셋 외" ( $t+n$ ) 책으로 분류되었습니다.
DE-COP 테스트: 각 단락에 대해 모델은 한 개의 원본 인간 작성 단락과 세 개의 기계 생성 패러프레이즈 (Claude 3.5 Sonnet 으로 생성) 를 포함한 객관식 테스트를 받았습니다. 모델의 "추측률" (24 가지 정답 위치 순열에 걸쳐 원본 텍스트를 올바르게 식별한 비율) 을 계산했습니다.
집계 (AUROC): 단락 수준의 추측률을 책 수준으로 평균화했습니다. 그런 다음 각 모델에 대해 수신자 작동 특성 곡선 아래 면적 (AUROC) 점수를 계산했습니다. 이 점수는 모델이 학습 중 잠재적으로 접했을 책 ( $t-n$ ) 과 접할 수 없었을 책 ( $t+n$ ) 을 구분하는 능력을 측정합니다. AUROC 가 0.5 면 무작위 확률을 의미하며, 1.0 에 가까울수록 강력한 분리성 (인식) 을 나타냅니다.
테스트된 모델: GPT-3.5 Turbo (컷오프: 2021 년 9 월), GPT-4o Mini (컷오프: 2023 년 10 월), GPT-4o (컷오프: 2023 년 10 월).
강건성 검증: 연구는 시간적 언어 변화를 통제하기 위해 동일한 학습 컷오프를 가진 두 모델 (GPT-4o 및 GPT-4o Mini) 을 테스트했습니다. 또한 학습 노출과 무관한 인간 대 AI 텍스트 차이를 단순히 탐지하는 것이 아님을 보장하기 위해 보지 못한 데이터에 대한 기준선 추측률을 분석했습니다.

주요 결과

GPT-4o 인식: GPT-4o 는 비공개 오'Reilly 콘텐츠에 대해 강력한 인식을 보여주어, 비공개 데이터에 대해 AUROC 점수 0.82(95% 부트스트랩 신뢰구간: 0.60–0.96) 를 달성했습니다. 이는 모델이 이러한 유료 차단 텍스트에 대한 사전 지식을 가지고 있음을 시사합니다.
이전/작은 모델과의 비교:
- GPT-3.5 Turbo: 0.50 보다 약간 높은 점수를 기록하여 콘텐츠에 대한 탐지 가능한 인식이 없음을 나타냈으며, 이는 이전 학습 컷오프와 일치합니다.
- GPT-4o Mini: GPT-4o 와 동일한 학습 컷오프를 공유함에도 불구하고 공개 또는 비공개 데이터 모두에서 거의 인식을 보이지 않았습니다 (비공개 데이터에 대한 AUROC 약 0.56), 무작위 확률 수준으로 수행되었습니다. 저자들은 이것이 학습 데이터 구성의 차이보다는 작은 모델의 감소된 기억 용량 때문일 수 있다고 제안합니다.
공개 vs 비공개: GPT-4o 는 공개 데이터 (0.64) 에 비해 비공개 데이터 (0.82) 에서 더 높은 AUROC 를 보여주었습니다. 이 차이는 단락 수준에서 통계적으로 유의미했습니다 ( $p \approx 0.02$ ), 그러나 작은 표본 크기로 인해 책 수준에서는 통계적으로 유의미하지 않았습니다 ( $p \approx 0.295$ ).
시간적 편향 통제: 동일한 기간에 학습된 GPT-4o 와 GPT-4o Mini 간의 결과 차이는 연구 결과가 시간적 언어 변화나 모델의 패러프레이즈와 인간 텍스트를 구분하는 일반적 능력에 의해 주로 주도되지 않음을 시사합니다.

한계와 불확실성
저자들은 이러한 결과가 모델당 26~28 권의 작은 표본에 기반한 예비 결과임을 강조하며, 이로 인해 넓은 신뢰구간과 제한된 통계적 힘을 초래했다고 지적합니다. 연구는 다음을 인정합니다:

작은 모델 (예: GPT-4o Mini) 은 낮은 기억 용량으로 인해 멤버십 추론을 통해 정확하게 테스트하기 어려울 수 있습니다.
모델의 능력이 향상됨에 따라 인간 텍스트와 패러프레이즈를 구분하는 기준선 능력이 증가하여, 결국 멤버십 추론 신호를 흐리게 할 수 있습니다.
데이터의 특정 출처 (예: LibGen, Books3) 는 추론되었으나 확인되지는 않았습니다.

이 연구 결과는 다음에 대한 필요성을 강조합니다:

기업 투명성 증대: 사전 학습 데이터 출처 및 기원에 대한 더 큰 공개.
공식 라이선스 프레임워크: 콘텐츠 생태계의 "착취적 막다른 길"을 방지하기 위한 학습 데이터 라이선스 및 보상을 위한 상업적 시장 개발.
책임성: 모델 개발자를 라이선스 협상으로 압박하는 메커니즘으로서 멤버십 추론 공격의 사용. 다만 저자들은 이 방법만으로는 특히 작은 모델이나 더 진보된 모델에 대해 불충분하다고 지적합니다.

본 연구는 증거가 OpenAI 와 오'Reilly 미디어에 구체적이지만, 근본적인 역학은 다른 모델 개발자들에게도 확장될 가능성이 있으며, AI 시대에 전문 콘텐츠 제작의 지속 가능성을 보장하기 위한 구조화된 시장과 책임 제도의 긴급한 필요성을 강조하며 결론을 맺습니다.