Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 쓴 글이 얼마나 많아졌는지, 그리고 그것이 학계 (특히 인공지능 학회) 에 어떤 영향을 미쳤는지"**를 대규모로 조사한 연구입니다.

쉽게 말해, **"AI 가 쓴 리뷰를 하나하나 찾아내는 게 아니라, '전체 리뷰 중 AI 가 섞인 비율'을 통계적으로 추정하는 새로운 방법"**을 개발하고, 이를 실제로 적용해본 결과에 대한 보고서입니다.

핵심 내용을 일상적인 비유와 함께 설명해 드릴게요.

1. 문제 상황: "AI 가 쓴 글"을 찾아내는 건 왜 어려울까?

과거에는 AI 가 쓴 글을 찾아내려면 "이 문장은 AI 가 썼다/안 썼다"라고 개별 문서 하나하나를 검사해야 했습니다. 하지만 요즘의 AI(챗GPT 등) 는 인간이 쓴 글과 너무 비슷해서, 전문가조차 구별하기 어렵습니다. 마치 가짜 지폐를 하나하나 손으로 만져서 구별하려다 보니, 너무 많아서 다 구별해 내기 힘들어진 상황과 같습니다.

2. 연구자의 해결책: "전체적인 맛"을 보는 방법

이 연구팀은 "개별 문장을 하나하나 검사하는 대신, 전체 리뷰 모음 (코퍼스) 의 '맛'을 분석하자"고 생각했습니다.

비유: 한 그릇의 국에서 "이 숟가락에 들어있는 고기 한 조각이 진짜 소고기인지 가짜인지"를 따지는 게 아니라, **"전체 국물에서 소고기의 향이 얼마나 강하게 느껴지는지"**로 소고기가 섞인 비율을 추정하는 것과 같습니다.
방법: 연구팀은 AI 가 쓴 글과 인간이 쓴 글을 비교해, AI 가 주로 쓰는 **'특정 단어 (형용사)'**들의 사용 빈도를 분석했습니다.
- 예: AI 는 "commendable(칭찬할 만한)", "meticulous(꼼꼼한)", "intricate(정교한)" 같은 단어를 인간보다 훨씬 자주, 그리고 특이하게 사용합니다.
- 마치 요리사가 "이 요리에 후추를 너무 많이 넣었네?"라고 알 수 있는 것처럼, 연구팀은 "이 리뷰들에 AI 특유의 '후추 (단어)'가 너무 많이 섞여 있네?"라고 파악한 것입니다.

3. 주요 발견: AI 가 섞인 비율은?

이 방법을 적용해 2023~2024 년에 열린 주요 AI 학회 (ICLR, NeurIPS 등) 의 리뷰를 분석한 결과 놀라운 사실이 드러났습니다.

결과: 제출된 리뷰 중 **약 6.5% ~ 16.9%**가 AI 가 크게 수정하거나 작성한 것으로 추정됩니다.
- 단순히 맞춤법만 고친 게 아니라, 내용을 AI 가 대폭 보충하거나 다시 쓴 경우입니다.
- 특히 마감일 (Deadline) 이 임박했을 때나, 리뷰어가 자신감이 부족할 때 AI 사용 비율이 더 높았습니다. (마치 시험 직전에 친구에게 답을 베껴쓰는 심리와 비슷합니다.)
대조군: 반면, 자연과학 분야 (Nature 저널) 의 리뷰에서는 이런 현상이 거의 발견되지 않았습니다. 이는 AI 기술에 가장 민감한 분야 (AI 학회) 에서 먼저 AI 사용이 확산되고 있음을 보여줍니다.

4. 부작용: "동질화 (Homogenization)"의 위험

가장 중요한 발견은 AI 가 쓴 리뷰들이 모두 비슷해지고 있다는 점입니다.

비유: 만약 100 명의 요리사가 모두 같은 레시피와 같은 재료를 쓰면, 100 가지의 요리가 나오지만 맛이 모두 비슷해집니다.
현실: AI 가 쓴 리뷰들은 "이 연구는 훌륭합니다", "추가 실험이 필요합니다"처럼 정해진 패턴과 공통된 표현을 반복합니다.
문제점: 학회 리뷰의 본래 목적은 "다양한 전문가의 다양한 시각"을 통해 논문을 다듬는 것입니다. 하지만 AI 가 쓴 리뷰가 많아지면, 다양한 의견이 사라지고 모든 리뷰가 비슷해져서 (동질화), 논문의 질이 떨어질 수 있습니다. 마치 모든 사람이 같은 생각을 가진 것처럼 보이는 '단색화' 현상입니다.

5. 결론: 우리는 무엇을 해야 할까?

이 연구는 AI 사용 자체를 나쁘다고 비난하는 것이 아니라, **"AI 가 얼마나 많이 쓰이고 있는지, 그리고 그것이 정보 생태계에 어떤 변화를 주는지"**를 객관적으로 보여주는 나침반 역할을 합니다.

핵심 메시지: 우리는 AI 가 쓴 글을 하나하나 찾아내서 처벌하려 하기보다, 전체적인 흐름을 감시하고, AI 사용에 대한 가이드라인을 마련해야 합니다.
미래: 앞으로는 AI 를 어떻게 활용하든, 진짜 인간 전문가의 목소리 (다양한 의견) 가 사라지지 않도록 주의 깊게 지켜봐야 합니다.

한 줄 요약:

"하나하나의 가짜를 잡으려다 지친 대신, 전체 국물에서 AI 의 '향'을 맡아 비율을 재보니, AI 리뷰가 생각보다 훨씬 많이 섞여 있었고, 특히 마감 직전에 심하게 쓰이며 모든 리뷰가 비슷해지고 있었다는 충격적인 사실!"

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 대규모 언어 모델 (LLM) 이 생성하거나 대폭 수정한 텍스트가 방대한 코퍼스 (corpus) 내에서 차지하는 비율을 추정하는 새로운 방법론을 제안합니다. 저자들은 이 방법을 적용하여 ChatGPT 출시 이후 AI 학술 컨퍼런스 (ICLR, NeurIPS, CoRL, EMNLP) 의 동료 검토 (peer review) 과정에서 AI 생성 텍스트가 얼마나 사용되었는지를 분석했습니다.

1. 문제 정의 (Problem)

배경: ChatGPT 의 등장으로 교육, 과학, 미디어 등 다양한 분야에서 LLM 사용이 급증했으나, 개별 문서 수준에서 AI 생성 텍스트와 인간 작성 텍스트를 정확히 구별하는 것은 매우 어렵습니다. 기존 검출기들은 인간 판별 능력보다 성능이 낮거나, 특정 모델에 종속적이며, 오탐지 (false positive) 및 미탐지 (false negative) 문제가 심각합니다.
한계: 개별 문서 (instance-level) 를 하나씩 분류하여 AI 사용 여부를 판단하는 기존 접근법은 계산 비용이 크고, 데이터 분포 변화 (distribution shift) 에 취약하며, 개별 사례에서는 감지하기 어려운 **코퍼스 수준의 미세한 경향성 (corpus-level trends)**을 포착하지 못합니다.
목표: 개별 문서의 분류 없이, 전체 텍스트 코퍼스 내에서 AI 에 의해 대폭 수정되거나 생성된 텍스트의 **비율 (fraction, $\alpha$ )**을 효율적이고 정확하게 추정하는 프레임워크 개발.

2. 방법론 (Methodology)

저자들은 **분포 기반 GPT 정량화 (Distributional GPT Quantification)**라는 새로운 프레임워크를 제안했습니다. 이는 개별 검출이 아닌 **최대우도추정 (Maximum Likelihood Estimation, MLE)**을 기반으로 합니다.

핵심 가정: 목표 코퍼스의 문서들은 인간이 작성한 텍스트 분포 $P$ 와 AI 가 생성한 텍스트 분포 $Q$ 의 혼합 분포 $(1-\alpha)P + \alpha Q$ 에서 생성되었다고 가정합니다. 여기서 $\alpha$ 는 AI 생성 텍스트의 비율입니다.
구체적 단계:
1. 훈련 데이터 생성:
  - Human Corpus: 과거의 실제 동료 검토 데이터 (ChatGPT 출시 전) 를 수집합니다.
  - AI Corpus: 동일한 검토 지시사항 (prompt) 을 LLM 에 입력하여 생성된 리뷰 데이터를 수집합니다.
2. 토큰 분포 추정 ( $\hat{P}, \hat{Q}$ ):
  * 전체 토큰 대신 **형용사 (adjectives)**를 주요 어휘로 선택했습니다. (실험 결과 형용사가 AI 생성 텍스트에서 가장 두드러진 패턴을 보임).
  * 각 문서 $x$ 에서 토큰 $t$ 가 나타날 확률을 추정합니다. 문서 전체를 토큰의 집합으로 간주하여 확률을 계산합니다.
3. 최대우도추정 (MLE):
  - 목표 코퍼스 (예: ICLR 2024 리뷰) 에 대한 로그우도 함수를 정의하고, 이를 최대화하는 $\alpha$ 값을 추정합니다.
  - $L(\alpha) = \sum \log((1-\alpha)\hat{P}(x_i) + \alpha\hat{Q}(x_i))$
검증: 합성 데이터 (실제 인간 리뷰와 AI 리뷰를 특정 비율로 섞은 데이터) 를 사용하여 추정 정확도를 검증했습니다.

3. 주요 기여 (Key Contributions)

새로운 추정 프레임워크: 개별 문서 분류를 거치지 않고 코퍼스 전체의 AI 생성 비율을 추정하는 효율적인 MLE 기반 방법론 제안.
성능 우수성: 기존 최첨단 (SOTA) AI 텍스트 검출기 (BERT, DetectGPT 등) 와 비교하여:
- 계산 효율성: 1 천만 배 이상 (7 차수) 빠름.
- 정확도: 분포 내 (in-distribution) 오차는 3.4 배, 분포 외 (out-of-distribution) 오차는 4.6 배 감소.
실증 연구: ChatGPT 출시 후 주요 AI 컨퍼런스 리뷰에 대한 대규모 분석 수행.
사회적 통찰: AI 사용이 리뷰의 내용, 작성 시기, 리뷰어의 행동에 미치는 상관관계 규명.

4. 주요 결과 (Results)

A. AI 생성 텍스트 비율 추정

AI 컨퍼런스: ChatGPT 출시 (2022 년 11 월) 이후 AI 생성/수정된 텍스트 비율이 급격히 증가했습니다.
- ICLR 2024: 약 10.6%
- NeurIPS 2023: 약 9.1%
- CoRL 2023: 약 6.5%
- EMNLP 2023: 약 16.9% (NLP 전문가들이 LLM 에 더 익숙하여 사용률이 높음)
Nature 저널: Nature 패밀리 저널 (의학, 생물학 등) 의 경우 ChatGPT 출시 후에도 AI 사용 비율이 유의미하게 증가하지 않았습니다 (약 1% 미만). 이는 학문 분야별 AI 수용도의 차이를 보여줍니다.
검증: 단순 교정 (proofreading) 만을 위해 LLM 을 사용한 경우와 비교했을 때, 실제 추정된 비율은 단순 교정 효과보다 훨씬 컸으며, 리뷰 개요를 LLM 으로 확장 (expand) 한 시나리오와 일치함을 확인했습니다.

B. AI 사용과 관련된 상관관계 (Correlations)

마감 기한 효과 (Deadline Effect): 마감일 3 일 이내에 제출된 리뷰일수록 AI 사용 비율이 높았습니다.
참고문헌 효과 (Reference Effect): 학술 인용 (예: "et al.") 이 포함된 리뷰는 AI 사용 비율이 낮았습니다. (LLM 은 인용을 잘 생성하지 못함)
답변 참여도 (Reply Rate): 저자의 반박 (rebuttal) 에 답변하지 않은 리뷰어일수록 AI 사용 비율이 높았습니다.
신뢰도 (Confidence): 리뷰어가 작성한 리뷰에 대한 자기 평가 신뢰도가 낮을수록 AI 사용 비율이 높았습니다.
동질화 (Homogenization): AI 생성 비율이 높은 리뷰일수록 다른 리뷰들과의 의미적 유사도 (embedding space) 가 높아지는 경향이 있었습니다. 이는 AI 가 특정 패턴의 답변을 반복하여 리뷰의 다양성을 감소시킬 수 있음을 시사합니다.

5. 의의 및 결론 (Significance)

방법론적 의의: 개별 검출의 한계를 넘어, 대규모 데이터셋에서 AI 의 영향을 정량화할 수 있는 새로운 통계적 도구를 제공했습니다. 이는 정보 생태계의 건강성을 모니터링하는 데 필수적입니다.
학술적 영향: 동료 검토 과정에 AI 가 침투하여 리뷰의 다양성과 질이 저하될 위험이 있음을 경고합니다. 특히, AI 가 생성한 리뷰는 창의적인 통찰보다는 표준화된 답변을 제공하여 학문적 논의를 획일화 (homogenization) 할 수 있습니다.
정책적 시사점: 학술 커뮤니티는 AI 도구 사용에 대한 투명성 가이드라인을 마련하고, 리뷰어의 참여와 책임성을 유지하기 위한 새로운 규범이 필요함을 강조합니다.

이 연구는 AI 생성 콘텐츠가 단순히 '사기'를 넘어 정보 생태계의 구조와 질에 어떻게 영향을 미치는지를 데이터 기반으로 규명한 중요한 사례 연구입니다.