Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 언어 모델 (LLM, 예: 챗 GPT) 이 학계, 특히 논문 쓰기에 어떤 영향을 미쳤는지"**를 분석한 연구입니다.

복잡한 통계나 알고리즘 대신, **"단어의 사용 빈도"**라는 직관적인 방법을 통해 그 영향을 파악했습니다. 마치 **"누가 이 글을 썼는지 (사람인지 AI 인지) 를 알아내기 위해, 그 사람의 말버릇이나 자주 쓰는 단어들을 분석하는 것"**과 비슷합니다.

이 내용을 일반인이 쉽게 이해할 수 있도록 비유와 함께 설명해 드리겠습니다.

1. 핵심 발견: "AI 의 말버릇이 논문에도 퍼졌다"

연구진은 arXiv(학술 논문 공유 사이트) 에 올라온 수백만 편의 논문을 분석했습니다. 그 결과, AI 가 쓴 글에서 자주 나타나는 특정 단어들의 사용 패턴이 실제 논문에도 스며들고 있다는 것을 발견했습니다.

비유: 마치 **"AI 가 쓴 논문은 마치 '비행기'를 타고 온 것 같다"**는 뜻입니다.
- 제목에서 **'via (를 통해)'**나 **'beyond (를 넘어)'**라는 단어가 급격히 늘어났습니다. 마치 AI 가 "이 연구는 A 를 통해 B 를 넘어서는 결과를 냈다"라고 말하길 좋아하듯, 실제 논문 제목들도 그런 패턴을 따르기 시작했습니다.
- 반면, 사람이 자연스럽게 쓰는 'the', 'of' 같은 아주 흔한 단어들은 AI 가 쓴 논문에서는 줄어들었습니다. AI 는 문장을 너무 깔끔하게 다듬으려다 이런 '접속사'들을 과감히 잘라내는 경향이 있기 때문입니다.

2. AI 는 계속 변한다: "말버릇이 바뀌는 AI"

AI 는 한 번 만들어지면 그대로인 것이 아니라, 계속 업데이트됩니다. 연구진은 이 변화가 논문에도 영향을 준다고 보았습니다.

비유: **"요리사의 레시피가 바뀌는 것"**과 같습니다.
- 예전 AI(챗 GPT 초기 버전) 는 **'delve (깊이 파고들다)'**라는 단어를 아주 좋아했습니다. 하지만 최신 AI 모델들은 이 단어를 쓰지 않고, 대신 **'furthermore (더불어)'**나 'utilize (활용하다)' 같은 다른 단어를 선호합니다.
- 연구진은 이 변화를 통해 **"어떤 AI 모델이 언제부터 많이 쓰였는지"**를 역추적할 수 있었습니다. 마치 요리사의 스타일 변화를 통해 그가 언제 어떤 식당에 들어갔는지 알 수 있는 것과 같습니다.

3. AI 구분하기: "쌍둥이를 구별하는 것은 어렵다"

논문은 "여러 AI 가 쓴 글을 구별해 낼 수 있는가?"를 실험했습니다.

비유: **"서로 다른 브랜드의 쌍둥이 옷을 구별하기"**는 매우 어렵습니다.
- GPT, 클로드, 제미니 등 서로 다른 AI 가 쓴 글을 분류기에 넣으면, **"이 글이 정확히 어떤 AI 가 썼는지"**를 100% 맞히는 것은 거의 불가능했습니다.
- AI 들끼리도 서로 너무 비슷해졌기 때문입니다. 하지만 **"사람이 쓴 글"과 "AI 가 쓴 글"**을 구분하는 것은 상대적으로 수월했습니다. (하지만 여전히 20% 정도는 AI 가 쓴 글을 사람 글로 오인하는 등 완벽하지는 않았습니다.)

4. 연구의 결론: "검은 상자보다는 직관적인 눈"

연구진은 복잡한 AI 탐지 프로그램 (블랙박스) 보다는, **"단어 사용 패턴을 직관적으로 분석하는 방법"**이 더 효과적일 수 있다고 말합니다.

핵심 메시지:
- AI 는 학술界的인 글쓰기 스타일을 바꾸고 있습니다.
- AI 모델마다 고유한 '말버릇'이 있고, 이 버릇이 시간이 지남에 따라 변합니다.
- 우리는 AI 가 얼마나 많이 쓰였는지, 어떤 모델이 쓰였는지를 단순히 단어의 빈도 변화를 통해도 어느 정도 추정할 수 있습니다.

요약

이 논문은 **"AI 가 학문 세계에 침투하자, 논문들의 '말투'가 변했다"**는 사실을 발견했습니다. 마치 **"새로운 언어 습관이 생긴 AI 가 학자들의 필기를 대신 쓰면서, 논문 전체의 분위기까지 AI 스타일로 변해가고 있다"**는 경고이자 분석입니다.

이 연구는 앞으로 AI 가 쓴 글을 감지하거나, AI 가 학계에 미친 영향을 추적할 때 "복잡한 기술"보다는 "단순한 단어 분석"이 더 유용한 열쇠가 될 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대형 언어 모델 (LLM) 의 발전과 함께 학술 출판물에서 LLM 의 사용이 급증하고 있습니다. 그러나 기존 연구들은 주로 특정 LLM 생성 텍스트를 탐지하는 데 초점을 맞추었으며, 다양한 LLM 모델 간의 미묘한 차이와 시간이 지남에 따라 변화하는 LLM 의 언어적 특징 (Word Usage Patterns) 이 학술界的 텍스트에 어떻게 영향을 미치는지에 대한 체계적인 분석이 부족했습니다.

핵심 문제: LLM 의 영향력이 단순히 '생성 여부'를 넘어, 학술 용어 선택, 문체, 그리고 특정 단어의 빈도 변화에 어떻게 나타나며, 이러한 변화가 모델의 업데이트와 어떻게 연동되는지 정량적으로 파악할 필요가 있음.
관찰: 제목에서 "via"나 "beyond"와 같은 단어의 빈도 증가, 초록 (Abstract) 에서 "the", "of"와 같은 기능어 (Stopwords) 의 빈도 감소 등 LLM 에 의해 유도된 것으로 보이는 언어적 변화가 감지됨.

2. 방법론 (Methodology)

이 연구는 arXiv 의 방대한 논문 데이터 (약 290 만 편 이상) 를 기반으로 다음과 같은 다각적인 분석 절차를 수행했습니다.

A. 데이터 수집 및 전처리

데이터원: Kaggle 의 arXiv 데이터셋 (2020 년 8 월~2026 년 3 월 버전) 을 활용.
샘플링: ChatGPT 출시 이전인 2022 년 1 월~10 월에 제출된 2,000 편의 논문을 무작위 추출하여 시뮬레이션용 코퍼스로 사용.
모델 및 프롬프트: GPT-3.5, GPT-4o mini, GPT-5 nano, DeepSeek(V3, R1, V3.2), Gemini(2.5 Flash/Pro, 3 Flash), Claude(3 Haiku, 4.5) 등 9 가지 주요 LLM 을 사용.
- 시나리오 1 (제목 생성): 초록을 기반으로 제목 생성.
- 시나리오 2 (초록 수정): 짧은 프롬프트 (간단한 교정) 와 긴 프롬프트 (전문 학술 편집자 역할) 를 사용하여 초록 재작성.

B. 분석 기법

단어 빈도 추이 분석 (Trend Analysis):
- 2021 년 이전 데이터를 기반으로 선형 회귀 (Linear Regression) 를 수행하여 LLM 이 존재하지 않았을 때의 단어 빈도 추세를 예측 ( $f_{pred}$ ).
- 실제 관측된 빈도 ( $f_{obs}$ ) 와 예측값의 비율 ( $r_w(t)$ ) 을 계산하여 LLM 의 영향을 정량화.
영향 추정 모델 (Impact Estimation):
- 관측된 텍스트가 인간 작성 텍스트와 다양한 LLM/프롬프트 조합의 혼합물이라고 가정.
- 제약 조건 하에서 최소 제곱법 (SLSQP) 을 사용하여 각 LLM 의 기여도 ( $\eta_{m,p}$ ) 를 추정하는 최적화 문제 해결.
텍스트 유사성 및 분류 (Similarity & Classification):
- 유사성: ROUGE-1/2/L, BERTScore 를 사용하여 인간 작성 텍스트와 LLM 생성 텍스트, 그리고 서로 다른 LLM 간 유사성 측정.
- 분류: BERT, GPT-2, T5, LLM2Vec 등을 사용하여 서로 다른 LLM 이 생성한 텍스트를 분류하는 다중 클래스 분류 (Multi-class Classification) 수행.

3. 주요 기여 (Key Contributions)

새로운 언어적 지문 (Linguistic Fingerprints) 발견:
- LLM 이 학술 제목에서 "via", "beyond"와 같은 단어를 선호하고, 초록에서 "the", "of"와 같은 기능어를 줄이는 경향이 있음을 규명.
- 이러한 단어 선택은 모델마다 다르며 (예: DeepSeek 과 GPT-5 는 "via" 선호), 모델 업데이트에 따라 변화함 (예: "delve"와 같은 ChatGPT 고유의 단어는 신형 모델에서 감소).
동적 영향 추정 프레임워크 제시:
- 복잡한 블랙박스 분류기 대신, 해석 가능한 선형 접근법을 통해 LLM 의 실제 사용 비율을 정량적으로 추정하는 방법을 제안.
- LLM 의 영향이 이질적 (heterogeneous) 이고 역동적 (dynamic) 이며, 모델과 프롬프트에 따라 달라짐을 입증.
분류 한계 규명:
- 이진 분류 (Human vs. LLM) 는 비교적 정확하나, 여러 LLM 을 구분하는 다중 클래스 분류에서는 성능이 급격히 저하됨을 확인. 이는 LLM 간 출력의 동질화 (Homogenization) 경향을 시사.

4. 주요 결과 (Results)

단어 사용 패턴의 변화:
- 제목: "via"와 "beyond"의 사용 빈도가 2025 년 이후 실제 arXiv 데이터에서 급격히 증가하며, 이는 LLM 의 영향과 일치함.
- 초록: "the"와 "of"의 빈도는 LLM 사용 증가와 함께 감소하는 경향을 보임. 반면 "together"와 같은 단어는 초기 감소 후 다시 급증하는 등 모델 간 선호도 차이가 역동적으로 변화함.
- 모델별 차이: GPT-5 nano 와 같은 최신 모델은 이전 모델들과 다른 단어 선호도를 보이며, "furthermore"와 같은 접속사의 사용 빈도 변화가 특정 모델의 광범위한 사용을 암시함.
분류 성능:
- 이진 분류: 인간 vs LLM 구분은 80~90% 의 높은 정확도를 보임.
- 다중 클래스 분류: 인간, GPT, DeepSeek, Gemini, Claude 등을 구분하는 7 클래스 분류에서는 정확도가 약 60% 수준으로 낮아짐. 특히 인간 작성 텍스트가 LLM 생성으로 오인되는 경우가 빈번함.
- 모델 간 동질화: 최신 모델들은 서로 더 유사해지고 있으며, 인간 작성 텍스트와도 유사도가 높아져 탐지가 점점 어려워짐.
영향 추정:
- 2022 년 10 월 (ChatGPT 출시) 이전에는 LLM 영향 추정치가 0 에 가까웠으나, 이후 GPT-3.5 스타일의 영향이 증가했다가 감소하고, 새로운 모델들의 영향이 교차하는 복잡한 패턴을 보임.

5. 의의 및 결론 (Significance & Conclusion)

실용적 시사점: 복잡한 AI 탐지기는 실전 환경 (다양한 모델, 프롬프트, 인간 수정) 에서 한계가 명확함. 대신 단어 빈도 변화와 같은 직관적이고 해석 가능한 지표가 LLM 의 학술적 영향을 모니터링하는 데 더 효과적일 수 있음.
미래 전망: LLM 은 단순히 텍스트를 생성하는 것을 넘어 학술적 글쓰기 스타일 자체를 변화시키고 있으며, 모델이 인간을 모방하는 동시에 인간도 LLM 의 스타일에 영향을 받는 '공진화 (Coevolution)'가 발생하고 있음.
결론: LLM 의 영향은 정적이지 않으며, 모델의 업데이트와 사용 방식에 따라 지속적으로 진화합니다. 따라서 학술 출판물의 질과 투명성을 유지하기 위해서는 LLM 의 언어적 지문을 지속적으로 추적하고, 이를 반영한 새로운 모니터링 도구가 필요합니다.

이 논문은 LLM 이 학술계에 미치는 영향을 단순한 '탐지'를 넘어, 언어적 패턴의 변화와 모델별 특성을 정량적으로 분석함으로써 AI 시대의 학술 커뮤니케이션 변화를 이해하는 중요한 통찰을 제공합니다.