Position: the Stochastic Parrot in the Coal Mine. Model Collapse is a Threat to Low-Resource Communities

이 정책 논문은 생성형 AI 를 자체 출력으로 학습시키는 과정에서 발생하는 모델 붕괴가 데이터 품질과 효율성을 저하시켜 AI 의 민주화를 위협하며, 강화된 문화적 편향과 환경 비용으로 인해 저자원 및 소외 계층에 불균형적으로 해를 끼친다고 주장한다.

원저자: Devon Jarvis, Richard Klein, Benjamin Rosman, Steven James, Stefano Sarao Mannelli

게시일 2026-05-07
📖 4 분 읽기☕ 가벼운 읽기

원저자: Devon Jarvis, Richard Klein, Benjamin Rosman, Steven James, Stefano Sarao Mannelli

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

"모델 붕괴는 저자원 공동체에 대한 위협이다"라는 논문에 대한 설명을 쉬운 언어와 일상적인 비유로 풀어냅니다.

큰 그림: 탄광 속의 '확률적 앵무새'

탄광 속의 금조를 상상해 보세요. 과거 광부들은 위험한 가스를 감지하기 위해 금조를 사용했습니다. 새가 노래를 그치면 광부들은 도망쳐야 한다는 것을 알았습니다.

이 논문은 저자원 공동체(덜 흔한 언어를 사용하거나 가난한 지역에 사는 사람들) 가 바로 그 '금조'라고 주장합니다. 그들은 모델 붕괴라는 현상의 위험을 가장 먼저 느끼는 존재들입니다.

모델 붕괴란 무엇일까요?
사진 복사기들이 모여 '전화놀이'를 하는 게임을 상상해 보세요.

  1. 선명하고 원래 사진 (실제 인간 데이터) 으로 시작합니다.
  2. 복사합니다. 약간 흐릿해집니다.
  3. 그 흐릿한 복사본을 가지고 새로운 복사본을 만듭니다. 더 흐릿해집니다.
  4. 복사본을 복사하는 과정을 계속 반복합니다.

결국 이미지는 진흙투성이의 알아볼 수 없는 뭉개진 무언가가 됩니다. 세부 사항은 사라지고 가장 흔하고 일반적인 형태만 남습니다.

인공지능 세계에서는 새로운 AI 모델이 이전 AI 모델이 생성한 데이터로 학습될 때 이런 일이 발생합니다. AI 는 자신이 본 가장 흔한 패턴을 반복하는 경향이 있기 때문에, 시간이 지남에 따라 '희귀한' 그리고 '독특한' 세부 사항들이 사라집니다. AI 는 확률적 앵무새가 됩니다. 들리는 소리를 모방하지만 그 의미를 이해하지 못하며, 세대를 거치면서 가장 크고 흔한 소리만 반복하고 조용하고 독특한 소리들은 잊어버립니다.

문제: 왜 더 가난한 공동체가 먼저 피해를 보는가

이 논문은 이 '복사 놀이'가 모두에게 해를 끼치지만, 저자원 공동체의 문화는 훨씬 더 빠르게 파괴된다고 주장합니다. 그 이유는 세 가지 주요 비유를 통해 설명됩니다.

1. '부자 vs 가난한 사람'의 데이터 식단

건강을 유지하려는 두 사람을 상상해 보세요.

  • **부유한 사람 **(고자원) 신선하고 실제 음식 (실제 인간 데이터) 으로 가득 찬 거대한 식량을 가지고 있습니다. 가공된 가짜 음식 (AI 생성 데이터) 을 일부 먹더라도, 실제 음식이 너무 많기 때문에 식단은 여전히 건강합니다.
  • **고생하는 사람 **(저자원) 식량이 매우 적습니다. 실제 음식 캔이 몇 개뿐입니다. 배를 채우기 위해 가공된 가짜 음식에 의존해야 한다면, 실제 음식은 매우 빠르게 고갈됩니다.

논문의 주장: 많은 아프리카 원주민 언어와 같은 저자원 언어는 인터넷상에 데이터가 매우 적습니다. AI 가 인터넷을 AI 생성 텍스트로 채우기 시작하면, 이러한 언어들은 가짜 것을 희석시킬 실제 데이터가 충분하지 않기 때문에 거의 즉시 '중독'됩니다. 그들의 독특한 문화적 '맛'이 가장 먼저 사라집니다.

2. 권력의 '에코 챔버'

모두가 외치는 광장을 상상해 보세요.

  • 가장 큰 목소리 (영어, 서구 문화, 지배적인 견해) 는 이미 모두에게 들립니다.
  • 작은 목소리 (소수 집단, 특정 지역 방언) 는 거의 들리지 않습니다.

AI 가 인터넷에서 학습할 때, 그것은 가장 큰 목소리만 증폭시키는 확성기처럼 작동합니다. AI 가 더 많은 콘텐츠를 생성할수록, 그 큰 목소리를 반복해서 내뱉습니다. 작은 목소리는 완전히 묻힙니다.
논문의 주장: 모델 붕괴는 '가치 잠금'처럼 작용합니다. 문화를 과거에 고정시켜 지배적인 견해를 고착화하고, 소외된 집단이 사회적 규범을 바꾸거나 언어를 되찾으려는 시도를 지워버립니다. AI 는 분포의 '꼬리' 부분, 즉 희귀하고 독특하며 다양한 사람들의 말투를 잊어버립니다.

3. 고치려는 시도의 '탄소 비용'

누수 난 지붕을 고치려 한다고 상상해 보세요.

  • 부유한 사람은 새 지붕 판을 사고 수리 팀을 고용할 여유가 있습니다.
  • 고생하는 사람은 테이프와 판지로 임시로 막아야 하는데, 이는 저축을 탕진하게 만들고 집은 더 뜨거워집니다.

논문의 주장: 모델 붕괴를 막기 위해 연구자들은 더 많은 실제 데이터가 필요합니다. 하지만 실제 데이터를 수집하는 것은 비용이 많이 들고 막대한 에너지 (뜨겁게 달아오르는 컴퓨터) 가 필요합니다.

  • 저자원 공동체는 종종 기후 변화와 에너지 부족으로 이미 고통받는 지역에 살고 있습니다.
  • 그들은 거대한 AI 모델을 학습시키는 환경적 비용을 짊어지지만, 그로부터 얻는 혜택은 가장 적습니다.
  • AI 생성 노이즈에 의해 언어가 지워지는 것을 막기 위해 충분한 실제 데이터를 '구매'할 여유가 없습니다.

'확률적 앵무새' 비유

이 논문은 오래된 아이디어를 다시 꺼냅니다. AI 는 '확률적 앵무새'입니다. 이해하지 못하고 통계에 기반해 다음 단어를 예측할 뿐입니다.

  • 논문의 시각: AI 가 더 똑똑해졌더라도 여전히 앵무새입니다. 앵무새에게 가장 흔한 문구만 먹이면, 더 이상 흥미로운 말은 하지 않게 됩니다.
  • 위험: 저자원 공동체에게 '흥미로운 문구'(그들의 독특한 문화, 속어, 역사) 는 통계적으로 희귀하기 때문에 앵무새가 가장 먼저 잊어버리는 것들입니다.

이 논문은 우리에게 무엇을 하길 원할까요?

저자들은 행동 촉구를 하고 있습니다. AI 가 완전히 망가질 때까지 기다렸다가 걱정해서는 안 된다고 말합니다.

  1. 금조의 목소리에 귀 기울이기: 저자원 공동체는 사후 고려 사항이 아니라 이 대화의 리더가 되어야 합니다.
  2. 실제 데이터 보호: 이러한 취약한 언어를 위해 AI 생성이 아닌 실제 인간 콘텐츠로만 구성된 특별한 '안전 구역' 데이터를 만들어야 합니다.
  3. 가짜 식별: 훈련 데이터가 중독되기 전에 AI 생성 텍스트를 걸러낼 수 있도록 더 나은 도구가 필요합니다.
  4. 위험 수용: 논문은 AI 가 전 세계적으로 오랫동안 망가지지 않을지도 인정하지만, 특정 소규모 공동체에게는 그 '파괴'가 지금 바로 일어나고 있다고 말합니다.

요약

이 논문은 AI 가 더 많은 콘텐츠를 생성함에 따라 AI 를 더 '어리석고' 반복적으로 만드는 피드백 루프를 만든다고 경고합니다. 이 과정은 희귀하고 독특한 것을 제거하는 필터처럼 작용합니다. 저자원 공동체는 이미 온라인에서 대표성이 부족하기 때문에, 그들의 독특한 문화와 언어는 이 과정에 의해 지워질 위험이 가장 높으며, 그 결과 그들은 동질화되고 지배적인 세계 버전만 남게 됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →