원저자: Aleksandr Churilov (Independent Researcher)

게시일 2026-05-19✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Aleksandr Churilov (Independent Researcher)

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 새로운 레시피를 요리하려는 셰프라고 상상해 보세요. 당신은 초지능 AI 기반의 부주방장에게 도움을 요청합니다. 부주방장은 자신 있게 말합니다. "슈퍼스파이스-9000을 식료품점에서 사야 합니다!" 당신은 식료품점에 가지만, 슈퍼스파이스-9000은 존재하지 않습니다.

컴퓨터 프로그래밍 세계에서는 이 '식료품점'이 PyPI(파이썬용) 또는 npm(자바스크립트용)이라는 디지털 창고입니다. 이러한 창고에는 프로그래머가 단일 명령어로 다운로드할 수 있는 수백만 개의 미리 만들어진 코드 '재료'(패키지)가 보관되어 있습니다.

이 논문은 작년에 들려준 무서운 이야기의 후속편입니다. 당시 연구원들은 AI 셰프들이 재료 이름을 짓는 데 매우 서툴렀다는 사실을 발견했습니다. 그들은 약 5%에서 22%의 빈도로 '슈퍼스파이스-9000'과 같은 가짜 이름을 만들어냈습니다. 교활한 도둑은 그 가짜 이름으로 악성 패키지를 등록한 뒤, 프로그래머가 AI에게 그것을 요청하도록 기다렸다가 프로그래머를 속여 바이러스를 설치하게 만들 수 있었습니다. 이를 **'슬로스쿼팅(slopsquatting)'**이라고 부릅니다.

이 논문의 저자인 독립 연구자는 질문했습니다. "2 년이 지났는데 AI 는 이 부분에서 나아졌을까?"

그들이 발견한 내용을 간단히 설명하면 다음과 같습니다:

1. '가짜 재료' 문제는 줄어들었지만 사라지지는 않음

연구원들은 2026 년 초에 이용 가능한 다섯 가지 가장 똑똑한 AI 코딩 모델 (Anthropic, OpenAI, Google, DeepSeek 등 기업 소속) 을 테스트했습니다.

좋은 소식: '최고' AI 와 '최악' AI 간의 격차가 극적으로 줄었습니다. 2024 년에는 일부 AI 가 끔찍하게도 (가짜 이름 비율 22%) 다른 일부는 그럭저럭 (5%) 이었습니다. 하지만 2026 년에는 모두 대략 비슷해졌습니다. 모두 약 **4.6% 에서 6.1%**의 빈도로 가짜 이름을 만들어냅니다. '나쁨'의 분포가 무너졌습니다.
나쁜 소식: 위협은 여전히 매우 현실적입니다. 비율이 떨어졌지만 4~6% 는 도둑이 수익을 낼 만큼 여전히 높습니다. AI 가 20 번 중 1 번 가짜 이름을 만들어낸다면, 도둑은 그 가짜 이름을 등록하고 수천 명의 프로그래머가 실수로 다운로드할 때까지 기다릴 수 있습니다.

2. '보편적 가짜' 발견

이 논문이 가진 가장 큰 놀라움입니다. 연구원들은 127 개의 특정 가짜 이름을 발견했는데, 이는 상위 5 개 AI 모델이 모두 발명한 이름들이었습니다.

비유: 다섯 명의 다른 전문가 셰프에게 "이 수프의 비밀 재료는 무엇인가요?"라고 물었을 때, 그 재료가 존재하지 않음에도 불구하고 다섯 명 모두 독립적으로 "그건 블루플래버-7입니다"라고 말한다고 상상해 보세요.
위험성: 도둑이 '블루플래버-7'을 한 번만 등록해도, 다섯 개 AI 회사의 사용자들을 동시에 공격할 수 있습니다. 이는 어떤 AI 를 사용하든 상관없이 작동하는 '보편적 함정'입니다.

3. 몇 가지 기이한 반전

논문은 우리가 예상했던 것과 반대되는 몇 가지 패턴을 발견했습니다:

파이썬 vs 자바스크립트: 2024 년에는 AI 가 자바스크립트 재료 이름을 짓는 데 더 서툴렀습니다. 하지만 2026 년에는 오히려 파이썬 재료 이름을 짓는 데 더 서툴러졌습니다. AI 는 파이썬의 엉망진창인 이름 규칙에 혼란을 겪는 것 같습니다.
'작은' 형제 vs '큰' 형제: 보통 작고 저렴한 AI 모델은 크고 비싼 모델보다 실수가 더 많습니다. 하지만 여기서는 '작은' 모델 (Claude Haiku) 이 '큰 형제'(Claude Sonnet) 보다 오히려 가짜 이름을 덜 만들었습니다. 작은 모델이 지시사항에 특히 조심하도록 훈련된 것으로 보입니다.

4. 왜 문제가 줄어들었을까?

저자는 AI 가 지금 약간 더 나아진 데에는 세 가지 이유가 있다고 제안합니다:

공정한 경쟁 환경 조성: '오픈소스' 모델 (무료 사용) 이 매우 좋아져서 이제 '상용' 모델 (유료) 과 똑똑해졌으므로, 그들 간의 격차가 좁혀졌습니다.
더 나은 훈련: AI 에 데이터를 공급하는 기업들이 가짜 재료 이름을 더 많이 제거하기 위해 '요리책'(훈련 데이터) 을 정리한 것 같습니다.
표준화된 훈련: 모든 주요 AI 기업이 이제 유사한 교육 방법을 사용하고 있으므로, 모두 비슷하게 (조금 더 나아진) 실수를 저지릅니다.

결론

AI 셰프들은 조금은 행동을 정리했지만, 여전히 위험할 정도로 자주 가짜 재료를 만들어냅니다. 가장 걱정스러운 점은 그들이 모두 같은 가짜 재료를 만들어낸다는 것입니다.

이 논문이 말하지 않는 것:

이것이 해결된 문제라고 말하지 않습니다.
AI 사용을 중단해야 한다고 말하지 않습니다.
모든 AI 모델이 나쁘다고 주장하지 않습니다 (그들은 상위 5 개 '최첨단' 모델만 테스트했습니다. 작고 오래된 모델들은 여전히 훨씬 나쁠 수 있습니다).

저자의 주요 메시지는 다음과 같습니다: 오류의 범위는 줄어들었지만, 위협은 여전히 존재합니다. 프로그래머와 보안 팀은 오늘날 가장 똑똑한 AI 조차도 여전히 가짜이고 위험한 다운로드로 이끌 수 있다는 점을 인지해야 합니다.

기술 요약: 2026 최첨단 모델 코호트에서의 LLM 패키지 환각 재평가

문제 제기

본 논문은 **슬롭스쿼팅 (slopsquatting)**으로 알려진 보안 취약점을 다루며, 이는 적대자가 Large Language Models(LLM) 이 환각하는 이름으로 PyPI 또는 npm 에 악성 패키지를 등록하는 공급망 공격 벡터입니다. 개발자들이 존재하지 않는 패키지에 대한 pip install 또는 npm install 지시를 포함한 LLM 생성 코드를 신뢰할 때, 실수로 이러한 악성 아티팩트를 설치하게 됩니다.

Spracklen 등 (USENIX Security '25) 은 2024 년에 이 위협의 존재를 확인했으며, 상업적 모델의 경우 5.2% 에서 오픈소스 모델의 경우 21.7% 에 이르는 환각률을 보고했습니다. 그러나 2025 년 말부터 2026 년 초 사이에 출시된 최첨단 모델의 급속한 발전과 함께 이 현상이 진화했는지 여부는 여전히 열린 실증적 질문으로 남아 있었습니다. 구체적으로, 저자들은 환각률이 감소했는지, 모델 간 분산이 축소되었는지, 그리고 새로운 모델-중립적 공격 표면이 등장했는지를 확인하고자 했습니다.

방법론

본 연구는 2025 년 10 월부터 2026 년 3 월 사이에 출시된 다섯 개의 최첨단 코드 생성 가능 LLM 코호트에 적용된 Spracklen 등의 방법론에 대한 충실한 재현입니다:

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

실험 설계:

프롬프트 코퍼스: 저자들은 Spracklen 아티팩트의 정확한 프롬프트 데이터셋 (원래 연구에서 16 개 모델에 걸친 총 576,000 개의 프롬프트) 을 활용했으며, 이는 20,163 개의 Stack Overflow 질문과 19,806 개의 LLM 합성 질문으로 구성되었으며 Python 과 JavaScript 간에 균등하게 분할되었습니다.
생성: 총 199,845 개의 코드 샘플이 생성되었습니다 (모델당 약 39,969 개).
추출 및 검증: pip install, npm install, 그리고 import 문과 일치하는 정규식 기반 휴리스틱을 사용하여 패키지 참조를 추출했습니다. 추출된 이름은 2026 년 4 월 28 일 기준 PyPI(500,565 개 이름) 와 npm(약 300 만 개 이름) 의 기존 패키지 마스터 목록과 대조하여 검증되었습니다.
통계 분석: 환각률은 미해결 참조와 총 참조의 비율로 계산되었습니다. 통계적 유의성은 쌍대 비교를 위한 Holm–Bonferroni 보정을 적용한 Pearson $\chi^2$ 통계량을 사용하여 테스트되었으며, 환각된 이름의 중복도를 측정하기 위해 Jaccard 유사도 지수가 함께 사용되었습니다.

주요 기여

최첨단 모델에 대한 재현: 2026 년을 위한 새로운 기준선을 생성한 다섯 개의 최첨단 모델 전반에 걸친 패키지 환각률에 대한 포괄적인 측정.
범위 압축 식별: 2024 년 데이터에 비해 모델 간 환각 분포가 유의미하게 축소됨을 문서화.
보편적 환각 발견: 다섯 개 평가 모델이 모두 동일하게 환각하는 127 개의 패키지 이름(PyPI 109 개, npm 18 개) 집합을 식별하여 모델-중립적 공격 표면을 구성함.
이상치 관찰:
- Python/JavaScript 환각 비대칭의 반전 (Python 비율이 이제 더 높음).
- Anthropic 계열 내에서의 역전 (더 작은 모델인 Haiku 4.5 가 더 큰 모델인 Sonnet 4.6 보다 덜 환각함).
- DeepSeek V3.2 와 GPT-5.4-mini 간의 높은 Jaccard 유사도 (0.343) 로 공유된 학습 데이터 기원 또는 수렴하는 오류 패턴을 시사함.
오픈 사이언스 아티팩트: 재현 코드, 검증 로그, 분석 스크립트 공개 및 전체 환각 코퍼스에 대한 검증된 연구자 접근 정책 수립.

결과

환각률 및 범위 압축

본 연구는 2026 년 코호트의 환각률이 4.62%(Claude Haiku 4.5) 에서 6.10%(GPT-5.4-mini) 사이임을 발견했습니다.

압축: 이는 Spracklen 의 2024 년 결과 (5.2%–21.7%) 에 비해 모델 간 분포가 11 배 축소된 것을 의미합니다.
원인: 이 압축은 오픈 가중치 모델과 상업적 모델 간의 격차 해소 (예: DeepSeek V3.2 가 이제 상업적 리더와 경쟁 가능함) 와 패키지 참조에 대한 학습 데이터 큐레이션의 포화 상태로 귀결됩니다.
지속성: 압축이 있었음에도 불구하고, 모델당 수백 개의 고유한 환각 이름이 발생하므로 적대자에게 경제적 타당성이 여전히 유지됩니다.

보편적 환각 집합

중요한 발견은 다섯 개 모두의 모델이 환각하는 127 개의 패키지 이름의 존재입니다.

의의: 이는 "모델-중립적" 공격 표면을 생성합니다. 공격자가 단일 악성 패키지 (예: opentelemetry 또는 @ember/service) 를 등록하면 다섯 개 주요 공급자의 모든 사용자를 동시에 대상으로 할 수 있습니다.
메커니즘: 저자들은 이러한 보편적 오류가 공유된 학습 데이터 하위 문자열 (예: 이름을 오용하는 문서) 이나 네임스페이스 관례의 체계적 과도 일반화 (예: 내부 서브패키지를 설치 가능한 대상으로 취급) 에서 비롯된다고 제안합니다.

특정 이상치

언어 비대칭: 2024 년에 JavaScript 가 "더 노이즈가 많았다"는 결과와 달리, 2026 년의 다섯 개 모델 모두 Python 에서 더 높은 환각률을 보였습니다 (JavaScript 보다 2.73~4.13 백분율 포인트 높음). 저자들은 Python 의 더 이질적인 이름 규칙 (snake_case, 대시, 점) 과 JavaScript 의 더 평평한 구조를 원인으로 추측합니다.
Anthropic 역전: Anthropic 계열 내에서 **Claude Haiku 4.5(4.62%)**는 **Claude Sonnet 4.6(5.41%)**보다 현저히 적게 환각했습니다. 이는 작은 모델이 더 많이 환각한다는 일반적인 패턴과 모순됩니다. 저자들은 Haiku 4.5 의 기본 "확장 사고 (extended-thinking)" 기능과 지시 충실도에 대한 특정 사후 학습 강조를 원인으로 꼽습니다.
DeepSeek/OpenAI 수렴: DeepSeek V3.2 와 GPT-5.4-mini 는 가장 높은 쌍대 Jaccard 유사도 (0.343) 를 보여 공유된 편향이나 학습 데이터 기원을 시사합니다.

의의 및 주장

본 논문은 환각률의 범위는 축소되었지만, 위협은 퇴출되지 않았다고 결론지었습니다.

경제적 타당성: 4~7% 수준에서 슬롭스쿼팅 공격은 패키지 등록의 무비용 특성으로 인해 적대자에게 여전히 매우 수익성이 높습니다.
방법론적 전환: 저자들은 단일 모델 연구만으로는 부족하다고 주장합니다. 보편적 환각 집합의 존재는 하나의 모델만 평가할 경우 총 공격 표면이 과소평가됨을 의미합니다. 향후 보안 연구에서 코호트 간 교차 분석이 표준 지표로应采用되어야 합니다.
방어적 함의: 이 발견들은 안전성 사후 학습과 모델 확장으로 분산은 감소했으나, 특정 잘못된 패키지 이름으로 수렴하는 근본적인 문제는 제거되지 않았음을 강조합니다. 저자들은 "최첨단 (frontier)"이 축소되었지만, 하위 계층 오픈소스 모델은 여전히 2024 년에 관찰된 높은 비율을 보일 수 있음을 강조합니다.

본 연구는 2025 년에 출시된 프롬프트 코퍼스로 인한 학습 데이터 유출 가능성과 환각을 완화할 수 있는 검색 메커니즘이 포함된 에이전트 구성의 배제와 같은 한계를 지적하며 주장에 대해 겸손한 어조를 유지합니다. 주요 기여는 슬롭스쿼팅 위협이 지속되고 다중 공급자 취약점으로 진화했음을 보여주는 실증적 증거입니다.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort