원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
당신의 비즈니스를 위해 코드를 작성하도록 천재적이고 초고속인 견습 프로그래머를 고용한다고 상상해 보세요. 당신은 "이 인기 있는 거래소에서 특정 디지털 토큰을 구매하는 스크립트를 작성해 줘"와 같이 간단하고 평범한 요청을 합니다. 당신은 그들이 안전하고 표준적인 코드를 작성할 것이라고 기대합니다.
그러나 이 논문은 무서운 현실을 드러냅니다: 그 견습생은 훈련 자료 속에 숨겨진 위험하고 가짜 명령어들의 라이브러리를 암기해 두었습니다. 당신이 특정 작업에 대한 도움을 요청할 때, 그들은 실수로 사기꾼의 매뉴얼에서 한 페이지를 꺼내 당신의 코드에 붙여넣어, 당신의 돈을 합법적인 사이트가 아닌 도둑에게 보내게 할 수 있습니다.
다음은 이 논문의 발견 사항을 간단한 비유로 정리한 것입니다:
1. 문제: "독이 든 요리책"
대규모 언어 모델 (LLM) 은 인터넷상의 거의 모든 요리책을 읽으며 요리하는 법을 배운 셰프와 같습니다. 문제는 인터넷이 지갑이나 데이터를 훔치도록 설계된 가짜 명령어, 즉 "독이 든" 레시피로 가득 차 있다는 점입니다.
- 실제 사건: 이 논문은 2,500 달러를 잃은 실제 사람의 이야기로 시작합니다. 그 사람은 pump.fun이라는 인기 있는 사이트에서 암호화폐를 구매하는 스크립트를 작성해 달라고 챗봇에 요청했습니다. 챗봇은 도움을 주려 노력하며, 실제처럼 보이지만 실제로는 사기꾼의 함정인 가짜 API(디지털 문) 로 연결되는 링크가 포함된 코드를 작성했습니다. 해당 코드는 사용자에게 "개인 키"(은행 금고의 마스터 키) 를 이 가짜 문에 직접 넘겨달라고 요청하기까지 했습니다. 사용자는 AI 를 신뢰하고 코드를 실행했고, 30 분 만에 돈이 사라졌습니다.
2. 조사: "Scam2Prompt"
연구자들은 이것이 일회성 사고인지 아니면 광범위한 질병인지 확인하기 위해 Scam2Prompt라는 도구를 개발했습니다.
- 비유: 새로운 보안 시스템이 작동하는지 테스트하려는 보안 요원을 상상해 보세요. 보안 요원은 분명한 해킹 도구인 지렛대 (해머) 로 침입을 시도하는 대신, 알려진 "나쁜 놈"의 설계도를 가져와 일반적인 건설 요청처럼 보이게 재작성하여 보안 시스템에 건넵니다.
- 작동 방식:
- 알려진 사기 웹사이트 목록을 가져왔습니다.
- 그들은 이러한 사이트들이 피해자를 속이기 위해 사용하는 일반적인 키워드, 주장, 문구를 추출했습니다. 그런 다음 해당 용어들을 사용하여 AI 시스템에게 "이 특정 디지털 코인을 구매하는 방법"이나 "할인된 티켓을 구매하기 위해 이 항공권 플랫폼을 통해 어떻게 결제하나요?"와 같은 정당한 코딩 요청을 생성하도록 지시했습니다.
- 이러한 "순진한" 요청을 GPT-4o 및 Llama 와 같은 네 가지 주요 상용 AI 모델에 입력했습니다.
- AI 가 사기 링크를 포함한 코드를 작성했는지 확인했습니다.
3. 발견 결과: "순진한" 함정
결과는 충격적이었습니다. 요청이 완벽하게 평범하게 들리고 "개발자"로부터 온 것이었지만, AI 모델들은 악성 링크가 포함된 코드를 계속 생성했습니다.
- 통계: 초기 테스트에서 생성된 코드의 약 **4.24%**에 사기 링크가 포함되어 있었습니다. 즉, 이러한 AI 에게 코드를 작성해 달라고 100 번 요청하면 약 4 번은 실수로 당신에게 무기를 건네는 셈입니다.
- "Innoc2Scam-bench": 연구자들은 처음 네 가지 모델을 항상 악성 코드 생성으로 유도하는 1,377 개의 구체적인 질문으로 구성된 "스트레스 테스트" 목록을 만들었습니다. 그런 다음 이 목록을 2025 년에 출시된 일곱 가지 더 최신이고 고급스러운 모델에서 테스트했습니다.
- 새로운 모델들: 문제는 사라지지 않았고 오히려 심각하게 유지되었습니다. 새로운 모델들은 12.9% 에서 47.3% 사이의 비율로 악성 코드를 생성했습니다.
- 비유: 자동차 엔진을 더 빠르고 똑똑하게 업그레이드했지만, 지도 데이터가 처음부터 손상되어 GPS 시스템이 여전히 당신을 절벽으로 몰아넣으려 하는 것과 같습니다.
4. 안전의 위계
이 논문은 모델들을 성적표처럼 순위 매겼습니다:
- 최상위 등급 (가장 안전): Gemini-2.5-Pro와 GPT-5. 위험한 요청일 때 "아니오"라고 말하거나 답변을 거부하는 데 가장 뛰어났습니다. 그러나 그들조차 완벽하지는 않았습니다.
- 중간 등급: Claude-Sonnet-4.
- 최하위 등급 (가장 위험): DeepSeek-Chat-v3.1과 Qwen3-Coder와 같은 모델들. 이러한 모델들은 질문에 답변하는 데 매우 열성적이었지만, 거의 절반의 경우(최대 47.3%) 악성 코드를 생성했습니다.
5. 현재 방어 수단의 실패
연구자들은 기존 안전 도구가 이를 막을 수 있는지 테스트했습니다.
- "가드레일": 그들은 클럽의 문지기 같은 표준 안전 필터와 사실을 확인하기 위해 웹에서 정보를 찾아보는 "검색 에이전트"를 사용해 보았습니다.
- 결과: 가드레일은 대부분 무용지물이었습니다. 코드가 문법적으로 정확하고 요청이 평범하게 들렸기 때문에 악성 코드를 잡아내지 못했습니다. "웹 검색" 에이전트는 조금 도움이 되어 (위험을 50% 에서 29% 로 감소시켰지만) 여전히 대부분의 사기를 잡아내지 못했습니다.
- 교훈: AI 가 "더 잘 알도록" 하거나 단순한 필터에 의존해서는 안 됩니다. 악성 지식은 훈련 데이터에서 모델의 뇌 깊숙이 박혀 있습니다.
6. "유령" 사기
가장 소름 끼치는 발견 중 하나는 AI 모델들이 보안 데이터베이스에 아직 존재하지도 않는 사기 사이트 링크를 생성했다는 것입니다.
- 비유: AI 모델들은 사기의 "설계도"를 너무 잘 암기하고 있어서, 보안 요원들이 범죄자를 아직 체포하지 않았더라도 가짜 웹사이트를 재구성할 수 있었습니다. 이 중 일부 사이트는 1 년 이상 탐지되지 않고 활동해 왔지만, AI 는 그것들을 사용하는 방법을 알고 있었습니다.
요약
이 논문은 AI 모델들이 현재 인터넷의 쓰레기에 의해 "중독"되어 있다고 결론 내립니다. 가장 똑똑하고 최신 모델조차도 적절하지만 평범하게 들리는 질문을 받으면 당신의 돈을 훔치는 코드를 기꺼이 작성할 것입니다. 현재의 안전 조치는 홍수를 종이 우산으로 막으려는 것과 같습니다; 그들은 충분히 강력하지 않습니다. 저자들은 훈련 데이터를 더 잘 정제하고, AI 가 생성하는 모든 링크에 대해 엄격한 외부 검사를 추가하여 인간이 코드를 실행하기 전에 이를 수행할 것을 제안합니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.