Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "요리사 AI 와 똑같은 실수"

생각해 보세요. 어떤 유명 요리사 (AI 모델) 가 매일 새로운 요리를 만들어낸다고 칩시다.

문제: 이 요리사는 "스테이크"를 만들 때, 항상 소금 대신 설탕을 넣는 나쁜 습관이 있습니다.
발견: 여러분이 그 요리사가 만든 요리를 맛보면 (프론트엔드), "아, 이 요리사네?"라고 알 수 있습니다. 그리고 그 요리사가 만든 모든 스테이크를 보면, 어디서나 소금 자리에 설탕이 들어갈 것이라고 99% 확신할 수 있습니다.
공격: 만약 해커가 이 요리사의 실수를 알고 있다면, 요리사가 만든 요리를 직접 뜯어보지 않아도 (백엔드 코드 없이), "아, 이 요리는 스테이크를 만들었으니 설탕이 들어갔겠군"이라고 미리 알 수 있습니다. 그리고 그 설탕을 이용해 요리를 망치거나 (공격), 식중독을 유발할 수 있습니다.

이 논문은 바로 이 "AI 요리사의 나쁜 습관 (실수 패턴)"을 찾아내고, 그것을 이용해 미리 공격하는 방법을 연구했습니다.

🔍 핵심 내용 3 가지

1. FSTab: "AI 의 실수 사전" (Feature-Security Table)

연구진은 FSTab이라는 특별한 도구를 만들었습니다.

일반적인 해킹: 해커는 보통 코드를 다 뜯어보고 ("소스 코드 분석") 어디가 약한지 찾습니다.
이 연구의 해킹 (블랙박스): 해커는 코드를 볼 수 없습니다. 대신 "이 프로그램에 로그인 버튼이 있네?", "파일 업로드 기능이 있네?" 같은 눈에 보이는 기능만 봅니다.
FSTab 의 역할: "아, 이 프로그램에 '로그인 버튼'이 있고, 이걸 만든 AI 가 'GPT-5.2'라면? 이 AI 는 로그인 기능에서 항상 '비밀번호 암호화 실수'를 저지르더라"라고 **사전 (Lookup Table)**을 뒤져서 알려줍니다.
결과: 코드를 한 줄도 보지 않고, AI 가 만든 프로그램의 약점을 90% 이상 정확히 예측할 수 있었습니다.

2. "습관"은 변하지 않는다 (재발현성)

AI 는 사람처럼 창의적이지 않습니다. 같은 질문을 해도, 같은 기능을 만들어도 항상 같은 나쁜 코드를 작성합니다.

비유: 어떤 사람이 "집에 가는 길"을 설명할 때, 항상 "빨간 신호등에서 멈추지 않고 지나가는" 실수를 한다면, 그 사람이 만든 지도는 어디를 가든 그 실수가 반복될 것입니다.
연구 결과: AI 가 만든 프로그램이 어떤 분야 (쇼핑몰, 블로그, 사내 도구) 가 되든, AI 가 가진 '나쁜 습관'은 그대로 유지되었습니다. 심지어 AI 가 훈련받지 않은 새로운 분야에서도 그 실수가 똑같이 나타났습니다.

3. "모든 AI 가 똑같은 실수를 할까?" (모델 지문)

논문은 각 AI 모델마다 **고유한 '실수 지문'**이 있다고 말합니다.

비유:
- A 요리사: 항상 '소금'을 '설탕'으로 바꿈.
- B 요리사: 항상 '양파'를 '마늘'로 바꿈.
- C 요리사: 항상 '불'을 너무 세게 켜서 타버림.
연구진은 6 가지 최신 AI 모델 (GPT-5.2, Claude-4.5 등) 을 분석했고, 각 모델마다 어떤 기능에서 어떤 실수를 반복하는지를 완벽하게 매핑했습니다. 예를 들어, '파일 업로드' 기능을 만들면 'A 모델'은 항상 특정 취약점을 만들고, 'B 모델'은 또 다른 취약점을 만든다는 식입니다.

⚠️ 왜 이것이 위험할까요?

과거에는 해커가 "이 코드를 하나하나 뜯어봐야 해"라고 생각했지만, 이제는 **"이 프로그램이 어떤 AI 로 만들었는지, 그리고 어떤 기능이 있는지만 알면, 해커는 미리 공격할 준비를 할 수 있다"**는 뜻입니다.

예측 가능한 해킹: "아, 이 쇼핑몰 사이트는 'Claude-4.5'로 만들었구나. 그럼 '결제 기능'에서 보안이 약할 거야. 거기를 노리면 돼!"라고 쉽게 공격할 수 있게 됩니다.
대규모 피해: AI 가 만든 코드가 전 세계에 퍼지면, 그 '나쁜 습관'도 함께 퍼져서 전 세계적으로 같은 취약점이 반복될 수 있습니다.

🛡️ 결론: 무엇을 해야 할까요?

이 연구는 AI 가 코드를 작성할 때 보안을 무시하고 패턴만 반복한다는 것을 경고합니다.

AI 개발자: AI 가 코드를 작성할 때, 단순히 "기능만 잘 나오게" 하는 게 아니라, "보안 실수를 반복하지 않도록" 훈련시켜야 합니다.
사용자 (개발자): AI 가 만든 코드를 쓸 때, "이 AI 는 어떤 실수를 자주 하나?"를 미리 파악하고, 그 부분을 특히 잘 검사해야 합니다.
보안 전문가: 이제부터는 "코드를 다 봐야 한다"는 생각을 버리고, "어떤 AI 가 만들었는지, 어떤 기능이 있는지"만 봐도 위험을 예측하는 새로운 방어 전략이 필요합니다.

한 줄 요약:

"AI 는 코드를 만들 때 마치 나쁜 습관을 가진 사람처럼, 같은 실수를 반복합니다. 이 연구는 그 '나쁜 습관'을 찾아내면, 코드를 뜯어보지 않아도 해커가 어디를 공격할지 미리 알 수 있다는 것을 증명했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 이 코드 생성에 널리 사용되면서, 생성된 코드가 기능적으로 올바르더라도 예측 가능한 보안 취약점을 포함할 위험이 대두되었습니다.

반복적 패턴의 취약점: LLM 은 확률적 샘플링을 통해 코드를 생성하므로, 특정 기능 (예: 로그인, 파일 업로드) 에 대해 동일한 취약한 설계 패턴을 반복적으로 생성하는 경향이 있습니다.
블랙박스 환경의 한계: 기존 보안 연구는 주로 생성된 코드의 소스 코드에 접근하여 정적 분석 (Static Analysis) 을 수행하는 방식에 의존했습니다. 그러나 실제 배포 환경에서는 소스 코드에 접근할 수 없는 블랙박스 (Black-box) 상황 (예: 웹 애플리케이션의 프론트엔드만 관찰 가능한 경우) 이 많습니다.
연구 질문: 소스 코드 없이 오직 관찰 가능한 프론트엔드 기능 (UI) 만을 통해, LLM 이 생성한 소프트웨어의 숨겨진 백엔드 취약점을 예측할 수 있는가? 그리고 이러한 취약점 패턴이 모델 고유의 특성인가?

2. 방법론: FSTab (Feature–Security Table)

저자들은 FSTab(Feature–Security Table) 이라는 새로운 프레임워크를 제안하여 위 문제를 해결합니다. FSTab 은 관찰 가능한 프론트엔드 기능과 잠재적인 백엔드 취약점 간의 매핑을 제공하는 확률적 룩업 테이블입니다.

2.1. FSTab 구축 과정 (Training Phase)

데이터 생성: 대상 LLM 을 사용하여 다양한 도메인 (이커머스, 내부 도구 등) 의 소프트웨어를 대량 생성합니다.
레이블링: 생성된 코드의 백엔드 소스 코드에 대해 CodeQL, Semgrep 과 같은 정적 분석 도구를 실행하여 실제 취약점 (Ground Truth) 을 식별합니다.
기능 추출: 프론트엔드 코드 (또는 UI) 에서 관찰 가능한 기능 (예: "비밀번호 로그인", "파일 업로드") 을 추출하여 표준화된 기능 스키마에 매핑합니다.
PMI 기반 매핑: 단순 빈도수가 아닌 점별 상호 정보량 (Pointwise Mutual Information, PMI) 을 사용하여 특정 기능 ( $f$ $f$ ) 이 나타날 때 특정 취약점 ( $r$ $r$ ) 이 발생할 확률을 계산합니다.
- $S_{PMI}(f, r) = \log \frac{\hat{P}(r|f)}{\hat{P}(r)}$
- 이를 통해 전역적으로 흔한 취약점이 아닌, 특정 기능과 강하게 연관된 모델 고유의 취약점 패턴을 선별합니다.
다양성 보장 선택: 각 기능당 상위 $k$ 개의 취약점을 선택할 때, 이미 다른 기능에 할당된 취약점에 페널티를 부여하여 (Diversity Penalty) FSTab 이 다양한 취약점 유형을 포괄하도록 합니다.

2.2. 공격 시나리오 (Attack Phase)

공격자는 소스 코드 접근 없이 다음 단계를 수행합니다.

재인식 (Reconnaissance): 배포된 소프트웨어의 UI 를 통해 관찰 가능한 기능 (예: "비밀번호 재설정 폼 존재") 을 식별합니다.
매핑: 식별된 기능을 FSTab 의 표준 기능 스키마에 매핑합니다.
쿼리: 대상 모델의 이름 (예: GPT-5.2, Claude-4.5) 과 매핑된 기능을 사용하여 해당 모델의 FSTab 을 조회합니다.
예측: FSTab 은 해당 기능이 존재할 때 백엔드에서 발생할 가능성이 가장 높은 취약점 목록을 반환합니다.

3. 주요 기여 (Key Contributions)

범용 블랙박스 공격 (Universal Black-box Attack): 소스 코드 접근 없이, 모델 식별자와 관찰 가능한 UI 기능만으로 LLM 생성 소프트웨어의 백엔드 취약점을 추론하는 새로운 공격 기법 (FSTab) 을 제안했습니다.
모델 중심 평가 프레임워크: LLM 의 취약점 반복성을 정량화하기 위해 4 가지 지표를 정의했습니다.
- FVR (Feature Vulnerability Recurrence): 특정 기능이 항상 동일한 취약점을 유발하는지.
- RVP (Rephrasing Vulnerability Persistence): 프롬프트의 문장 구조를 바꿔도 (Rephrasing) 취약점이 유지되는지.
- DVR (Domain Vulnerability Recurrence): 동일 도메인 내에서의 취약점 반복성.
- CDT (Cross-Domain Transfer): 다른 도메인에서 학습된 취약점 패턴이 새로운 도메인에서도 유효한지.
실증적 분석: 최신 코드 LLM 6 종 (GPT-5.2, Claude-4.5 Opus, Gemini-3 Pro 등) 과 5 개 도메인을 대상으로 대규모 실험을 수행하여 모델별 취약점 "지문 (Fingerprint)"을 규명했습니다.

4. 실험 결과 (Results)

높은 공격 성공률 (ASR): FSTab 을 이용한 공격은 소스 코드를 보지 않고도 백엔드 취약점을 높은 정확도로 예측했습니다.
- Claude-4.5 Opus 모델의 경우, 내부 도구 (Internal Tools) 도메인에서 94% 의 공격 성공률과 93% 의 취약점 커버리지를 기록했습니다.
- GPT-5.2 역시 다양한 도메인에서 높은 성공률 (평균 81% 이상) 을 보였습니다.
강력한 도메인 간 전이 (Cross-Domain Transfer): 한 도메인 (예: 이커머스) 에서 학습된 FSTab 으로 다른 도메인 (예: 블로그) 의 취약점을 예측할 수 있었습니다. 이는 취약점 패턴이 도메인 고유의 것이 아니라 모델 생성 로직의 본질적 특성임을 의미합니다.
모델별 지문: 각 모델은 고유한 취약점 패턴을 가집니다.
- Composer: 데이터 조작 (Data Operations) 분야에서 매우 높은 취약점 반복성 (RVP 약 50%) 을 보였습니다.
- Grok: 다른 모델에 비해 RVP 가 낮아 (11.96%) 프롬프트 변화에 더 민감했으나, 여전히 예측 가능한 패턴이 존재했습니다.
보안 지속성 (Security Persistence): 프롬프트를 재구성하거나 (RVP), 도메인을 변경하거나 (CDT) 하더라도 동일한 취약점이 반복적으로 발생하여, LLM 이 생성한 코드는 구조적으로 예측 가능한 공격 표면을 가지고 있음을 입증했습니다.

5. 의의 및 시사점 (Significance)

새로운 공격 표면 (Attack Surface) 노출: 소스 코드 없이도 UI 기능만으로 LLM 생성 소프트웨어의 취약점을 예측할 수 있다는 사실은, 기존에 간과되었던 중대한 보안 위협을 드러냅니다.
모델 중심 보안 평가의 필요성: 개별 코드 스캔을 넘어, LLM 모델 자체의 생성 패턴이 얼마나 취약점을 반복하는지 평가하는 모델 중심 (Model-centric) 보안 프레임워크가 필수적입니다.
방어 전략 제안:
- 선제적 감사 (Proactive Auditing): 배포 전 FSTab 을 활용하여 고위험 기능을 선별하고 테스트할 수 있습니다.
- 모델 개선: LLM 학습 및 디코딩 단계에서 보안 민감한 목표를 포함하거나, 템플릿의 경직성을 줄이는 노력이 필요합니다.
- 책임 있는 연구: 저자는 공격 코드의 구체적인 페이로드 (Exploit Payload) 는 공개하지 않고, 취약점 식별 및 우선순위 결정 도구로서의 FSTab 의 가치를 강조하며 책임 있는 연구 윤리를 준수했습니다.

결론

이 논문은 LLM 이 생성한 소프트웨어가 단순한 실수가 아니라, 모델 고유의 구조적 편향으로 인해 예측 가능하고 반복적인 취약점을 생성함을 증명했습니다. FSTab 은 이러한 취약점을 블랙박스 환경에서 식별할 수 있는 강력한 도구를 제공하며, AI 기반 소프트웨어 개발의 보안성을 높이기 위한 새로운 연구 방향을 제시합니다.