Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 이야기: "AI 의 필적 감식"

과거에는 "이 글이 사람이 썼는지 AI 가 썼는지"만 구분하면 됐습니다. 하지만 이제는 ChatGPT, Claude, DeepSeek, Qwen 등 수많은 AI 가 코드를 만들어냅니다.

만약 해킹 사고가 나거나, 라이선스 문제가 생겼을 때 **"이 코드를 정확히 어떤 AI 가 만들었는지"**를 알아내는 것이 매우 중요합니다. 하지만 AI 들은 모두 똑같은 문제를 풀려고 하므로, 코드의 **기능 (무엇을 하는지)**은 거의 비슷합니다. 문제는 **어떻게 (스타일)**를 구분하는 것입니다.

이 논문은 **"코드의 기능은 빼고, AI 고유의 '필적'만 남기는 기술"**을 개발했습니다.

🎨 비유 1: "요리사의 손맛" (스타일 vs 레시피)

여러분이 같은 **'김치찌개 레시피 (과제)'**를 가지고 네 명의 다른 요리사 (AI) 에게 김치찌개를 만들어달라고 했다고 상상해 보세요.

기능 (Source-Agnostic): 네 사람 모두 '김치찌개'를 만듭니다. 재료는 비슷하고, 맛도 비슷할 것입니다. (이것은 모든 AI 가 공유하는 공통점입니다.)
필적 (Source-Specific): 하지만 요리사마다 손맛이 다릅니다.
- A 요리사는 양념을 조금 더 넣습니다.
- B 요리사는 채소를 아주 작게 썹니다.
- C 요리사는 국물을 진하게 냅니다.
- D 요리사는 마지막에 후추를 살짝 뿌립니다.

기존의 기술들은 "이게 김치찌개인가?"만 확인하려 했습니다. 하지만 이 논문은 **"이 김치찌개를 만든 요리사는 누구인가?"**를 찾기 위해, 김치찌개라는 공통된 맛 (기능) 을 무시하고, 오직 요리사만의 독특한 손맛 (스타일) 만을 찾아내는 기술을 개발했습니다.

🛠️ 이 논문이 제안한 해결책: "DCAN (필적 분리기)"

연구팀은 DCAN이라는 새로운 시스템을 만들었습니다. 이 시스템은 코드를 두 가지로 분리합니다.

공통된 내용 (과제 해결): "이 코드가 무엇을 하는지"에 대한 정보. (예: "숫자를 더하는 함수")
고유한 필적 (AI 의 스타일): "누가 썼는지"에 대한 정보. (예: 변수 이름을 어떻게 짓는지, 주석을 어떻게 달는지, 들여쓰기를 어떻게 하는지)

이 시스템은 공통된 내용은 무시하고, 오직 '고유한 필적'만 남긴 뒤 그것을 분석하여 "아, 이건 Claude 가 썼구나!"라고 맞춥니다.

📊 실험 결과: 얼마나 잘 맞췄을까?

연구팀은 ChatGPT, Claude, DeepSeek, Qwen 네 가지 AI 가 Python, Java, C, Go 네 가지 언어로 만든 코드 9 만 개가 넘는 데이터를 만들어 테스트했습니다.

결과: 이 시스템은 약 98% 의 정확도로 AI 가 누구인지 맞췄습니다. (기존 기술들은 90% 정도였습니다.)
재미있는 발견:
- 주석 (Comment) 이 있으면 더 잘 맞췄습니다: AI 들이 코드를 설명할 때 쓰는 말투 (예: "여기서 숫자를 더합니다" vs "숫자 합산") 마다 고유한 특징이 있었습니다.
- 어려운 문제일수록 더 잘 맞췄습니다: 쉬운 문제는 모든 AI 가 비슷하게 풀지만, 어려운 문제는 각 AI 가 자신만의 독특한 해결책을 고안해 내기 때문에 '필적'이 더 뚜렷하게 남았습니다.

💡 왜 이 연구가 중요할까요?

책임 소재 파악: 만약 AI 가 만든 코드가 버그나 보안 취약점을 가지고 있다면, 어떤 AI 가 만들었는지 알면 그 AI 개발사를 찾아서 책임을 물을 수 있습니다.
지식재산권 보호: 누가 만든 코드를 무단으로 사용했는지 추적할 수 있습니다.
미래의 보안: AI 가 만들어낸 악성 코드를 추적하고 방어하는 데 필수적인 기술이 됩니다.

📝 한 줄 요약

"이 논문은 여러 AI 가 만든 코드의 '기능'은 무시하고, 오직 각 AI 만의 독특한 '손맛 (필적)'만 찾아내어, 정확히 누가 코드를 썼는지 98% 이상의 확률로 알아내는 새로운 수사 기술을 개발했습니다."

이 기술은 앞으로 AI 가 만들어낸 소프트웨어의 출처를 추적하고, 더 안전하고 투명한 소프트웨어 환경을 만드는 데 큰 역할을 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: LLM 생성 코드의 분리된 속성 추적 (Disentangled Attribution)

이 논문은 대규모 언어 모델 (LLM) 이 생성한 코드의 출처를 특정 모델 (예: ChatGPT, Claude, DeepSeek, Qwen) 로 식별하는 새로운 문제인 **LLM 코드 소스 속성 추적 (LLMCSA, LLM Code Source Attribution)**을 다룹니다. 기존 연구가 '인간 작성 vs 기계 생성'을 구분하는 데 집중했다면, 본 연구는 실제 소프트웨어 관리, 보안 감사, 라이선스 준수 등 다양한 시나리오에서 어떤 특정 LLM 이 코드를 생성했는지를 파악하는 데 초점을 맞춥니다.

1. 문제 정의 (Problem)

배경: LLM 의 코드 생성 능력 향상으로 인해 소프트웨어 개발 프로세스에 광범위하게 도입되었으나, 이로 인해 생성된 코드의 출처 (Provenance) 를 추적하기 어려워졌습니다.
도전 과제:
- 동일한 프로그래밍 작업을 수행할 때, 서로 다른 LLM 들은 유사한 알고리즘적 해결 전략과 문법 규칙을 따르기 때문에 표면적으로 매우 유사한 코드를 생성합니다.
- 기존 이진 분류 (Human vs. Machine) 방법론은 여러 LLM 간의 미세한 스타일적, 구조적 차이를 포착하는 데 한계가 있습니다.
- 코드는 **작업 의존적 의미 (Source-Agnostic Information)**와 **모델 고유의 스타일적 지문 (Source-Specific Information)**이 얽혀 (Entangled) 있는 상태입니다.
목표: 작업의 기능적 의미와 모델 고유의 스타일을 분리하여, 모델에만 의존하는 지문 (Fingerprint) 을 추출하고 이를 기반으로 정확한 출처를 추적하는 것.

2. 제안 방법론: DCAN (Disentangled Code Attribution Network)

저자들은 DCAN이라는 새로운 프레임워크를 제안하며, 이는 코드의 잠재 표현 (Latent Representation) 을 두 가지 구성 요소로 분리 (Disentanglement) 하는 데 기반합니다.

2.1 핵심 아이디어: 정보 분리 (Disentanglement)

Source-Agnostic Information ( $z_c$ ): 작업 (Task) 에 의해 결정되는 기능적 의미. 모든 모델이 동일한 작업을 수행할 때 공유하는 부분.
Source-Specific Information ( $z_s$ ): 특정 LLM 의 학습 데이터, 아키텍처, 정렬 전략, 디코딩 메커니즘에서 비롯된 스타일적, 구조적 지문.
가정: $h_{base} \approx z_c + z_s$ (기저 표현은 두 요소의 합으로 근사됨).

2.2 아키텍처 및 학습 과정

Feature Extraction: 사전 학습된 코드 인코더 (UniXcoder) 를 사용하여 코드를 초기 잠재 벡터 ( $h_{base}$ ) 로 매핑합니다.
Disentanglement Module:
- 공통 표현 추출: MLP 를 통해 $h_{base}$ 에서 작업에 공통적인 의미 ( $h_{com}$ , 즉 $z_c$ ) 를 추출합니다.
- 모델 고유 표현 추출: $h_{spec} = h_{base} - h_{com}$ 연산을 통해 모델 고유의 스타일 정보 ( $z_s$ ) 를 분리해냅니다.
최적화 목표 (Loss Function):
- Source Classification Loss ( $\mathcal{L}_{cls}$ ): 분리된 모델 고유 표현 ( $h_{spec}$ ) 을 사용하여 모델 분류 정확도를 극대화합니다.
- Representation Consistency Loss ( $\mathcal{L}_{rc}$ ): 동일한 작업을 수행하는 서로 다른 모델들의 공통 표현 ( $h_{com}$ ) 간의 거리를 최소화하여, 의미 정보가 잘 분리되었는지 검증합니다.
- Total Loss: $\mathcal{L}_{total} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{rc}$

3. 주요 기여 (Key Contributions)

새로운 태스크 정의 (LLMCSA): 기계 생성 코드와 인간 코드를 구분하는 것을 넘어, 어떤 LLM 이 생성했는지를 식별하는 새로운 소프트웨어 포렌식 문제를 정의했습니다.
대규모 벤치마크 데이터셋 구축:
- 규모: 총 91,804 개의 코드 샘플.
- 모델: DeepSeek, Claude, Qwen, ChatGPT (4 개 주요 LLM).
- 언어: C, Go, Java, Python (4 개 프로그래밍 언어).
- 설정: 주석 포함 (w/ comments) 과 주석 미포함 (w/o comments) 두 가지 시나리오로 구성.
- LeetCode의 2,869 개 알고리즘 문제를 기반으로 생성되어 다양한 난이도와 도메인을 포함합니다.
DCAN 프레임워크 제안: 작업 의미와 모델 스타일을 명시적으로 분리하는 디커플링 (Disentanglement) 기반 아키텍처를 통해 기존 방법론보다 우수한 성능을 달성했습니다.

4. 실험 결과 (Experimental Results)

4.1 생성적 고유성 (Generative Distinctiveness)

서로 다른 LLM 들은 동일한 작업을 수행하더라도 코드 길이 (Verbosity), 식별자 길이 (Lexical Density), 네이밍 컨벤션 (Snake_case vs CamelCase), 구조적 깊이 (Indentation) 등에서 일관된 스타일적 차이를 보였습니다.
주석 (Comments) 의 양, 배치 (Inline vs Block), 설명 스타일에서도 모델별 고유한 패턴이 발견되었습니다.

4.2 속성 추적 성능 (Attribution Feasibility)

기본 설정 (Plain, 주석 없음): DCAN 은 평균 F1-Score **92.94%**를 기록하여 기존 베이스라인 (GPTSniffer: 89.15%, CodeGPTSensor: 76.38%) 을 크게 상회했습니다.
주석 포함 설정 (Comment): 자연어 주석이 추가된 경우, DCAN 의 성능은 **98.38%**까지 향상되었습니다. 이는 LLM 의 자연어 설명 스타일도 강력한 속성 신호임을 시사합니다.
난이도 및 도메인: 단순한 작업 (Easy) 보다 복잡한 작업 (Hard) 에서 오히려 성능이 더 높게 나타났습니다. 복잡한 작업일수록 모델별 구현 선택의 차이가 더 뚜렷하게 드러나기 때문입니다.

4.3 메커니즘 유효성 검증 (Ablation Study)

분리 효과: 모델 고유 정보 ( $h_{spec}$ ) 만을 사용할 때 가장 높은 성능을 보인 반면, 공통 정보 ( $h_{com}$ ) 만으로는 무작위 추측 수준 (약 25%) 의 성능만 보였습니다. 이는 DCAN 이 성공적으로 스타일 지문을 분리해냈음을 증명합니다.
t-SNE 시각화: 분리된 공간에서 모델별 클러스터가 명확히 구분되는 반면, 공통 공간에서는 모델 간 경계가 모호하게 나타났습니다.

4.4 강건성 및 일반화 (Robustness & Generalization)

데이터 효율성: 학습 데이터가 10% 로 줄어든 상황에서도 DCAN 은 베이스라인 대비 압도적인 성능을 유지했습니다.
언어 간 일반화 (Zero-shot): 훈련된 언어 (예: C, Java, Python) 로 학습하여 보지 못한 언어 (Go) 에 대해 테스트했을 때 높은 정확도를 보였습니다. 특히 주석이 포함된 경우, 문법적 차이에도 불구하고 자연어 스타일의 유사성으로 인해 Python 과 같은 언어에서도 93% 이상의 정확도를 달성했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 생성 코드의 출처 추적에 있어 기능적 의미와 스타일적 지문을 분리하는 것이 핵심임을 증명했습니다.

실무적 가치: 소프트웨어 보안 (취약점 추적), 지적 재산권 관리 (라이선스 위반 확인), 사고 조사 (Incident Investigation) 등에서 생성된 코드의 원천을 투명하게 추적할 수 있는 기반을 마련했습니다.
기술적 혁신: 단순한 패턴 매칭을 넘어, 표현 학습 (Representation Learning) 과 대비 학습 (Contrastive Learning) 을 결합하여 모델 고유의 '디지털 지문'을 효과적으로 추출하는 새로운 패러다임을 제시했습니다.
향후 연구: 구축된 대규모 데이터셋과 DCAN 프레임워크는 향후 LLM 생성 콘텐츠의 책임성 (Accountability) 과 거버넌스를 위한 중요한 벤치마크가 될 것입니다.

요약하자면, 이 연구는 **"LLM 이 만든 코드는 마치 인간의 필적처럼 고유한 스타일적 지문을 가지고 있으며, 이를 분리해내면 어떤 모델이 코드를 작성했는지 매우 정확하게 추적할 수 있다"**는 것을 입증했습니다.