Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣且实用的问题：当一段代码是由人工智能（AI）写出来的，我们如何知道它具体是“哪位”AI 写的？

想象一下，如果世界上有四位著名的厨师（比如 ChatGPT、Claude、DeepSeek 和 Qwen），他们都能做出一模一样的“宫保鸡丁”（解决同一个编程问题）。虽然菜的味道（功能）是一样的，但每位厨师切菜的手法、放盐的习惯、甚至摆盘的细节（代码风格）都藏着他们独特的“指纹”。

这篇论文就是为了解决"AI 代码指纹识别"的问题。

以下是用通俗易懂的比喻和语言对这篇论文的解读：

1. 核心难题：为什么很难分辨？

现在的 AI 写代码太厉害了，它们都能写出功能完美的程序。

以前的做法：就像警察抓人，只问“这菜是人做的还是机器做的？”（二元检测）。
现在的挑战：警察需要知道“这菜到底是哪位厨师做的？”（多源归属）。
难点：因为大家做的都是“宫保鸡丁”，所以菜里的鸡肉、花生（核心逻辑）长得都一样。如果只看这些，根本分不清是谁做的。我们需要找到那些只有特定厨师才有的习惯。

2. 解决方案：DCAN（ disentangled 解耦网络）

作者提出了一个叫 DCAN 的新方法。它的核心思想可以用一个"去重分离"的比喻来理解：

想象你拿到一杯混合了果汁（任务逻辑）和墨水（AI 风格）的饮料。

果汁：不管是谁做的，宫保鸡丁都需要鸡肉和花生。这是所有 AI 共有的“任务逻辑”。
墨水：这是每个 AI 独特的“笔迹”。有的 AI 喜欢用长名字，有的喜欢用短名字；有的喜欢写很多注释，有的喜欢极简。

DCAN 的工作流程就像是一个神奇的“分离机”：

混合输入：把 AI 写的代码扔进去。
提取“果汁”：机器先分析出这段代码是做什么的（比如“计算斐波那契数列”），这部分是通用的，跟谁写的没关系。
分离“墨水”：机器把“果汁”从代码里抽走，剩下的就是纯粹的“墨水”——也就是只有特定 AI 才有的风格指纹。
识别身份：最后，机器只看剩下的“墨水”，就能准确判断出：“哦，这肯定是 Claude 写的，因为它喜欢用这种特定的变量命名方式。”

3. 他们做了什么实验？（建立了一个巨大的“指纹库”）

为了训练这个“分离机”，作者们做了一个超级大工程：

四位大厨：他们让四个最火的 AI（DeepSeek, Claude, Qwen, ChatGPT）干活。
四国语言：让它们用 Python, Java, C, Go 四种语言写代码。
两千多道题：从 LeetCode（编程题库）里找了 2800 多道不同的题目。
两种模式：
- 纯代码模式：只写代码，不写解释。
- 带注释模式：代码里夹杂着 AI 写的中文或英文解释。
成果：最终收集了 9 万多条 高质量的代码样本，建立了一个前所未有的“指纹数据库”。

4. 发现了什么秘密？（AI 的“性格”藏不住）

通过实验，作者发现 AI 们真的有自己的“性格”：

ChatGPT：有点像话痨，代码写得比较啰嗦，变量名喜欢用短单词。
Claude：喜欢用很长的、描述性很强的变量名，注释写得很有条理。
DeepSeek：喜欢用特定的函数库（比如栈操作），注释风格很具体。
Qwen：喜欢用蛇形命名法（snake_case），哪怕是在 Java 这种通常用驼峰命名的语言里。

最有趣的是：即使题目很难（Hard 模式），AI 们依然保持这些习惯。甚至当它们用不同的编程语言写代码时，那种“说话的口吻”和“写注释的风格”依然能暴露它们的身份。

5. 这个研究有什么用？

这就好比给软件世界装上了“防伪标签”：

安全审计：如果一段代码里有漏洞，我们可以立刻知道是哪个 AI 生成的，从而针对性地修复或排查。
版权保护：如果一家公司声称代码是自己写的，但其实是 AI 生成的，或者用了竞争对手的 AI 生成的，这个技术可以揭穿它。
事故调查：如果系统崩溃了，是哪家 AI 写的“坏代码”导致的？这个技术能迅速定位。

总结

这篇论文就像是在说：“别以为 AI 写的代码都长得一样，它们每个人都有自己的‘笔迹’。我们发明了一种新工具，能把代码里的‘任务内容’和‘作者风格’分开，从而像笔迹鉴定一样，精准地找出是哪个 AI 写的代码。”

这不仅让 AI 生成的代码有了“身份证”，也让未来的软件世界更安全、更透明。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DCAN (Disentangled Code Attribution Network) 的新框架，旨在解决 LLM 生成代码的来源归属（LLMCSA） 问题。随着大语言模型（LLM）在软件开发中的广泛应用，区分代码是由哪个具体模型生成的，对于软件治理、漏洞溯源、事故调查和版权合规至关重要。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

背景：现有的研究主要集中在区分“人类编写”与“机器生成”的代码（二元分类），但在实际场景中（如漏洞定级、许可证审计），需要进一步识别代码具体是由哪个 LLM（如 ChatGPT, Claude, DeepSeek, Qwen 等）生成的。
挑战：
- 语义纠缠：不同模型解决同一编程任务时，往往采用相似的算法逻辑和语法结构，导致代码在功能语义上高度相似。
- 指纹微弱：模型特有的风格（如命名习惯、注释风格、缩进深度等）往往被任务相关的强语义信号所掩盖。
- 缺乏基准：此前缺乏大规模、多语言、多模型的标准化数据集用于评估此类任务。
核心假设：代码表示中包含两类信息：
1. 源无关信息 (Source-Agnostic)：由任务决定的功能语义，不同模型间共享。
2. 源特定信息 (Source-Specific)：由模型架构、训练数据和解码策略决定的风格指纹，具有模型特异性。
- 有效归属的关键在于将这两类信息解耦。

2. 方法论 (Methodology)

论文提出了 DCAN 框架，其核心思想是通过表示解耦 (Representation Disentanglement) 来分离上述两类信息。

2.1 整体架构

特征提取 (Feature Extraction)：
- 使用预训练模型 UniXcoder 作为基础编码器，将代码片段映射为初始潜在表示 $h_{base}$ 。
- $h_{base}$ 同时包含了任务语义和模型风格信息。
解耦模块 (Disentanglement Module)：
- 源无关分量 ( $z_c$ / $h_{com}$ )：通过一个非线性投影网络（MLP）从 $h_{base}$ 中提取出所有模型共享的任务语义特征。
- 源特定分量 ( $z_s$ / $h_{spec}$ )：通过减法操作 $h_{spec} = h_{base} - h_{com}$ 获得。该分量旨在保留模型特有的风格指纹，去除任务语义干扰。
分类器：
- 仅使用解耦后的 源特定分量 ( $h_{spec}$ ) 输入到线性分类器中进行多类归属预测。

2.2 优化目标 (Loss Functions)

为了强制模型学习正确的解耦，设计了联合优化目标：

源分类损失 ( $\mathcal{L}_{cls}$ )：作用于 $h_{spec}$ ，确保其包含足够的模型区分度信息（交叉熵损失）。
表示一致性损失 ( $\mathcal{L}_{rc}$ )：作用于 $h_{com}$ 。对于同一任务但由不同模型生成的代码，强制它们的 $h_{com}$ 表示在余弦距离上尽可能接近。这确保了 $h_{com}$ 确实捕捉到了任务语义，从而迫使 $h_{spec}$ 专注于模型风格。
总损失： $\mathcal{L}_{total} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{rc}$ 。

3. 关键贡献 (Key Contributions)

任务定义：正式提出了 LLM 代码来源归属 (LLMCSA) 任务，填补了从二元检测向多源归属研究的空白。
数据集构建：构建了首个大规模 LLMCSA 基准数据集，包含 91,804 个代码样本。
- 模型：涵盖 4 个主流模型 (DeepSeek, Claude, Qwen, ChatGPT)。
- 语言：涵盖 4 种编程语言 (C, Go, Java, Python)。
- 设置：包含两种生成模式（无注释 Plain Setting 和有注释 Comment Setting）。
- 多样性：基于 LeetCode 任务，覆盖多种算法领域和难度等级。
框架创新：提出了基于解耦学习的 DCAN 框架，显式分离任务语义与模型风格，显著提升了归属准确率。
实证发现：证明了不同 LLM 即使在解决相同任务时，也存在稳定且可量化的生成风格差异（如代码冗长度、命名规范、注释密度等）。

4. 实验结果 (Results)

实验在自建的基准数据集上进行，对比了 GPTSniffer 和 CodeGPTSensor 等基线模型。

归属性能：
- Plain Setting (无注释)：DCAN 平均 F1 分数达到 92.94%，显著优于基线（GPTSniffer 为 89.15%）。
- Comment Setting (有注释)：引入注释后，DCAN 的平均 F1 分数进一步提升至 98.38%，表明注释中的自然语言风格也是强有力的归属信号。
解耦有效性 (Ablation Study)：
- 仅使用源无关分量 ( $h_{com}$ ) 的准确率仅为 24.89%（接近随机猜测），证明其不包含归属信息。
- 仅使用源特定分量 ( $h_{spec}$ ) 的准确率最高 (93.20%)，验证了解耦策略的有效性。
- t-SNE 可视化显示， $h_{spec}$ 空间中不同模型的样本形成了清晰的聚类，而 $h_{com}$ 空间则高度重叠。
鲁棒性与泛化：
- 数据效率：即使在仅使用 10% 训练数据的情况下，DCAN 仍保持高性能 (F1 88.03%)，优于基线。
- 跨语言泛化 (Zero-Shot)：在“留一语言” (LOLO) 设置下，DCAN 展现了良好的跨语言迁移能力。特别是在有注释设置下，跨语言准确率显著提升（例如训练在 C/Java/Go 上测试 Python 可达 93.48%），证明模型风格指纹在语言间具有部分通用性。
- 难度影响：有趣的是，在更难的任务（Hard）上，归属准确率往往更高，因为复杂任务更能放大模型间的实现风格差异。

5. 意义与影响 (Significance)

软件取证与治理：为软件供应链安全提供了新的工具，能够追溯恶意代码或漏洞的生成源头，明确责任归属。
版权与合规：帮助企业和开发者识别代码是否由特定模型生成，从而更好地管理知识产权和许可证合规风险。
方法论启示：证明了在代码分析中，将“做什么（语义）”与“怎么做（风格）”解耦是提升模型识别能力的关键路径。
资源开放：公开了大规模数据集和代码实现，为后续相关研究奠定了坚实基础。

总结：该论文通过构建高质量数据集和提出创新的解耦学习框架，成功证明了 LLM 生成的代码具有独特的“数字指纹”，并实现了高精度的多模型来源归属，为 AI 生成代码的可信治理提供了重要的技术支撑。

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

1. 核心难题：为什么很难分辨？

2. 解决方案：DCAN（ disentangled 解耦网络）

3. 他们做了什么实验？（建立了一个巨大的“指纹库”）

4. 发现了什么秘密？（AI 的“性格”藏不住）

5. 这个研究有什么用？

总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

2.1 整体架构

2.2 优化目标 (Loss Functions)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Leveraging GANs for citation intent classification and its impact on citation network analysis

Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings

Are you sure? Measuring models bias in content moderation through uncertainty

Markovian Transformers for Informative Language Modeling