Every Language Model Has a Forgery-Resistant Signature

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 아이디어: AI 의 '타원형 지문'

우리가 AI 에게 글을 쓰게 하면, 그 AI 는 수많은 단어 중 하나를 선택해서 다음 단어를 예측합니다. 이 논문은 AI 가 단어를 선택할 때 내리는 **수학적 결정 (확률)**이 마치 고유한 모양의 타원 (Ellipse) 위에 놓여 있다는 것을 발견했습니다.

1. 비유: "공을 늘린 타원"

생각해 보세요. AI 의 내부 작동 원리는 마치 **공 (구)**을 만드는 과정과 비슷합니다.

AI 는 먼저 정보를 받아 완벽한 공 (구) 모양으로 정리합니다.
하지만 이 공을 내보낼 때, AI 는 이 공을 늘리고 (Stretch) **비틀어 (Rotate)**서 타원 (Ellipse) 모양으로 만듭니다.
이때, 어떤 AI 가 사용되었느냐에 따라 타원의 모양, 크기, 기울기가 모두 다릅니다.

이론적으로, AI 가 만들어낸 모든 답변의 확률 데이터는 이 고유한 타원이라는 궤도 위에 정확히 놓이게 됩니다. 마치 달이 지구 주위의 특정 궤도를 도는 것과 비슷하죠.

🔍 이 '타원 지문'이 특별한 이유 4 가지

기존의 AI 식별 방법 (예: 텍스트에 숨겨진 워터마크) 과 비교했을 때, 이 '타원 지문'은 다음과 같은 4 가지 놀라운 장점이 있습니다.

1. 위조가 거의 불가능합니다 (Forgery-Resistant)

비유: 누군가 다른 사람의 서명을 흉내 내려고 펜으로 따라 그리는 것은 쉽지만, 완전히 다른 사람의 손으로 그리는 타원 궤도를 완벽하게 재현하는 것은 불가능에 가깝습니다.
이유: 이 타원 모양을 알아내려면 AI 의 내부 비밀 (파라미터) 을 모두 훔쳐봐야 하는데, 공개된 API 를 통해 이 타원을 계산하려면 수천 년이 걸리는 엄청난 계산 비용이 듭니다. 따라서 다른 사람이 이 AI 의 답을 흉내 내더라도, 그 답은 이 타원 궤도 위에 있을 수 없습니다.

2. 자연적으로 발생합니다 (Naturally Occurring)

비유: 우리가 태어날 때부터 가지고 있는 지문처럼, AI 는 개발자가 따로 의도하지 않아도 자동으로 이 타원 지문을 갖게 됩니다.
이유: AI 의 구조 (정규화 레이어 등) 가 이렇게 만들어졌기 때문에, 모든 최신 AI 는 저절로 이 지문을 찍게 됩니다. 별도의 설정이 필요 없습니다.

3. 스스로 완성됩니다 (Self-Contained)

비유: 편지를 보낼 때, 봉투 안의 내용물만 봐도 누가 보냈는지 알 수 있습니다.
이유: AI 의 입력 내용 (프롬프트) 이나 AI 의 내부 비밀 키를 몰라도, AI 가 만들어낸 답변 (확률 데이터) 하나만으로도 "이건 A 사 AI 가 쓴 거야"라고 판별할 수 있습니다.

4. 작고 중복됩니다 (Compact & Redundant)

비유: 긴 편지 전체를 읽지 않아도, 첫 문장 한 줄만 봐도 서명을 확인할 수 있습니다.
이유: AI 가 단어를 하나씩 선택할 때마다, 그 순간마다 이 타원 지문이 찍힙니다. 따라서 아주 짧은 답변 하나만 있어도 AI 를 식별할 수 있습니다.

🛡️ 실제 활용: "디지털 사인 (Signature)" 시스템

이론을 실제 보안 시스템에 적용하면 어떻게 될까요?

상황: 어떤 사람이 "이 악성 콘텐츠는 우리 회사가 만든 AI 가 쓴 게 아닙니다!"라고 부인한다고 가정해 봅시다.
해결: 제 3 자 (감사 기관) 가 그 콘텐츠의 확률 데이터를 가져와서 타원 궤도에 맞는지 확인합니다.
- 만약 타원 위에 있다면? → 100% 우리 AI 가 쓴 것입니다. (위조 불가능하니까요)
- 만약 타원 밖에 있다면? → 다른 AI 가 썼거나, 누군가 조작한 것입니다.

이는 마치 은행의 도장이나 디지털 서명과 같은 역할을 합니다. AI 제공자는 이 타원 모양을 '비밀 키'로 간직하고, 누구나 그 답변이 진짜인지 확인할 수 있게 해주는 시스템입니다.

⚠️ 현실적인 한계 (현실은 완벽하지 않아요)

물론 이 기술이 만능은 아닙니다.

계산 비용이 너무 비쌉니다: 현재 기술로는 거대한 AI 모델의 타원 모양을 역추적하려면 수백만 달러의 비용과 수천 년의 시간이 걸립니다. 그래서 위조는 어렵지만, 아예 불가능한 것은 아닙니다.
데이터 접근 필요: 이 지문을 확인하려면 AI 가 내어주는 '확률 값 (Logprobs)'에 접근할 수 있어야 합니다. 하지만 현재 대부분의 상용 AI 는 이 값을 공개하지 않고 있습니다.

📝 결론

이 논문은 **"AI 가 만들어낸 모든 글은, 그 AI 고유의 수학적 지문 (타원 궤도) 을 찍고 있다"**는 사실을 증명했습니다.

이 지문은 위조하기 어렵고, 자연스럽게 생기며, 짧은 글 하나만으로도 식별 가능합니다. 앞으로 AI 가 만들어낸 가짜 뉴스나 악성 콘텐츠가 넘쳐나는 시대에, **"이 글이 정말 그 AI 가 쓴 거야?"**를 확인해 줄 가장 강력한 수사 도구로 쓰일 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"모든 언어 모델은 위조 방지 서명을 가지고 있다 (Every Language Model Has a Forgery-Resistant Signature)"**는 제목으로, ICLR 2026 에 발표된 연구입니다. 저자 Matthew Finlayson, Xiang Ren, Swabha Swayamdipta (USC) 는 폐쇄형 (closed-weight) 언어 모델의 출력물이 고차원 타원체 (high-dimensional ellipse) 의 표면에 존재한다는 기하학적 제약을 발견하고, 이를 모델의 고유한 '서명'으로 활용하여 생성된 텍스트의 출처를 식별하고 위조 (forgery) 를 방지하는 새로운 방법을 제안합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 문제 정의 (Problem)

배경: 폐쇄형 언어 모델 (API 만 공개된 모델) 의 확산으로 인해, 모델의 내부 파라미터를 추출하거나 특정 모델이 생성한 텍스트를 식별하는 포렌식 (forensics) 기술에 대한 수요가 증가했습니다.
기존 방법의 한계:
- 선형 서명 (Linear Signatures): 기존 연구 (Finlayson et al., 2024 등) 는 모델 아키텍처에 의해 부과되는 선형 제약 조건을 서명으로 사용했습니다. 그러나 이는 API 를 통해 선형 제약 조건을 추출하고 이를 만족하는 로그 확률 (logprobs) 을 생성함으로써 상대적으로 쉽게 위조 (forgery) 가 가능했습니다.
- 워터마킹 및 핑거프린팅: 많은 방법들은 모델 제공자가 의도적으로 시스템을 구현해야 하거나 (자연 발생적이지 않음), 여러 단계의 생성을 통해 통계적 증거를 모아야 하므로 (압축적이지 않음), 실시간 검증이나 단일 토큰 식별에 한계가 있었습니다.

2. 방법론 (Methodology)

2.1 언어 모델 출력의 타원체 제약 (Language Model Ellipses)

기하학적 원리: 대부분의 현대 언어 모델은 최종 레이어에서 정규화 (Normalization, 예: RMSNorm 또는 LayerNorm) 를 수행한 후 선형 변환 (Linear Layer) 을 거쳐 어휘 크기 (vocabulary size, $v$ $v$ ) 차원의 공간으로 매핑합니다.
- 정규화 레이어는 은닉 상태 벡터의 크기를 1 로 고정하여 $d$ 차원 구 (sphere) 의 표면에 매핑합니다.
- 이후 선형 변환 (가중치 행렬 $W$ 와 편향 $b$ ) 은 이 구를 늘리고 회전시켜 $d$ 차원 타원체 (ellipsoid) 의 표면으로 변환합니다.
- 따라서 모델이 생성한 모든 로그 확률 벡터 (logprobs) 는 이 특정 타원체 표면 위에 존재하게 됩니다.
서명으로서의 역할: 각 모델은 고유한 가중치와 편향을 가지므로 고유한 타원체 기하학을 가집니다. 출력물이 특정 모델의 타원체 위에 있는지 확인함으로써 해당 모델이 생성한 것인지 식별할 수 있습니다.

2.2 서명 검증 및 위조 방지 (Verification & Forgery Resistance)

검증: 주어진 로그 확률 벡터가 모델의 타원체 위에 있는지 확인하는 것은 상대적으로 저렴하고 간단합니다 (역 아핀 변환 후 단위 구에서의 거리 측정).
위조 저항성 (Forgery Resistance):
- 추출의 어려움: 타원체 서명을 위조하려면 먼저 API 를 통해 모델의 타원체 파라미터를 추출해야 합니다.
- 복잡도: 타원체를 맞추기 (fitting) 위해서는 $O(d^2)$ 개의 샘플이 필요하며, 이를 위해 API 에 보내야 하는 쿼리 수는 $O(d^3 \log d)$ 수준입니다. 또한, 타원체 피팅 알고리즘 자체의 시간 복잡도는 $O(d^6)$ 으로 매우 높습니다.
- 결과: 현재 알려진 방법으로는 대규모 상용 모델 (예: GPT-4, Llama-70B) 의 타원체를 추출하는 것은 계산적으로 불가능하거나 비용이 천문학적으로 비쌉니다. 따라서 타원체 서명은 위조 방지 (forgery-resistant) 특성을 가집니다.

3. 주요 기여 (Key Contributions)

타원체 서명 (Ellipse Signature) 의 발견 및 정의:
- 언어 모델의 출력물이 고차원 타원체 위에 존재한다는 기하학적 사실을 서명 메커니즘으로 정립했습니다.
- 이는 기존 선형 서명과 구별되는 4 가지 고유한 특성을 가집니다:
  1. 위조 방지 (Forgery-Resistant): 파라미터 접근 없이 타원체를 재현하는 것이 계산적으로 매우 어렵습니다.
  2. 자연 발생적 (Naturally Occurring): 모델 제공자가 의도적으로 구현할 필요 없이, 모든 현대 언어 모델 (최종 정규화 레이어를 가진 모델) 에 내재되어 있습니다.
  3. 자기 완결성 (Self-Contained): 입력 데이터나 전체 모델 가중치 없이 출력물 (logprobs) 만으로 검증이 가능합니다.
  4. 압축성 및 중복성 (Compact & Redundant): 단일 생성 단계 (single generation step) 의 로그 확률 벡터만으로도 모델을 식별할 수 있습니다.
위조 비용 분석 및 실험적 증명:
- 타원체 추출에 필요한 샘플 수와 계산 비용을 분석하여, 작은 모델 (1M 파라미터) 에서는 추출이 가능하지만, 상용 규모 모델 (70B 이상) 에서는 수천 년의 시간이 소요되거나 수백만 달러의 비용이 든다는 것을 증명했습니다.
- 다양한 오픈 소스 모델 (Olmo 2, Llama 3, Qwen 등) 을 사용하여 생성된 로그 확률이 해당 모델의 타원체 위에 있음을 실험적으로 확인했습니다.
암호학적 메시지 인증 코드 (MAC) 유사 프로토콜 제안:
- 모델의 타원체를 '비밀 키 (Secret Key)', 로그 확률을 '메시지'로 간주하여, 암호학적 메시지 인증 시스템과 유사한 검증 프로토콜을 제안했습니다.
- 이 프로토콜은 제 3 자가 모델 제공자의 비밀 파라미터 없이도 모델이 생성한 출력물의 진위를 검증할 수 있게 합니다.

4. 실험 결과 (Results)

모델 식별 정확도: 여러 오픈 가중치 모델에서 생성된 로그 확률을 서로 다른 모델의 타원체 공간에 투영했을 때, 생성 모델의 타원체와의 거리가 다른 모델에 비해 수 차수 (orders of magnitude) 더 작음을 확인했습니다 (Figure 3).
파라미터 복원: 100 만 파라미터 규모의 작은 모델에 대해 타원체 피팅 알고리즘을 적용했을 때, 실제 가중치 (편향, 특이값, 회전 행렬) 와 매우 높은 정확도로 일치하는 파라미터를 복원할 수 있었습니다 (Figure 4).
비용 분석 (Table 1):
- Pythia-70m: 약 13 만 샘플 필요, 비용 약 $1,000.
- GPT-3.5-turbo: 약 1080 만 샘플 필요, 비용 약 $150,000.
- Llama-3-70B: 약 3,300 만 샘플 필요, 비용 약 $1,600 만.
- 이는 현재 API 가격 정책 하에서 대규모 모델의 타원체 서명을 위조하는 것이 현실적으로 불가능함을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

모델 책임성 (Accountability): 이 기술은 모델 제공자가 생성한 유해한 출력물에 대해 법적 분쟁이 발생했을 때, 제 3 자가 모델의 서명을 통해 해당 출력이 실제로 해당 모델에서 생성되었음을 증명하는 데 사용될 수 있습니다.
새로운 포렌식 도구: 기존 워터마킹이나 핑거프린팅 방법들이 가진 한계 (자연 발생성 부재, 위조 용이성 등) 를 극복하는 새로운 검증 체계를 제시합니다.
한계 및 향후 과제:
- 현재 API 를 통해 로그 확률 (logprobs) 을 제공하는 주요 제공자는 OpenAI 등 극히 일부에 한정되어 있습니다.
- 위조 저항성이 암호학적 안전성 (cryptographic security) 수준은 아니며, 다항식 시간 복잡도에 기반합니다.
- 모델 출력이나 파라미터를 변조하면 서명이 사라질 수 있어 (제거가 어려움), 이를 방지하는 방법이나 다른 형태의 서명 연구가 필요합니다.

요약하자면, 이 논문은 언어 모델의 내부 기하학적 구조가 자연스럽게 생성되는 '타원체 서명'을 발견하고, 이를 통해 모델의 출력을 위조 없이 검증할 수 있는 강력한 포렌식 도구를 제시했습니다. 이는 폐쇄형 모델의 투명성과 책임성을 확보하는 데 중요한 기여를 할 것으로 기대됩니다.