Each language version is independently generated for its own context, not a direct translation.

🌊 PMARK: AI 가 쓴 글을 찾아내는 '보이지 않는 지문'

이 논문은 인공지능 (AI) 이 쓴 글과 사람이 쓴 글을 구별하는 새로운 기술을 소개합니다. 특히, AI 가 글을 다시 쓰거나 (Paraphrasing) 다듬을 때에도 그 흔적이 사라지지 않도록 하는 **'강력한 디지털 지문'**을 만드는 방법을 제안합니다.

이 기술을 **'PMARK'**라고 부르는데, 기존 방식의 문제점을 해결하고 더 똑똑하고 안전한 방법을 제시합니다.

🤔 왜 이런 기술이 필요할까요?

지금 AI 는 글을 아주 잘 씁니다. 하지만 AI 가 쓴 글이 진짜인지 가짜인지 구별하기 어렵다는 문제가 생겼습니다.

저작권 문제: AI 가 쓴 글을 사람이 쓴 것처럼 팔 수 있습니다.
허위 정보: AI 가 만든 가짜 뉴스가 퍼질 수 있습니다.

그래서 연구자들은 AI 가 글을 쓸 때 **보이지 않는 '수영장' (Watermark)**을 남기려고 노력해 왔습니다. 하지만 기존 기술들은 두 가지 큰 약점이 있었습니다.

글의 맛을 망친다 (Distortion): AI 가 글을 쓸 때, 특정 단어를 강제로 고르도록 하면 글이 어색해지거나 자연스러움이 떨어집니다. (마치 맛있는 요리에 색소만 넣은 것처럼요.)
쉽게 지워진다 (Fragile): 누군가 AI 가 쓴 글을 다른 말로 바꿔서 (재작성) 다시 쓰면, 그 '수영장' 흔적이 사라져버립니다.

💡 PMARK 의 핵심 아이디어: "의미 있는 문장"에 도장을 찍자!

기존 기술은 단어 하나하나에 도장을 찍었습니다. 하지만 PMARK 는 문장 전체를 하나의 단위로 봅니다.

🎨 비유 1: 단어 vs 문장

기존 방식 (단어 단위): 글을 쓸 때마다 "빨간색 단어"를 골라 넣습니다. 하지만 누군가 글을 다듬어서 "빨간색 단어"를 "파란색 단어"로 바꾸면 흔적이 사라집니다.
PMARK 방식 (문장 단위): 문장 전체의 **의미 (Semantic)**를 보고 도장을 찍습니다. 문장의 뜻이 같다면, 단어가 바뀌어도 도장은 그대로 남습니다.

🔍 PMARK 가 어떻게 작동할까요? (세 가지 마법)

PMARK 는 세 가지 핵심 기술을 섞어서 작동합니다.

1. 🎯 '가상 나침반' (Proxy Function)

PMARK 는 AI 가 쓸 다음 문장을 예측할 때, 미리 정해진 **무작위 나침반 (벡터)**을 사용합니다.

비유: AI 가 글을 쓸 때, 마치 "북쪽을 향한 문장"과 "남쪽을 향한 문장"을 구분하듯이, 문장의 방향을 수치로 측정합니다.
이 나침반을 통해 문장이 특정 기준 (예: 중위수) 에 해당하는지 확인합니다.

2. 🛡️ '다중 보안 문' (Multi-Channel Constraints)

기존 방식은 문장을 한 번만 검사했습니다. 하지만 PMARK 는 **여러 개의 나침반 (채널)**을 동시에 사용합니다.

비유: 한 개의 자물쇠만 있는 금고는 쉽게 뚫립니다. 하지만 4 개의 자물쇠를 동시에 잠그면 훨씬 안전합니다.
PMARK 는 문장이 4 개의 서로 다른 나침반 기준을 모두 통과해야만 '수영장'이 찍힌 문장으로 인정합니다. 이렇게 하면 글이 조금 변형되어도 (재작성되어도) 흔적이 남습니다.

3. 🎭 '자연스러운 선택' (Distortion-Free)

가장 중요한 점은 글의 질을 해치지 않는다는 것입니다.

비유: 기존 방식은 "이 단어만 써야 해!"라고 강요해서 글이 어색해졌습니다. 하지만 PMARK 는 "이 문장들이 모두 자연스럽지만, 그중에서 나침반 기준을 맞는 문장을 골라줘"라고 합니다.
수학적으로 증명했듯이, 이 방식은 AI 가 원래 쓰려던 글의 분포를 그대로 유지하면서 도장만 남깁니다. 마치 투명한 잉크로 도장을 찍는 것과 같습니다.

🚀 PMARK 의 성과: 무엇이 달라졌나요?

논문에서 실험한 결과, PMARK 는 기존 기술들보다 압도적으로 뛰어났습니다.

재작성 공격에도 강함: GPT 나 다른 AI 가 글을 완전히 다듬어서 다시 써도, PMARK 는 90% 이상의 확률로 "이건 AI 가 쓴 글이야!"라고 찾아냅니다. (기존 기술들은 50% 미만으로 떨어지기도 했습니다.)
글의 자연스러움 유지: 글이 어색해지지 않아서, 사람이 읽어도 AI 가 쓴 줄 모를 정도로 자연스럽습니다.
빠른 속도: 문장을 고르는 데 드는 계산 비용이 적어서 실제 서비스에 적용하기 좋습니다.

📝 한 줄 요약

PMARK 는 AI 가 쓴 글에 "의미 있는 문장" 단위로 투명한 지문을 찍는 기술로, 글이 아무리 다듬어져도 흔적이 사라지지 않고, 글의 맛도 그대로 유지합니다.

이 기술은 앞으로 AI 가 만든 콘텐츠가 넘쳐나는 세상에서, 진짜와 가짜를 구별하고 저작권을 보호하는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 급속한 발전으로 인해 AI 생성 텍스트의 추적 가능성과 저작권 보호가 중요한 과제로 대두되었습니다. 기존 텍스트 워터마킹 기술은 주로 토큰 (token) 단위로 작동하지만, 이는 의미론적 공격 (예: 문장 재구성, 패러프레이징) 에 매우 취약합니다.

이를 해결하기 위해 의미 수준 워터마킹 (Semantic-Level Watermarking, SWM) 이 제안되었으나, 기존 방법론 (예: SemStamp) 은 다음과 같은 심각한 한계를 가지고 있습니다:

왜곡 (Distortion): 기존 SWM 은 '거부 샘플링 (rejection sampling)' 방식을 사용하여 유효한 의미 영역의 문장만 선택합니다. 이는 원래 LLM 의 분포를 왜곡시켜 생성된 텍스트의 품질 (유창성, 자연스러움) 을 저하시킵니다.
이론적 보장 부재: 왜곡이 없는 (distortion-free) 생성에 대한 강력한 이론적 보장이 부족합니다.
희소성 (Sparsity): 단일 채널만 사용할 경우 워터마킹 증거가 희소하여, 공격자가 문장을 변형하면 탐지율이 급격히 떨어집니다.

2. 방법론 (Methodology)

저자들은 프록시 함수 (Proxy Function, PF) 개념을 도입하여 SWM 을 분석하는 새로운 이론적 프레임워크를 제시하고, 이를 기반으로 PMARK라는 새로운 방법을 제안합니다.

핵심 개념: 프록시 함수 (Proxy Function)

문장을 스칼라 값 (실수) 으로 매핑하는 함수 $F: \Sigma^* \to \mathbb{R}$ 를 정의합니다.
PMARK 에서는 문장 임베딩과 사전 정의된 랜덤 벡터 (Pivot Vector) 간의 코사인 유사도를 프록시 함수로 사용합니다.

PMARK 의 주요 구성 요소

다중 채널 제약 (Multi-Channel Constraints):
- 단일 채널의 취약점을 해결하기 위해 직교하는 여러 개의 벡터 (채널) 를 사용합니다.
- 각 채널마다 프록시 점수를 계산하고, 이를 통해 워터마킹 증거의 밀도를 높입니다. 이는 패러프레이징 공격에 대한 강인성을 크게 향상시킵니다.
왜곡 없는 샘플링 (Distortion-Free Sampling):
- 온라인 버전 (Online PMARK): 생성 시, 후보 문장 집합을 샘플링한 후 프록시 함수 값의 중앙값 (Median) 을 동적으로 추정합니다. 이 중앙값을 기준으로 집합을 반으로 나누고, 랜덤 시드에 따라 한쪽을 선택합니다.
  - 이론적 증명: 이 과정은 원래 LLM 의 분포와 통계적으로 동일하게 유지되므로 (평균화 시), 왜곡이 없음 (Distortion-Free) 이 수학적으로 보장됩니다.
- 오프라인 버전 (Offline PMARK): 동적 중앙값 추정의 계산 비용을 줄이기 위해, 고차원 공간에서 랜덤 벡터가 거의 항상 직교한다는 성질 (Concentration of Measure) 을 활용하여 중앙값을 0으로 고정합니다. 이는 생성 및 탐지 시 추가적인 샘플링 없이도 작동하도록 하여 효율성을 극대화합니다.
소프트 z-테스트 (Soft-z-Test) 탐지:
- 생성 시와 탐지 시의 중앙값 추정 오차를 완화하기 위해, 임계값 ( $\delta$ ) 과 평활화 인자 ( $K$ ) 를 도입한 부드러운 카운팅 방식을 사용합니다.
- 최종적으로 모든 채널과 문장에 걸친 증거를 집계하여 z-통계량을 계산하고, 이를 통해 워터마크 존재 여부를 판단합니다.

3. 주요 기여 (Key Contributions)

통일된 이론적 프레임워크: 프록시 함수를 도입하여 기존 SWM 방법론들을 통합적으로 분석하고, 성능 평가의 이론적 기초를 마련했습니다.
희소성 문제 해결: SWM 의 취약점이 워터마킹 증거의 희소성에 기인함을 규명하고, 다중 채널 제약을 통해 이를 해결했습니다.
최초의 왜곡 없는 SWM: 이론적으로 보장된 왜곡 없는 (Distortion-Free) 의미 수준 워터마킹 방법론을 최초로 제안했습니다.
실용적 효율성: 온라인 버전은 높은 강인성을, 오프라인 버전은 낮은 계산 비용 (토큰 소비량) 을 제공하여 실제 배포 가능성을 높였습니다.

4. 실험 결과 (Results)

OPT-1.3B 와 Mistral-7B 모델을 사용하여 C4 및 BOOKSUM 데이터셋에서 다양한 토큰 수준 및 의미 수준 워터마킹 기법과 비교 평가되었습니다.

강인성 (Robustness):
- GPT-3.5-turbo, Parrot, Pegasus 등을 이용한 패러프레이징 공격에서 기존 최상위 기법 (SemStamp 등) 대비 **14.8% ~ 44.6%**까지 탐지율 (TPR@1%) 이 향상되었습니다.
- 단어 수준 공격 (삭제, 동의어 치환) 에 대해서도 기존 SWM 들이 취약했던 것과 달리, PMARK 는 98% 이상의 높은 탐지율을 유지했습니다.
텍스트 품질 (Text Quality):
- Perplexity (PPL) 지표를 통해 텍스트 품질을 측정했을 때, PMARK 는 기존 방법들보다 낮은 PPL 값을 기록하여 더 자연스러운 텍스트를 생성했습니다. (예: Mistral-7B 기준 PPL 4.37~4.71)
- 특히 온라인 버전은 왜곡이 거의 없음을 입증했습니다.
효율성 (Efficiency):
- 기존 최상위 의미 수준 워터마킹 기법 대비 토큰 소비량이 약 20% 수준으로 감소했습니다. (오프라인 버전은 더 낮은 소비량)

5. 의의 및 결론 (Significance)

PMARK 는 AI 생성 텍스트 탐지 분야에서 다음과 같은 중요한 의의를 가집니다:

품질과 강인성의 트레이드오프 해소: 기존에는 워터마크 강인성을 높이면 텍스트 품질이 떨어지는 문제가 있었으나, PMARK 는 이론적으로 왜곡을 제거하면서도 높은 강인성을 달성했습니다.
실용적 배포 가능성: 오프라인 버전의 도입으로 계산 비용을 획기적으로 줄여, 실제 산업 환경에서의 적용을 가능하게 했습니다.
새로운 패러다임: 프록시 함수와 다중 채널 개념을 도입함으로써, 향후 더 발전된 의미 수준 워터마킹 연구의 기초를 제공했습니다.

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints