Topic-Based Watermarks for Large Language Models

이 논문은 기존 워터마킹 기법의 한계를 극복하기 위해, 어휘를 주제별 토큰 집합으로 분할하여 의미적으로 정렬된 토큰을 '그린리스트'로 선택함으로써 생성 품질을 유지하면서 변형 공격에 강한 경량의 주제 기반 워터마킹 방식을 제안합니다.

Alexander Nemecek, Yuzhou Jiang, Erman Ayday

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌊 AI 가 쓴 글에 '보이지 않는 물방울'을 띄우다: 주제 기반 워터마킹 (TBW) 설명

이 논문은 인공지능 (LLM) 이 쓴 글이 인간이 쓴 것과 구별하기 어려워진다는 문제점을 해결하기 위해, 새롭고 가벼운 '워터마킹 (수표)' 기술을 제안합니다.

기존의 방법들은 너무 무거워서 글이 어색해지거나, 해킹 (변형) 에 쉽게 깨지는 단점이 있었는데요. 이 논문은 "글의 주제를 알고, 그 주제에 맞는 단어들을 살짝 밀어주는" 방식을 통해 이 문제를 해결했습니다.

다음은 이 기술을 일상적인 비유로 쉽게 설명한 내용입니다.


1. 문제: AI 가 쓴 글은 '가짜'인지 '진짜'인지 알 수 없다? 🤔

지금 AI 가 쓴 글은 인간이 쓴 글과 거의 구별이 안 될 정도로 자연스럽습니다. 하지만 이 때문에 가짜 뉴스, 표절, 저작권 침해 같은 문제가 생길 수 있고, AI 가 AI 가 쓴 글을 계속 학습하면 지능이 떨어지는 '모델 붕괴' 현상도 걱정됩니다.

우리는 "이 글이 AI 가 썼는지 어떻게 알 수 있을까?" 라는 질문을 던집니다.

2. 기존 방법의 한계: 너무 거칠거나, 너무 약하다 🛠️

  • 기존 방법 1 (무작위 선택): AI 가 글을 쓸 때, 사전에 있는 단어 중 '초록색' 단어와 '빨간색' 단어를 무작위로 나누어, '초록색' 단어를 더 자주 쓰게 합니다.
    • 비유: 마치 주사위를 굴려서 특정 숫자가 나오면 그 단어를 쓰는 것과 같습니다.
    • 단점: AI 가 글을 조금만 바꿔도 (예: "고양이"를 "냥이"로 바꿈) 이 신호가 사라져버립니다. (약함)
  • 기존 방법 2 (복잡한 수정): 글을 다시 한 번 다듬거나 복잡한 계산을 거칩니다.
    • 비유: 거대한 공장을 가동해서 글을 만드는 것과 같습니다.
    • 단점: 속도가 너무 느리고, 글이 어색해집니다. (무거움)

3. 이 논문의 해결책: "주제 (Topic) 에 맞는 단어"를 선택하자! 🎯

이 논문이 제안한 TBW(주제 기반 워터마킹) 는 다음과 같이 작동합니다.

🏷️ 비유 1: '주제별 단어 장바구니' 만들기

우선 AI 의 사전 (모든 단어) 을 주제별로 분류된 장바구니에 담습니다.

  • 스포츠 장바구니: 골, 경기, 코치, 공, 득점...
  • 의학 장바구니: 병원, 백신, 주사, 간호사, 바이러스...
  • 기술 장바구니: 서버, 네트워크, 이메일, 키보드...

📝 비유 2: "오늘의 메뉴"에 맞는 장바구니를 꺼내다

사용자가 "축구 경기 결과"라고 입력하면, AI 는 **"스포츠"**라는 주제를 인식합니다.
그럼 AI 는 스포츠 장바구니에 있는 단어들을 다른 단어들보다 약간 더 많이 쓰도록 유도합니다.

  • 핵심 아이디어: "무작위로" 단어를 고르는 게 아니라, **"글의 내용 (주제) 에 자연스럽게 어울리는 단어"**를 골라서 워터마크를 넣는 것입니다.
  • 결과: 글이 자연스럽고 (유창함), 하지만 AI 가 쓴 글이라는 '보이지 않는 흔적'은 남습니다.

4. 왜 이것이 혁신적인가? 🌟

✅ 1. 자연스러움 유지 (Fluency)

기존 방법은 무작위로 단어를 고르다 보니 글이 어색해질 수 있었습니다. 하지만 이 방법은 주제에 맞는 단어를 고르기 때문에, 글이 훨씬 자연스럽습니다.

  • 비유: 요리를 할 때, 재료 (단어) 를 무작위로 섞는 게 아니라, 메뉴 (주제) 에 맞는 재료를 고르는 것과 같습니다. 맛이 훨씬 좋습니다.

✅ 2. 변형 공격에도 강함 (Robustness)

사람이 글을 다시 쓰거나 (개사), 단어를 바꿔도 워터마크가 살아남습니다.

  • 이유: "고양이"를 "냥이"로 바꿔도, 둘 다 동물 (주제) 장바구니에 속해 있기 때문입니다. AI 는 여전히 '동물' 관련 단어를 많이 썼다는 흔적을 남깁니다.
  • 비유: 물방울이 물속에 섞여 있다면, 물을 조금만 흔들어도 사라지지만, **물고기 (주제)**가 있다면 물이 흔들려도 그 물고기는 여전히 거기에 있습니다.

✅ 3. 가볍고 빠름 (Lightweight)

별도의 복잡한 공정을 거치지 않고, 글을 쓰는 순간 자연스럽게 적용됩니다.

  • 비유: 스마트폰 카메라에 필터를 씌우는 것처럼 가볍습니다. 별도의 무거운 장비를 쓸 필요가 없습니다.

5. 어떻게 찾아낼까? (탐지 방법) 🔍

AI 가 쓴 글을 발견하려면, "이 글이 어떤 주제의 단어들을 가장 많이 썼는지" 확인합니다.

  • 만약 "스포츠" 장바구니의 단어들이 예상보다 훨씬 많이 쓰였다면? -> "아, 이건 AI 가 쓴 글이군!" 하고 판단합니다.
  • 이 논문은 주제 추정이 실패할 경우를 대비해, 모든 주제를 다 확인해보고 가장 확신이 가는 주제를 찾는 최강의 탐지 방법도 제안했습니다.

📝 한 줄 요약

"AI 가 글을 쓸 때, 글의 주제에 맞춰 자연스러운 단어들을 살짝 '밀어주어' AI 가 썼다는 흔적을 남기는, 가볍고 강력한 새로운 기술입니다."

이 기술은 AI 가 쓴 글을 구별하면서도 글의 품질을 떨어뜨리지 않아, 앞으로 AI 가 생성한 콘텐츠의 출처를 밝히는 데 큰 역할을 할 것으로 기대됩니다.