Membership Inference Attacks on Tokenizers of Large Language Models

이 논문은 대규모 언어 모델 (LLM) 의 프라이버시 위험을 평가하는 새로운 공격 벡터로 토크나이저를 제시하고, 이를 통한 멤버십 추론 공격의 취약점을 규명하며 대응 방안을 제안합니다.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 주제: "인공지능이 어떤 책으로 배웠는지 알아내는 새로운 방법"

1. 기존 문제: "거인"을 직접 조사하기엔 너무 무겁다

지금까지 인공지능 (LLM) 이 어떤 데이터를 가지고 학습했는지 확인하려면, 그 거대한 인공지능 모델 자체를 분석해야 했습니다.

  • 비유: 마치 거대한 도서관 (LLM 모델) 에 들어가서, 그 도서관이 어떤 책 (데이터) 을 빌려 읽었는지 확인하려는 것과 같습니다.
  • 문제점: 도서관이 너무 크고 (수백 조 개의 데이터), 책장 정리가 엉망이라서 (데이터 불일치), 정확한 책을 찾기 위해 도서관 전체를 다시 짓는 비용이 너무 비쌉니다. 그래서 기존 연구들은 정확한 결론을 내기 힘들었습니다.

2. 새로운 발견: "자물쇠" (Tokenizer) 를 조사하라!

연구팀은 거대한 도서관 전체를 조사할 필요 없이, **도서관의 '입구'와 '열쇠'**만 보면 된다는 사실을 발견했습니다. 이를 **'토크나이저 (Tokenizer)'**라고 합니다.

  • 비유: 토크나이저는 문장을 작은 조각 (토큰) 으로 잘게 부수는 가위이자, 그 조각들을 번호표에 붙이는 스탬프입니다.
    • 예를 들어, "안녕하세요"라는 문장을 "안", "녕", "하", "세", "요"로 쪼개거나, "안녕"을 하나의 특별한 번호로 만드는 역할을 합니다.
  • 왜 중요한가? 이 '가위와 스탬프'는 인공지능이 배운 데이터의 특징을 가장 잘 보여주는 곳입니다. 만약 특정 책 (데이터) 에서 자주 나오는 독특한 단어가 있다면, 그 가위와 스탬프는 그 단어를 특별하게 번호를 매겨서 기억해 둡니다.

3. 공격 방법: "누구의 스탬프가 누구의 책과 일치할까?"

해커는 이 '스탬프'를 이용해 인공지능이 어떤 책을 학습했는지 추리합니다. 연구팀은 5 가지 방법을 제안했는데, 그중 두 가지를 쉽게 설명하면 다음과 같습니다.

  • 방법 A: "스탬프의 겹침 확인" (Vocabulary Overlap)

    • 상황: 해커는 가상의 '스탬프 세트'를 여러 개 만들어 봅니다.
    • 추리: "만약 인공지능이 'A 책'을 학습했다면, A 책에 나오는 독특한 단어가 스탬프에 찍혀 있을 거야."
    • 결과: 실제 인공지능의 스탬프와 가상의 A 책 스탬프를 비교했을 때, 독특한 단어들이 많이 겹친다면, "아! 이 인공지능은 A 책을 학습했구나!"라고 맞힙니다.
    • 효과: 매우 정확도가 높습니다.
  • 방법 B: "자주 나오는 단어의 빈도수 분석" (Frequency Estimation)

    • 상황: 스탬프를 만드는 과정은 '자주 나오는 단어'부터 먼저 번호를 매깁니다.
    • 추리: "만약 'A 책'이 학습 데이터에 없었다면, A 책에特有한 단어는 아주 드물게 나타날 거야. 그래서 스탬프에 번호가 붙지 않았을 거야."
    • 결과: 하지만 실제 스탬프를 보니, A 책의 독특한 단어들이 의외로 번호를 받아서 존재합니다. 이는 "A 책이 학습 데이터에 꼭 포함되어 있었기 때문"이라는 강력한 증거가 됩니다.
    • 장점: 이 방법은 훨씬 빠르고 효율적입니다.

4. 놀라운 사실: "커질수록 더 위험해진다"

인공지능이 더 똑똑해지려면 (규모가 커지면), 단어 조각 (토큰) 을 더 많이 만들어야 합니다.

  • 비유: 도서관이 커질수록 더 많은 책 (데이터) 을 다루게 되고, 그 책들에서 나오는 독특한 단어 (비밀) 가 스탬프에 더 많이 찍히게 됩니다.
  • 결론: 인공지능이 더 강력해질수록, 이 '스탬프'를 통해 학습한 비밀을 캐내는 것은 더 쉬워집니다.

5. 방어책: "희귀한 단어는 지워버리기"

이런 공격을 막기 위해 연구팀은 방어책을 제안했습니다.

  • 방어 방법: 스탬프를 만들 때, 아주 드물게 나오는 단어 (희귀한 단어) 는 아예 번호를 매기지 않고 버린다.
  • 대신: 이렇게 하면 인공지능이 문장을 잘게 쪼개는 효율이 조금 떨어집니다. (비유: "안녕하세요"를 5 조각으로 쪼개야 하는데, 3 조각만 쪼개야 해서 글자 수가 늘어날 수 있음).
  • 결론: 보안을 위해 약간의 효율을 포기해야 합니다.

💡 요약 및 시사점

이 논문은 **"인공지능의 거대한 몸체 (모델) 를 조사할 필요 없이, 그 입구의 작은 도구 (토크나이저) 만 조사해도 학습한 비밀을 알아낼 수 있다"**는 것을 처음 증명했습니다.

  • 경고: 우리가 매일 쓰는 AI 가 저작권이 있는 책이나 개인의 비밀 데이터를 학습했을 때, 그 흔적이 이 '스탬프'에 남을 수 있습니다.
  • 해결: AI 개발자들은 이 '스탬프'를 만들 때, 너무 독특한 단어들을 필터링하거나 암호화 (차동 프라이버시) 하는 기술을 도입해야 합니다.

즉, **"거인 (AI) 의 발자국 (토크나이저) 을 보면 그가 어디를 다녀왔는지 (학습 데이터) 알 수 있다"**는 것이 이 연구의 핵심 메시지입니다.