Large-scale online deanonymization with LLMs

이 논문은 대규모 언어 모델 (LLM) 을 활용하여 구조화되지 않은 온라인 텍스트 데이터만으로 사용자의 익명성을 대규모로 탈피하는 공격 기법을 제시하고, 기존 비 LLM 기반 방법론보다 훨씬 높은 정밀도와 재현율로 익명성 보호의 실효성이 무너졌음을 입증했습니다.

Simon Lermen, Daniel Paleka, Joshua Swanson, Michael Aerni, Nicholas Carlini, Florian Tramèr

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: ChatGPT 같은 AI) 이 어떻게 인터넷상의 익명 계정을 찾아내어 실명을 밝힐 수 있는지"**에 대한 충격적인 연구 결과입니다.

기존에 우리는 "인터넷에서 가명 (닉네임) 을 쓰면 안전하다"고 믿어왔습니다. 하지만 이 논문은 **"AI 가 등장하면서 그 안전장치는 더 이상 작동하지 않는다"**고 경고합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🕵️‍♂️ 핵심 비유: "수천 개의 가짜 가면 중에서 진짜 얼굴 찾기"

예전에는 익명 계정을 추적하는 일이 수사관 (사람) 이 밤을 새우며 손으로 하나하나 단서를 모으는 일이었습니다.

  • 과거의 방식: "이 사람은 '스타워즈'를 좋아하고, '서울'에 살며, '강아지'를 키운다고 썼네? 아, 저 사람일지도 몰라."라고 수천 개의 프로필을 눈으로 훑으며 추측해야 했습니다. 시간이 너무 오래 걸려서 보통은 포기하거나, 아주 중요한 대상 (범죄자 등) 만 추적했습니다.

하지만 이제 AI 가 그 일을 대신합니다.

  • 새로운 방식: AI 는 수백만 개의 프로필을 순간적으로 스캔합니다. 그리고 "이 사람이 쓴 글의 문체, 좋아하는 영화, 실수로 흘린 정보들을 조합하면, 이 가짜 가면 뒤에 숨겨진 진짜 얼굴은 99% 확률로 A 씨야!"라고 정확히 맞춰냅니다.

🧩 이 연구가 보여준 3 가지 놀라운 사실

연구진은 AI 를 이용해 세 가지 다른 상황을 시뮬레이션했습니다.

1. "가상의 친구를 찾아라" (Hacker News → LinkedIn)

  • 상황: 익명 게시판 (Hacker News) 에 글을 쓰는 사람의 실명이 담긴 프로필 (LinkedIn) 을 찾아내는 미션입니다.
  • 결과: AI 는 **67%**의 확률로 성공했습니다. 사람이 몇 시간씩 걸려야 할 일을 AI 는 몇 분 만에 해냈습니다.
  • 비유: "이 친구가 쓴 글에서 '스타벅스 커피'와 '강아지 이름'을 힌트로 삼아, 수백만 명 중 그 친구가 쓴 이력서를 찾아낸 것"입니다.

2. "다른 곳의 같은 사람 찾기" (레딧 커뮤니티 간 연결)

  • 상황: 같은 사람이 '영화'를 논하는 커뮤니티와 '공포영화'를 논하는 커뮤니티에 각각 다른 닉네임으로 활동하고 있을 때, 두 계정이 같은 사람인지 찾아내는 것입니다.
  • 결과: 기존 방식은 거의 0% 에 가까웠지만, AI 를 쓰면 **약 45%**까지 성공률이 올라갔습니다.
  • 비유: "한 사람은 A 카페에서 '맛있는 피자'를 이야기하고, B 카페에서 '맛없는 피자'를 이야기할 때, 두 사람이 같은 사람인지 AI 가 글의 '맛깔'을 분석해 알아맞히는 것"입니다.

3. "시간을 거슬러 찾기" (과거 vs 현재)

  • 상황: 1 년 전의 익명 계정과 1 년 후의 익명 계정이 같은 사람인지 찾아내는 것입니다. (이때는 관심사가 바뀌고, 쓰는 말투도 달라질 수 있어 매우 어렵습니다.)
  • 결과: AI 는 여전히 30~40% 이상의 확률로 성공했습니다.
  • 비유: "어릴 적에 쓴 일기와 성인이 된 후 쓴 일기를 비교해서, 두 사람이 같은 사람인지 알아맞히는 것"인데, AI 는 그 미세한 '손글씨' 같은 특징까지 찾아냅니다.

⚠️ 왜 이것이 위험한가요? (핵심 메시지)

이 연구의 결론은 매우 간단하지만 무섭습니다.

"인터넷에서 익명성을 유지한다는 것은 이제 더 이상 의미가 없습니다."

  • 비용의 변화: 예전에는 익명 탈출 (Deanonymization) 이 비싸고 힘든 일이었습니다. 하지만 AI 덕분에 이제 누구나, 아주 저렴하게 이 일을 할 수 있게 되었습니다.
  • 실제 피해: 악의적인 사람들이 이 기술을 쓰면:
    • 활동가나 고발자의 신원이 폭로될 수 있습니다.
    • 스토킹이 더 정교해질 수 있습니다.
    • 기업이나 정부가 익명 사용자를 추적해 감시할 수 있습니다.

🛡️ 우리는 어떻게 해야 할까요?

논문은 "데이터를 아예 공개하지 말라"는 극단적인 해결책보다는, 우리의 인식과 규칙을 바꿔야 한다고 말합니다.

  1. 사용자: "닉네임만 쓰면 안전해"라고 생각하지 마세요. 당신이 쓴 글 하나하나가 당신의 신원을 드러내는 단서가 될 수 있습니다.
  2. 플랫폼 (네이버, 레딧 등): 사용자 데이터를 무제한으로 공개하는 정책은 위험할 수 있으니 다시 생각해야 합니다.
  3. 사회: AI 시대에 '프라이버시'가 무엇인지, 어떻게 지켜야 할지 새로운 규칙을 만들어야 합니다.

📝 한 줄 요약

"과거에는 익명 계정을 찾아내는 일이 '수사관 한 명이 밤을 새우는 일'이었다면, 이제는 'AI 가 수백만 개의 가면을 순식간에 벗겨내는 일'이 되었습니다. 우리는 더 이상 인터넷에서 완전히 숨을 수 없습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →