Extracting Training Dialogue Data from Large Language Model based Task Bots

이 논문은 대규모 언어 모델 기반 작업 대화 시스템에서 기존 공격 기법의 한계를 극복하고 대화 상태 레이블을 높은 정밀도로 추출할 수 있는 새로운 데이터 추출 공격 기법을 제안하며, 이를 통해 학습 데이터의 기억 현상을 체계적으로 분석하고 완화 전략을 논의합니다.

Shuo Zhang, Junzhou Zhao, Junji Hou, Pinghui Wang, Chenxu Wang, Jing Tao

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 배경: AI 비서와 '기억력'의 비밀

우리가 여행 예약이나 식당 찾기를 도와주는 **AI 비서 (Task Bot)**를 생각해 보세요. 이 비서는 엄청난 양의 대화 데이터를 공부해서 (학습해서) 똑똑해졌습니다.

  • 문제점: AI 는 단순히 "어떻게 말해야 할지"만 배우는 게 아니라, **실제 사람들이 했던 대화 내용 (전화번호, 여행 일정, 선호도 등)**을 마치 자신의 기억처럼 저장해 둡니다.
  • 비유: 이 AI 비서는 마치 **모든 대화 내용을 외운 '기억력 좋은 학생'**과 같습니다. 그런데 이 학생이 시험을 볼 때, 정답을 외운 게 아니라 실제 시험지 (훈련 데이터) 를 그대로 베껴 쓰는 것과 같은 위험이 있습니다.

🕵️ 2. 공격 방법: 해커는 어떻게 비밀을 꺼낼까?

연구자들은 이 AI 비서의 약점을 공격하는 방법을 개발했습니다. 이를 **'데이터 추출 공격'**이라고 합니다.

🧱 기존 방법의 실패 (낡은 열쇠)

기존의 해킹 방법들은 AI 가 "자유롭게 글을 쓰게" 할 때만 통했습니다. 하지만 여행 예약 AI 는 자유로운 글쓰기가 아니라, **정해진 양식 (예: 식당 이름, 시간, 전화번호)**에 맞춰 답을 해야 합니다.

  • 비유: 마치 자물쇠가 달린 금고를 열려고 할 때, 기존 열쇠는 '자유로운 문장'을 여는 용도인데, 우리는 '정해진 숫자 조합'을 맞춰야 하는 금고입니다. 그래서 기존 방법은 금고를 열지 못했습니다.

🔓 새로운 방법: 맞춤형 열쇠 만들기

연구자들은 두 가지 새로운 열쇠를 만들었습니다.

  1. 스키마 가이드 (Schema-Guided Sampling) - "지도 없이 여행하지 않기"

    • AI 비서가 어떤 종류의 식당, 어떤 종류의 정보를 다룰 수 있는지 (스키마) 를 먼저 파악합니다.
    • 비유: 해커가 AI 에게 "어떤 식당을 추천해 줄 수 있어?"라고 물어보면서, AI 가 다룰 수 있는 **범위 (지도)**를 먼저 확인합니다. 그리고 그 범위 안에서만 "이 식당의 전화번호는 뭐야?"라고 특정 정보를 캐내려 합니다. 이렇게 하면 엉뚱한 대답 (예: "안녕하세요") 이 나오는 것을 막고, 진짜 비밀 (전화번호) 을 찾아낼 확률을 높입니다.
  2. 편향 제거 (Debiased Membership Inference) - "상식적인 추리"

    • AI 가 "안녕하세요" 같은 평범한 말은 자주 쓰지만, "123-4567" 같은 전화번호는 잘 쓰지 않습니다. 기존 방법은 평범한 말을 많이 기억해서 "이건 훈련 데이터에 있었어!"라고 잘못 판단했습니다.
    • 비유: 수사관이 된 해커는 "이 말이 정말로 훈련 데이터에 있었을까, 아니면 AI 가 그냥 상식으로 만든 말일까?"를 구별합니다. 평범한 말은 제외하고, **오직 훈련 데이터에서만 나올 법한 구체적인 정보 (전화번호, 날짜)**만 골라냅니다.

📊 3. 연구 결과: 얼마나 위험한가?

이 새로운 방법으로 실험을 해보니 놀라운 결과가 나왔습니다.

  • 단순한 정보: AI 는 전화번호이름 같은 구체적인 정보를 아주 잘 기억하고 있었습니다. 공격 성공률이 **최대 100%**에 달했습니다. (비유: 해커가 "이 식당 전화번호 알려줘"라고 하면, AI 가 "네, 123-4567 입니다"라고 바로 대답하며 비밀을 털어놓음)
  • 복잡한 정보: 전체 대화 흐름이나 여행 일정 전체를 다 훔쳐내는 것은 조금 더 어려웠지만, 그래도 70% 이상의 확률로 성공했습니다.
  • 결론: 우리가 AI 에게 "저녁에 7 시에 3 명으로 예약해 줘"라고 말하면, AI 는 그 정보를 잊어버린 게 아니라 기억하고 있다가, 해커가 특정 방식으로 물어보면 그 정보를 그대로吐出 (토출) 시킬 수 있습니다.

🛡️ 4. 해결책: 어떻게 방어할까?

연구자들은 이 문제를 막기 위한 두 가지 방법을 제안했습니다.

  1. 대화 전체로 학습하기 (Dialogue-Level Modeling):

    • 지금처럼 한 문장씩 잘게 나누어 학습하는 대신, 대화 전체를 하나의 이야기로 학습하게 합니다.
    • 비유: 학생이 "A 라는 말은 B 라는 말 다음에 온다"는 식으로 단편적으로 외우는 게 아니라, 동화책 전체를 한 번에 읽어서 맥락을 이해하게 합니다. 이렇게 하면 특정 전화번호를 따로 외우는 대신, 이야기 흐름을 이해하게 되어 기억력이 약해집니다.
  2. 값 복사 방지 (Value Copy Mechanism):

    • AI 가 새로운 정보를 만들 때, 사용자가 말한 그대로를 복사하게 하되, 그 정보가 없으면 빈칸으로 두게 합니다.
    • 비유: AI 가 "전화번호를 기억해"라고 외우는 대신, "사용자가 말한 전화번호를 그대로 적어주세요"라는 규칙을 따르게 합니다. 만약 사용자가 전화번호를 말하지 않았다면, AI 는 아무것도 쓰지 못하게 합니다. 이렇게 하면 AI 가 스스로 기억해서 비밀을 누설하는 것을 막을 수 있습니다.

💡 요약

이 논문은 **"AI 비서가 우리의 개인정보 (전화번호, 일정 등) 를 얼마나 잘 기억하고 있는지, 그리고 해커가 어떻게 그 기억을 훔쳐낼 수 있는지"**를 밝혀냈습니다.

  • 핵심: AI 는 우리가 생각한 것보다 훨씬 더 많은 개인 정보를 '암기'하고 있습니다.
  • 위험: 특정 질문을 하면 그 기억이 그대로 튀어나올 수 있습니다.
  • 해결: AI 가 정보를 '외우는' 방식이 아니라, '맥락을 이해하는' 방식으로 학습하게 바꾸면 이 위험을 줄일 수 있습니다.

이 연구는 앞으로 우리가 AI 를 더 안전하게 사용할 수 있도록, 보안 방어막을 어떻게 쌓아야 하는지 중요한 방향을 제시해 줍니다.