Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data

이 논문은 10 년 이상의 개인 메시징 데이터를 기반으로 다양한 LLM 시뮬레이션 기법을 평가한 결과, 친분 있는 지인에게는 현재 기술이 '개인 튜링 테스트'를 통과하지 못하지만, 언어 스타일과 개인적 의견에 따라 파인튜닝과 검색/메모리 기반 접근법 간에 명확한 성능 trade-off 가 존재함을 규명했습니다.

Minghao Guo, Ziyi Ye, Wujiang Xu, Xi Zhu, Wenyue Hua, Dimitris N. Metaxas

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 실험: "개별 튜링 테스트" (Individual Turing Test)

연구진은 10 년 이상의 개인적인 채팅 기록 (약 12,000 개의 대화) 을 가진 한 자원봉사자를 모셨습니다. 그리고 이 사람의 친구들 7 명에게 다음과 같은 게임을 시켰습니다.

게임 규칙:
"이 질문 (예: '대도시와 시골 중 어디가 더 좋아?') 에 대해 네 가지 답변이 있어. 이 중 진짜 친구가 쓴 답과 AI 가 흉내 낸 답이 섞여 있는데, 진짜 친구의 답을 찾아봐!"

이 테스트는 AI 가 단순히 '사람처럼' 말하는지 (일반 튜링 테스트) 가 아니라, 구체적인 '너'라는 사람을 얼마나 완벽하게 모방하는지 확인하는 것입니다.

📊 실험 결과: "친구 앞에서는 실패, 낯선 사람 앞에서는 성공"

놀라운 결과가 나왔습니다.

  1. 친구 ( Acquaintances) 가 평가했을 때:

    • 친구들은 AI 가 만든 답을 거의 다 틀렸습니다. 진짜 친구의 답변을 가장 잘 찾아냈습니다.
    • 즉, AI 는 친구들 눈에는 여전히 "가짜"로 보였습니다. 친구들은 그 사람의 말투, 습관, 과거의 사소한 기억까지 모두 알고 있기 때문에 AI 의 미묘한 뉘앙스 차이를 간파한 것입니다.
  2. 낯선 사람 (Strangers) 이 평가했을 때:

    • 반면, 그 사람을 모르는 낯선 사람들이 평가하자 AI 는 진짜 사람보다 더 좋은 점수를 받기도 했습니다.
    • AI 는 "사람처럼 자연스럽게" 대화하는 능력은 이미 매우 뛰어납니다. 하지만 그 사람이 가진 고유한 개성까지 완벽하게 재현하는 것은 아직 어렵다는 뜻입니다.

🛠️ AI 가 사람을 흉내 내는 3 가지 방법 (비유: 요리사)

연구진은 AI 가 사람을 흉내 내는 세 가지 방식을 비교했습니다.

  1. 파인튜닝 (Fine-tuning) = "말투를 외운 요리사"

    • AI 모델 자체를 그 사람의 말투로 학습시킵니다.
    • 장점: 말투, 이모지 사용, 짧은 문장 등 말하는 스타일은 매우 비슷합니다.
    • 단점: 그 사람의 과거 경험이나 구체적인 의견은 잘 기억하지 못해 내용이 빈약할 수 있습니다.
  2. 검색/기억 (RAG/Memory) = "수첩을 들고 있는 요리사"

    • AI 는 그 사람의 과거 대화 기록을 수첩 (기억) 에서 찾아서 답을 만듭니다.
    • 장점: "내가 좋아하는 영화는 뭐야?" 같은 구체적인 사실이나 의견을 정확히 말합니다.
    • 단점: 말투가 그 사람 특유의 스타일과 다를 수 있어 어색하게 느껴질 수 있습니다.
  3. 하이브리드 (Hybrid) = "말투를 외우고 수첩도 보는 요리사"

    • 위 두 가지를 합친 방법입니다.
    • 결과: 가장 잘했습니다. 말투도 비슷하고 내용도 정확해서 친구들이 가장 헷갈려 했습니다. 하지만 그래도 진짜 친구보다는 약간 떨어졌습니다.

⏳ 시간의 중요성: "최근 8 년이 골든 타임"

연구진은 과거의 기록을 얼마나 많이 넣어야 하는지 실험했습니다.

  • 최근 1~8 년의 대화: 기록을 많이 넣을수록 AI 의 성능이 좋아졌습니다.
  • 8 년을 넘어서면: 성능이 더 이상 오르지 않고 오히려 조금 떨어졌습니다.
  • 이유: 너무 오래된 기억 (10 년 전) 은 그 사람의 현재 성향과 달라서 오히려 혼란을 주기 때문입니다. 가장 최근의 기억이 가장 중요합니다.

💡 결론: AI 는 아직 '나'를 완벽하게 대체할 수 없다

이 연구는 우리에게 중요한 메시지를 줍니다.

  • 스타일 (말투) 과 내용 (의견) 은 따로 다뤄야 합니다. AI 는 말투를 배우는 것과 사실을 기억하는 것은 서로 다른 기술이 필요합니다.
  • 진짜 '나'는 친구들이 가장 잘 안다. 낯선 사람에게는 AI 가 완벽해 보일 수 있지만, 나를 잘 아는 친구 앞에서는 AI 의 가짜 냄새를 맡아냅니다.
  • 과거의 모든 기록이 좋은 것은 아니다. 너무 오래된 데이터는 오히려 방해가 될 수 있습니다.

한 줄 요약:

"지금의 AI 는 '사람처럼' 대화하는 데는 천재지만, '너'라는 특정 인격을 완벽하게 흉내 내는 데는 아직 친구들의 눈앞에서 들통나는 단계입니다."