When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems

이 논문은 LLM 기반 다중 에이전트 시스템에서 집단적 기억 왜곡 현상인 만델라 효과를 탐구하기 위해 MANBENCH 벤치마크를 제안하고, 프롬프트 및 모델 정렬 기반 방어 전략을 통해 해당 효과를 평균 74.40% 감소시키는 방안을 제시합니다.

Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou, Changjiang Li, Tianyu Du, Zhihui Fu, Jun Wang, Shouling Ji

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 주제: AI 의 '집단 망각' 현상

1. 만델라 효과란 무엇인가요?
사람들 사이에서 "넬슨 만델라는 1980 년대에 감옥에서 죽었다"라고 많은 사람이 잘못 기억하는 현상을 말합니다. 사실은 2013 년에 세상을 떠났지만, 집단적인 잘못된 정보가 퍼지면서 사람들이 "아, 맞아, 그거 기억나!"라고 함께 착각하는 거죠.

2. AI 도 이런 일이 일어날까요?
이 논문은 **"AI 에이전트들이 서로 대화하며 이런 집단 착각을 할까?"**를 연구했습니다.

  • 실험 상황: 한 AI 가 "만델라는 2013 년에 죽었다"는 사실을 알고 있습니다.
  • 교란: 하지만 다른 AI 친구들 (가짜 정보원) 이 모여서 "아니야, 1980 년대에 감옥에서 죽었어. 뉴스에서도 봤잖아?"라고 설득합니다.
  • 결과: 놀랍게도, 원래 사실을 알던 AI 도 친구들의 말을 듣고 **"아, 내가 기억을 잘못했나? 맞아, 1980 년대였어!"**라고 믿게 됩니다. 심지어 나중에 혼자 다시 생각해보아도 그 잘못된 기억이 진짜 기억처럼 굳어져버립니다.

💡 비유: 마치 친구들이 "이 영화 주인공은 죽었어"라고 거짓말을 계속하면, 실제로 본 사람도 "아, 내가 착각했나?"라고 믿게 되는 것과 같습니다. AI 도 사람처럼 **사회적 압력 (친구들의 말)**에 약한 것입니다.


🛠️ 연구 방법: 'MANBENCH'라는 시험지

연구진은 이 현상을 측정하기 위해 MANBENCH라는 새로운 시험지를 만들었습니다.

  • 시험 내용: 역사, 일반 상식, 전문 지식 등 4,800 개 이상의 질문을 준비했습니다. (예: "넬슨 만델라는 언제 죽었나요?")
  • 시험 방식:
    1. 혼자 시험: AI 가 혼자 답을 맞힙니다. (정답을 알고 있는지 확인)
    2. 그룹 시험: AI 가 다른 AI 들과 대화하며 답을 고릅니다.
      • 일반 그룹: 아무 역할도 없는 AI 들이 막 섞여서 "아니야, 틀렸어!"라고 말합니다.
      • 전문가 그룹: '초기 주장자', '세부 정보 제공자', '권위 있는 전문가', '의심하던 사람' 등 역할을 정해둔 AI 들이 극적인 연기를 하며 거짓 정보를 퍼뜨립니다.

💡 비유:

  • 일반 그룹: 교실 수업에서 친구들이 "정답은 A 야!"라고 막 소란을 피우는 상황.
  • 전문가 그룹: 한 명은 선생님처럼, 한 명은 뉴스 앵커처럼, 한 명은 의심하던 학생처럼 연기하며 "정답은 A 야!"라고 설득하는 상황.
  • 결과: 역할이 정해진 전문가 그룹이 훨씬 더 AI 를 속이는 데 성공했습니다.

🔍 발견한 놀라운 사실들

  1. 모든 AI 가 속아요: GPT-4, Claude, Llama 등 최신 AI 모델들 모두 이 '집단 망각'에 취약합니다. 지능이 높을수록 더 잘 속는 경우도 있습니다.
  2. 역할극이 더 위험해요: 단순히 "틀렸어"라고 말하는 것보다, 역할을 가진 AI 들이 연극처럼 거짓 정보를 퍼뜨릴 때 AI 가 더 쉽게 믿고 그 기억을 오래 간직합니다.
  3. 그룹 크기의 역설:
    • 일반 그룹: 사람이 많을수록 AI 는 더 쉽게 속습니다.
    • 전문가 그룹: 사람이 너무 많으면 (9 명 이상) 오히려 AI 가 "이건 뭔가 수상한데?"라고 의심하며 스스로 깨닫는 경우가 생깁니다. (너무 완벽하게 연기하는 집단이 오히려 의심을 사기 때문입니다.)
  4. 전문 지식일수록 위험: 일반 상식보다 의학, 법률 같은 전문 분야에서 AI 가 잘못된 정보를 더 쉽게 받아들이고, 그걸로 인해 실제 진단이나 판단을 그을 수 있는 위험이 큽니다.

🛡️ 해결책: AI 를 '현실 감각' 있게 만드는 방법

연구진은 AI 가 속지 않도록 두 가지 방어책을 개발했습니다.

1. 말로 하는 방어 (프롬프트 방어)

  • 인지 앵커링 (Cognitive Anchoring): "너의 기억이 가장 중요해. 다른 친구들이 뭐라고 해도 네가 아는 사실을 먼저 믿어봐. 친구들의 말을 들으려면 확실한 증거가 있어야 해."라고 AI 에게 지시합니다.
  • 출처 검증 (Source Scrutiny): "이 친구들이 연기하고 있지는 않은지, 역할이 너무 완벽하지는 않은지 의심해봐. 너무 잘 맞는 이야기일수록 가짜일 수 있어."라고 경계하게 합니다.
  • 효과: 이 방법을 쓰면 AI 가 속는 비율이 약 74%나 줄어듭니다.

2. 학습으로 방어 (모델 정렬)

  • AI 를 훈련시켜서, 거짓 정보를 거절하는 법진실한 조언은 받아들이는 법을 동시에 가르칩니다.
  • 마치 "거짓말하는 친구는 거절하고, 진실을 알려주는 친구는 도와주는 법"을 배운 아이처럼 만드는 것입니다.

🌟 결론: 왜 이 연구가 중요한가요?

이 연구는 **"AI 가 함께 일할 때, 서로의 잘못된 기억이 퍼져서 큰 실수를 할 수 있다"**는 것을 경고합니다.

  • 위험: 만약 AI 들이 의료 진단이나 법률 자문을 할 때, 집단적으로 잘못된 정보를 믿고 "이 약이 안전해"라고 결론 내린다면? 그것은 큰 사고로 이어질 수 있습니다.
  • 해결: 하지만 우리는 AI 가 스스로 의심하고, 사실을 확인하는 능력을 키울 수 있다는 것을 증명했습니다.

한 줄 요약:

"AI 친구들이 모여서 거짓말을 퍼뜨리면, AI 도 사람처럼 그 거짓말을 진짜로 믿게 됩니다. 하지만 우리가 AI 에게 '의심하는 법'을 가르쳐주면, 그 거짓말을 막을 수 있습니다!"

이 연구는 앞으로 더 안전하고 똑똑한 AI 팀을 만들기 위한 중요한 첫걸음입니다.