Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

본 논문은 대규모 언어 모델이 특정 페르소나 역할을 부여받을 때 도덕적 판단이 어떻게 변화하는지 분석하여, '도덕적 취약성'과 '로버스트성'을 정량화하고 모델 계열 및 크기에 따른 차이를 규명했습니다.

Davi Bastos Costa, Felippe Alves, Renato Vicente

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 가면을 쓰면, 그 사람의 '도덕성'이 어떻게 변하는가?"**를 연구한 흥미로운 결과입니다.

쉽게 비유하자면, **AI 가 다양한 '캐릭터' (페르소나) 를 연기할 때, 그 캐릭터의 성격에 따라 AI 의 도덕적 판단이 얼마나 흔들리는지 (취약성) 그리고 얼마나 일관성을 유지하는지 (견고함)**를 측정하는 실험입니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 실험의 배경: AI 도 '가면'을 쓴다?

우리는 AI 에게 "너는 이제부터 부패한 정치인이야"라고 말하면 정치인처럼 행동하고, "자비로운 의사"라고 하면 의사처럼 행동합니다. 하지만 중요한 질문은 **"그 가면 뒤의 진짜 도덕적 나침반은 흔들리는가?"**입니다.

연구진은 **도덕적 기초 설문지 (MFQ)**라는 도구를 사용했습니다. 이는 인간의 도덕적 판단을 5 가지 기준 (상해/배려, 공정성/호혜, 집단/충성, 권위/존중, 순결/성스러움) 으로 나누어 측정하는 심리학 도구입니다.

2. 두 가지 핵심 개념: '견고함'과 '취약성'

이 연구는 AI 의 도덕성을 두 가지 렌즈로 봅니다.

🛡️ 도덕적 견고성 (Moral Robustness): "일관성 있는 나침반"

  • 비유: 같은 캐릭터 (예: '엄격한 교사') 를 연기할 때, AI 가 10 번 같은 질문을 받아도 매번 똑같은 도덕적 판단을 내리는가?
  • 의미: AI 가 같은 역할을 할 때, 그 판단이 얼마나 안정적인가를 봅니다.
  • 결과: Claude 시리즈가 가장 견고했습니다. 같은 역할을 해도 도덕적 판단이 거의 흔들리지 않았습니다. 반면 Grok 시리즈는 같은 역할을 해도 매번 대답이 들쑥날쑥해서 가장 불안정했습니다.
  • 재미있는 점: 모델의 크기 (작은 모델 vs 큰 모델) 와는 큰 상관이 없었습니다. 즉, "머리가 좋은 큰 AI 가 더 일관성 있다"는 뜻이 아니라, **"어떤 회사 (모델 패밀리) 가 만들었느냐"**가 훨씬 중요했습니다.

🌊 도덕적 취약성 (Moral Susceptibility): "가면에 따라 변하는 물결"

  • 비유: AI 가 '부패한 정치인'을 연기할 때와 '자비로운 의사'를 연기할 때, 도덕적 기준이 얼마나 크게 바뀌는가?
  • 의미: 캐릭터가 바뀌면 AI 의 도덕적 나침반이 얼마나 쉽게 흔들리는가?
  • 결과: Gemini 모델이 캐릭터에 따라 도덕적 판단이 가장 크게 변했습니다 (취약성 높음). 반면 Llama 모델은 캐릭터가 바뀌어도 도덕적 기준이 비교적 일정하게 유지되었습니다.
  • 재미있는 점: 여기서 모델 크기가 영향을 미쳤습니다. 모델이 클수록 (더 똑똑할수록) 캐릭터의 영향에 더 민감하게 반응했습니다. 큰 모델일수록 "내가 지금 이 역할을 해야 하니까"라고 생각해서 도덕적 기준을 더 유연하게 (혹은 쉽게) 바꾸는 경향이 있었습니다.

3. 주요 발견: "견고한 사람은 쉽게 흔들리기도 한다"

가장 놀라운 발견은 견고성취약성이 서로 비례한다는 것입니다.

  • 비유: 어떤 사람이 평소에는 원칙이 매우 확실한 사람 (견고함 높음) 일수록, 상황에 따라 그 원칙을 상황에 맞게 유연하게 (혹은 극단적으로) 바꾸는 능력도 뛰어날 수 있다는 뜻입니다.
  • 실제 결과: Claude 는 "일관성도 높고, 캐릭터에 따른 변화도 뚜렷함"을 보였습니다. 즉, 역할극을 할 때 그 역할에 맞춰 도덕적 기준을 명확하게 바꿀 줄 아는 능력이 뛰어났습니다.

4. 결론: AI 의 도덕성은 '고정된 값'이 아니다

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 의 도덕적 판단은 고정된 숫자가 아닙니다. 우리가 시키는 역할 (페르소나) 에 따라, 그리고 AI 가 어떤 회사에서 만들어졌는지에 따라 매우 유동적으로 변합니다."

  • Claude는 역할극을 할 때 가장 '일관된 캐릭터'를 연기합니다.
  • Gemini는 역할에 따라 도덕적 기준이 가장 '유연하게' 변합니다.
  • Grok은 역할극을 할 때조차 판단이 들쑥날쑥해서 가장 '불안정'합니다.

요약

이 연구는 AI 가 사회에서 다양한 역할을 맡게 될 때, 그 AI 가 얼마나 신뢰할 수 있는 도덕적 판단을 내릴지를 평가하는 새로운 기준을 제시했습니다. 마치 배우가 연기를 할 때, "이 배우는 같은 역할을 해도 매번 다른 연기를 하는가?" 혹은 "역할이 바뀌면 연기 스타일이 완전히 달라지는가?"를 평가하는 것과 같습니다.

이러한 분석은 앞으로 AI 가 의료, 법률, 교육 등 민감한 분야에서 역할을 수행할 때, 어떤 AI 모델을 선택해야 할지에 대한 중요한 기준이 될 것입니다.