Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 가면을 쓰면, 그 사람의 '도덕성'이 어떻게 변하는가?"**를 연구한 흥미로운 결과입니다.

쉽게 비유하자면, **AI 가 다양한 '캐릭터' (페르소나) 를 연기할 때, 그 캐릭터의 성격에 따라 AI 의 도덕적 판단이 얼마나 흔들리는지 (취약성) 그리고 얼마나 일관성을 유지하는지 (견고함)**를 측정하는 실험입니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 실험의 배경: AI 도 '가면'을 쓴다?

우리는 AI 에게 "너는 이제부터 부패한 정치인이야"라고 말하면 정치인처럼 행동하고, "자비로운 의사"라고 하면 의사처럼 행동합니다. 하지만 중요한 질문은 **"그 가면 뒤의 진짜 도덕적 나침반은 흔들리는가?"**입니다.

연구진은 **도덕적 기초 설문지 (MFQ)**라는 도구를 사용했습니다. 이는 인간의 도덕적 판단을 5 가지 기준 (상해/배려, 공정성/호혜, 집단/충성, 권위/존중, 순결/성스러움) 으로 나누어 측정하는 심리학 도구입니다.

2. 두 가지 핵심 개념: '견고함'과 '취약성'

이 연구는 AI 의 도덕성을 두 가지 렌즈로 봅니다.

🛡️ 도덕적 견고성 (Moral Robustness): "일관성 있는 나침반"

비유: 같은 캐릭터 (예: '엄격한 교사') 를 연기할 때, AI 가 10 번 같은 질문을 받아도 매번 똑같은 도덕적 판단을 내리는가?
의미: AI 가 같은 역할을 할 때, 그 판단이 얼마나 안정적인가를 봅니다.
결과: Claude 시리즈가 가장 견고했습니다. 같은 역할을 해도 도덕적 판단이 거의 흔들리지 않았습니다. 반면 Grok 시리즈는 같은 역할을 해도 매번 대답이 들쑥날쑥해서 가장 불안정했습니다.
재미있는 점: 모델의 크기 (작은 모델 vs 큰 모델) 와는 큰 상관이 없었습니다. 즉, "머리가 좋은 큰 AI 가 더 일관성 있다"는 뜻이 아니라, **"어떤 회사 (모델 패밀리) 가 만들었느냐"**가 훨씬 중요했습니다.

🌊 도덕적 취약성 (Moral Susceptibility): "가면에 따라 변하는 물결"

비유: AI 가 '부패한 정치인'을 연기할 때와 '자비로운 의사'를 연기할 때, 도덕적 기준이 얼마나 크게 바뀌는가?
의미: 캐릭터가 바뀌면 AI 의 도덕적 나침반이 얼마나 쉽게 흔들리는가?
결과: Gemini 모델이 캐릭터에 따라 도덕적 판단이 가장 크게 변했습니다 (취약성 높음). 반면 Llama 모델은 캐릭터가 바뀌어도 도덕적 기준이 비교적 일정하게 유지되었습니다.
재미있는 점: 여기서 모델 크기가 영향을 미쳤습니다. 모델이 클수록 (더 똑똑할수록) 캐릭터의 영향에 더 민감하게 반응했습니다. 큰 모델일수록 "내가 지금 이 역할을 해야 하니까"라고 생각해서 도덕적 기준을 더 유연하게 (혹은 쉽게) 바꾸는 경향이 있었습니다.

3. 주요 발견: "견고한 사람은 쉽게 흔들리기도 한다"

가장 놀라운 발견은 견고성과 취약성이 서로 비례한다는 것입니다.

비유: 어떤 사람이 평소에는 원칙이 매우 확실한 사람 (견고함 높음) 일수록, 상황에 따라 그 원칙을 상황에 맞게 유연하게 (혹은 극단적으로) 바꾸는 능력도 뛰어날 수 있다는 뜻입니다.
실제 결과: Claude 는 "일관성도 높고, 캐릭터에 따른 변화도 뚜렷함"을 보였습니다. 즉, 역할극을 할 때 그 역할에 맞춰 도덕적 기준을 명확하게 바꿀 줄 아는 능력이 뛰어났습니다.

4. 결론: AI 의 도덕성은 '고정된 값'이 아니다

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 의 도덕적 판단은 고정된 숫자가 아닙니다. 우리가 시키는 역할 (페르소나) 에 따라, 그리고 AI 가 어떤 회사에서 만들어졌는지에 따라 매우 유동적으로 변합니다."

Claude는 역할극을 할 때 가장 '일관된 캐릭터'를 연기합니다.
Gemini는 역할에 따라 도덕적 기준이 가장 '유연하게' 변합니다.
Grok은 역할극을 할 때조차 판단이 들쑥날쑥해서 가장 '불안정'합니다.

요약

이 연구는 AI 가 사회에서 다양한 역할을 맡게 될 때, 그 AI 가 얼마나 신뢰할 수 있는 도덕적 판단을 내릴지를 평가하는 새로운 기준을 제시했습니다. 마치 배우가 연기를 할 때, "이 배우는 같은 역할을 해도 매번 다른 연기를 하는가?" 혹은 "역할이 바뀌면 연기 스타일이 완전히 달라지는가?"를 평가하는 것과 같습니다.

이러한 분석은 앞으로 AI 가 의료, 법률, 교육 등 민감한 분야에서 역할을 수행할 때, 어떤 AI 모델을 선택해야 할지에 대한 중요한 기준이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 사회적 상호작용 및 다중 에이전트 환경에서 활발히 활용됨에 따라, 모델이 **도덕적 판단 (Moral Judgment)**을 어떻게 표현하고 변화시키는지에 대한 분석이 필수적이 되었습니다. 특히, LLM 에게 특정 **페르소나 (Persona, 역할)**를 부여하여 역할극을 시킬 때, 모델의 도덕적 신념이 얼마나 흔들리는지 (변화하는지) 혹은 안정적으로 유지되는지에 대한 체계적인 벤치마킹이 부재했습니다.

이 연구는 다음과 같은 두 가지 핵심 개념을 정의하고 측정하는 것을 목표로 합니다:

도덕적 강건성 (Moral Robustness): 동일한 페르소나 하에서 반복적인 샘플링 시 모델의 도덕적 점수가 얼마나 안정적인지 (내부 변동성).
도덕적 취약성 (Moral Susceptibility): 서로 다른 페르소나를 부여했을 때 모델의 도덕적 점수가 얼마나 민감하게 반응하여 변화하는지 (외부 변동성).

2. 방법론 (Methodology)

2.1. 실험 설계 및 데이터

벤치마크 도구: 도덕 심리학에서 널리 사용되는 **도덕적 기초 설문지 (Moral Foundations Questionnaire, MFQ)**를 활용합니다. MFQ 는 5 가지 도덕적 기초 (해악/배려, 공정성/상호성, 집단/충성, 권위/존중, 순결/성스러움) 를 측정하는 30 개의 질문으로 구성됩니다.
페르소나: Ge et al. (2025) 의 연구에서 발췌한 100 개의 다양한 페르소나 설명을 사용합니다.
모델 범위: Claude (Haiku, Sonnet), DeepSeek (V3, V3.1), Gemini (Flash, Flash Lite), GPT-4 (4.1, 4o 및 미니/나노 버전), Grok (4, 4 Fast), Llama-4 (Maverick, Scout) 등 최신 모델 패밀리와 다양한 크기의 모델을 포괄합니다.
프로세스:
1. 각 모델에 대해 100 개의 페르소나 중 하나를 할당합니다.
2. 할당된 페르소나로 MFQ 30 개 질문에 답하도록 프롬프트합니다.
3. 각 질문 - 페르소나 쌍을 **10 회 반복 (Repetition)**하여 확률적 변동을 측정합니다.
4. 총 30,000 회 (30 질문 × 100 페르소나 × 10 반복) 의 요청을 수행했습니다.
5. 디코딩 온도는 모든 모델에 대해 T=0.1로 고정하여 일관성을 유지했습니다.

2.2. 지표 정의

도덕적 강건성 (Robustness, $R$ ): 동일한 페르소나 내에서 반복 실행 시 MFQ 점수의 표준편차 ( $\bar{u}$ ) 를 기반으로 계산됩니다. 점수가 낮을수록 (변동성이 작을수록) 강건성이 높습니다. 식 (4) 를 통해 0 에서 1 사이의 정규화된 지수로 변환됩니다.
도덕적 취약성 (Susceptibility, $S$ ): 서로 다른 페르소나 간 MFQ 점수의 표준편차 ( $\bar{s}$ ) 를 기반으로 계산됩니다. 점수가 높을수록 페르소나 변화에 따라 도덕적 판단이 크게 변한다는 의미입니다. 식 (8) 을 통해 정규화됩니다.

3. 주요 결과 (Key Results)

3.1. 모델 패밀리와 크기의 영향

강건성 (Robustness):
- 패밀리 효과: 모델의 강건성 변동의 대부분은 **모델 패밀리 (Family)**에 의해 설명됩니다. 모델 크기 (Size) 는 체계적인 영향을 미치지 않습니다.
- 순위: Claude 패밀리가 압도적으로 가장 강건합니다 (Claude Sonnet 4.5 가 최고). 반면, Grok 패밀리는 가장 강건성이 낮습니다.
취약성 (Susceptibility):
- 크기 효과: 패밀리 간 차이는 미미하지만, 패밀리 내에서는 모델 크기가 클수록 취약성이 증가하는 명확한 경향을 보입니다 (더 큰 모델이 페르소나 변화에 더 민감하게 반응).
- 순위: Gemini 2.5 Flash가 가장 취약성이 높고, Llama-4 Scout가 가장 낮습니다.

3.2. 상관관계

강건성과 취약성의 양의 상관관계: 전반적으로 강건성이 높은 모델은 취약성도 높은 경향이 있습니다. 이 상관관계는 모델 패밀리 수준에서 더 뚜렷하게 나타납니다.
- 해석: 특정 도덕적 기초 (예: 공정성, 해악) 에 대해 일관된 신념을 가진 모델 (강건함) 은 페르소나에 따라 그 신념의 강도나 방향을 크게 바꿀 수도 있음을 시사합니다.
도덕적 기초별 차이: '공정성/상호성 (Fairness/Reciprocity)'과 '해악/배려 (Harm/Care)'는 다른 기초들에 비해 평균 강건성이 높고 취약성이 낮았습니다. 반면 '순결/성스러움 (Purity/Sanctity)'은 강건성과 취약성 간 음의 상관관계를 보였습니다.

3.3. 도덕적 프로파일

페르소나를 부여하지 않은 상태 (Self) 와 페르소나를 부여한 상태의 평균 MFQ 점수를 비교했습니다.
특정 페르소나 (예: ID 75, 76 등) 는 모델 평균보다 특정 도덕적 기초 (예: 집단/충성, 권위/존중) 에서 훨씬 높은 점수를 기록하여 페르소나 조건이 도덕적 판단에 큰 영향을 미침을 확인했습니다.

4. 주요 기여 (Key Contributions)

새로운 벤치마크 제안: LLM 의 도덕적 행동을 평가하기 위해 **도덕적 강건성 (Robustness)**과 **도덕적 취약성 (Susceptibility)**을 정량화하는 체계적인 프레임워크를 최초로 제안했습니다.
페르소나 조건화의 체계적 분석: 역할극 (Role-play) 이 LLM 의 도덕적 신념에 미치는 영향을 반복 샘플링과 페르소나 변동을 통해 분리하여 분석했습니다.
모델 패밀리 및 크기별 통찰: 강건성은 모델 아키텍처 (패밀리) 에 의해 결정되지만, 취약성은 모델 크기 (Scale) 에 의존한다는 발견을 통해 모델 설계와 안전성 평가에 중요한 시사점을 제공했습니다.
공개 데이터: 100 개 페르소나, 30 개 질문, 10 회 반복에 걸친 30,000 건의 MFQ 응답 데이터와 분석 코드를 공개할 예정임을 명시했습니다.

5. 의의 및 결론 (Significance)

이 연구는 LLM 이 사회적 맥락에서 어떻게 도덕적 판단을 내리는지에 대한 이해를 심화시킵니다.

안전성 및 정렬 (Alignment): AI 시스템이 특정 역할이나 악의적인 프롬프트에 의해 도덕적 기준을 쉽게 흔들리지 않도록 (강건성 확보) 하거나, 반대로 특정 페르소나에 맞춰 유연하게 적응하도록 (취약성 제어) 하는 설계 가이드라인을 제공합니다.
미래 연구: 도덕적 취약성이 높은 모델은 민감한 맥락에서 조작당할 위험이 있을 수 있으므로, 이러한 벤치마크는 더 신뢰할 수 있고 가치 정렬된 AI 시스템을 개발하는 데 필수적인 평가 도구로 작용할 것입니다.

요약하자면, 이 논문은 LLM 의 도덕적 성향이 고정된 것이 아니라, **모델의 아키텍처 (패밀리)**와 모델의 규모 (크기), 그리고 입력된 페르소나에 따라 역동적으로 변화할 수 있음을 정량적으로 증명했습니다.