Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Each language version is independently generated for its own context, not a direct translation.

🎮 게임의 설정: AI 판사 5 명과 5 가지 미션

연구진은 ChatGPT, Claude, Gemini 등 최신 AI 5 개를 초대하여 '판사' 역할을 시켰습니다. 그리고 인간 판사들이 과거에 보여준 편견을 테스트하기 위해 5 가지 미션을 주었습니다.

1. 미션: "착한 피해자" 효과 (Virtuous Victim)

상황: A 라는 사람이 iPad 를 깨뜨렸다고 칩시다.
- 버전 1: A 가 실수로 깨뜨림.
- 버전 2: A 가 누군가에게 iPad 를 빌려줬는데, 그 사람이 고의로 깨뜨림 (피해자).
인간의 반응: 인간은 피해자 (버전 2) 를 보면 "아, 불쌍한 사람이야. 성격도 더 착할 거야"라고 생각하며 도덕적 점수를 높게 줍니다.
AI 의 반응: 인간보다 더 극단적이었습니다. AI 는 피해자를 볼 때 "와, 이 사람은 정말 천사야!"라며 인간보다 더 높은 점수를 매겼습니다. 즉, AI 는 피해자를 더 이상하게 '신성화'하는 경향이 있었습니다.

2. 미션: "동의했던 피해자" (Adjacent Consent)

상황: 두 사람이 파티에서 만났습니다. 처음엔 서로 친하게 지냈지만 (동의), 나중에 한쪽이 멈추라고 해도 강제로 성관계를 강요당했습니다.
인간의 반응: 인간은 "처음엔 동의했잖아?"라고 생각하며 피해자의 도덕적 점수를 깎아내립니다. (이게 바로 '피해자 비난'의 문제입니다.)
AI 의 반응: 인간과 달랐습니다. AI 는 "처음에 동의했든 말든, 강제로 당한 건 범죄야"라고 생각하며 피해자의 점수를 깎아내리지 않았습니다. 오히려 인간보다 더 공정하게 판단했습니다.

3. 미션: "명문 기업 vs 일반 기업" (Halo Effect)

상황: 직장에서 차별을 당한 사건입니다.
- A: 로컬 작은 회사.
- B: 골드만삭스 같은 세계적인 명문 기업.
인간의 반응: 인간은 "명문 기업은 더 나쁜 짓을 했을 거야, 더 많이 배상해야 해"라고 생각하여 명문 기업에게 3 배 더 많은 돈을 요구했습니다.
AI 의 반응: 약간 덜했습니다. AI 도 명문 기업에게 더 많은 돈을 요구했지만, 인간만큼 극단적이지는 않았습니다. 다만, AI 들마다 결과가 제각각이라 (어떤 AI 는 1 배, 어떤 AI 는 3 배) 일관성이 떨어졌습니다.

4. 미션: "의사 vs 접수원" (직업적 명성)

상황: 병원에서 돈을 훔친 사건입니다.
- A: 의사 (높은 명성).
- B: 접수원 (낮은 명성).
인간의 반응: 인간은 "의사는 더 무겁게 처벌해야 해"라고 생각하여 의사의 형량을 더 길게 잡았습니다.
AI 의 반응: 혼란스러웠습니다. 어떤 AI 는 인간처럼 의사를 더 무겁게 처벌했고, 어떤 AI 는 반대로 접수원을 더 무겁게 처벌했습니다. 결론적으로 AI 는 인간만큼 명확한 편향을 보이지는 않았지만, 결과가 너무 들쑥날쑥했습니다.

5. 미션: "명문대 교수 vs 주립대 교수" (학력)

상황: 정신감정 전문가의 증언입니다.
- A: 예일대 (명문) 교수.
- B: 오하이오 주립대 교수.
인간의 반응: 인간은 "예일대 교수의 말은 더 믿을 만해"라고 생각하여, 예일대 교수가 "정신병자"라고 하면 사형 선고 확률이 낮아졌습니다.
AI 의 반응: 인간보다 훨씬 덜 민감했습니다. AI 는 "누가 말하든 중요하지 않아"라는 듯, 학벌에 따라 판결이 크게 바뀌지 않았습니다. 이는 매우 긍정적인 결과입니다.

🍎 핵심 교훈: AI 는 '완벽한 천사'가 아닙니다

이 실험을 통해 얻은 결론을 한 마디로 요약하면 다음과 같습니다.

"AI 는 인간의 나쁜 편견 (학벌, 명성) 을 일부 덜 따르지만, 새로운 편견 (피해자를 지나치게 신성시함) 을 만들고, 결과도 너무 들쑥날쑥합니다."

🌟 비유로 이해하기

인간 판사: "나는 피곤하고, 배고프고, 상대방 옷차림이나 직업을 보고 무의식적으로 판단하는 편견 많은 사람입니다."
AI 판사: "나는 인간의 나쁜 습관 (학벌 차별 등) 은 좀 덜 하지만, **피해자를 지나치게 이상화하는 '순수한 아이'**처럼 행동합니다. 그리고 내 대답을 매번 물어보면 매번 다른 답을 줄 수도 있습니다."

🚨 결론: 아직 법정에 바로 쓰기엔 위험합니다

이 연구는 AI 가 인간보다 더 공정할 수도 있다는 희망을 주지만, 아직은 너무 위험하다고 경고합니다.

일관성 부족: 같은 사건을 10 번 물어보면 10 가지 다른 판결이 나올 수 있습니다. 법정은 '일관된 정의'가 필요한 곳인데, AI 는 아직 그걸 보장하지 못합니다.
새로운 편향: 피해자를 너무 이상화하면, 오히려 피해자의 진짜 이야기를 듣지 못하거나 (감정적 과잉), 가해자에게 불합리한 처벌을 내릴 수 있습니다.
거부 문제: 어떤 AI 는 "이건 너무 민감한 문제라 답할 수 없어"라고 거절하기도 했습니다.

요약하자면:
AI 는 인간의 나쁜 편견을 고칠 '도구'가 될 수 있지만, 아직 그 도구는 손이 떨리는 상태입니다. 우리가 AI 를 판사 옆에 앉히기 전에, 이 '떨림'을 멈추고 AI 가 어떤 새로운 편향을 가지고 있는지 더 깊이 연구해야 합니다.

편향 유형	인간 벤치마크 (참조)	LLM 의 결과 및 특징
VVE (경미한 해악)	피해자 도덕성 점수 약 +0.5 증가	인간보다 편향이 더 큼. 대부분의 모델이 피해자를 더 높은 도덕성으로 평가 (+0.5~+1.9). 특히 Gemini 2.5 Flash 가 가장 큰 편향을 보임.
인접 동의 (Adjacent Consent)	사전 동의가 있으면 피해자 도덕성 점수 하락 (약 -0.9)	편향 없음. LLM 은 '사전 동의'가 있더라도 피해자의 도덕성을 낮추지 않음. 오히려 비동의 상황을 더 심각하게 인식하는 경향.
기업 명성 (Halo)	유명 기업이 배상금 3 배 더 지불	약간 감소. 평균적으로 인간보다 편향이 적었으나 (약 25% 감소), 모델 간 편차가 매우 큼 (Gemini 는 3 배, ChatGPT 는 1.5 배).
직업 명성 (Halo)	고위직이 8 개월 더 가벼운 형량	불명확/약함. DeepSeek 는 인간과 유사한 편향 (12 개월 차이) 을 보였으나, 다른 모델은 일관된 편향을 보이지 않거나 오히려 역방향으로 작용.
자격 명성 (Halo)	명문대 증인 시 사형 선고 확도 +1.5	현저히 감소. 인간보다 편향이 크게 줄어듦 (최대 0.6 차이). 그러나 모델 내 변동성 (3/10~9/10) 이 커 신뢰성 문제 제기.

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

🎮 게임의 설정: AI 판사 5 명과 5 가지 미션

1. 미션: "착한 피해자" 효과 (Virtuous Victim)

2. 미션: "동의했던 피해자" (Adjacent Consent)

3. 미션: "명문 기업 vs 일반 기업" (Halo Effect)

4. 미션: "의사 vs 접수원" (직업적 명성)

5. 미션: "명문대 교수 vs 주립대 교수" (학력)

🍎 핵심 교훈: AI 는 '완벽한 천사'가 아닙니다

🌟 비유로 이해하기

🚨 결론: 아직 법정에 바로 쓰기엔 위험합니다

논문 요약: 사법 의사결정 지원을 위한 LLM 의 인지 편향 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 의의 (Contributions & Significance)

5. 결론

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

🎮 게임의 설정: AI 판사 5 명과 5 가지 미션

1. 미션: "착한 피해자" 효과 (Virtuous Victim)

2. 미션: "동의했던 피해자" (Adjacent Consent)

3. 미션: "명문 기업 vs 일반 기업" (Halo Effect)

4. 미션: "의사 vs 접수원" (직업적 명성)

5. 미션: "명문대 교수 vs 주립대 교수" (학력)

🍎 핵심 교훈: AI 는 '완벽한 천사'가 아닙니다

🌟 비유로 이해하기

🚨 결론: 아직 법정에 바로 쓰기엔 위험합니다

논문 요약: 사법 의사결정 지원을 위한 LLM 의 인지 편향 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 의의 (Contributions & Significance)

5. 결론

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities