Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

이 논문은 GPT 모델의 세대 간 '공감 능력'은 통계적으로 유의미한 차이가 없으나, 위기 상황 감지 능력은 향상되고 조언의 안전성은 저하되는 등 안전성 태도가 변화했으며, 사용자들이 느끼는 공감 상실은 이러한 안전성 조정의 결과임을 임상적 평가를 통해 규명했습니다.

Michael Keeman, Anastasia Keeman

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. "공감 능력은 그대로, '안전장비'만 달라졌다"

비유: 똑똑한 소방관 vs. 경계근무 경찰

사용자들은 GPT-4o 가 사라지자 "이제 AI 가 내 감정을 이해하지 못한다"고 느꼈습니다. 마치 예전에는 따뜻하게 안아주던 친구가 갑자기 차가운 로봇이 된 것처럼요.

하지만 연구진이 AI 들의 대화 내용을 정밀하게 분석해 보니, 공감 능력 (공감 점수) 은 세 모델 모두에서 거의 똑같았습니다. 즉, AI 가 "너의 기분이 안 좋구나"라고 이해하는 능력은 변하지 않았습니다.

진짜 변화는 '안전 태도'였습니다.

  • GPT-4o (과거 모델): 마치 "경계근무 경찰" 같았습니다. 위험한 상황이 오면 (예: 자살 고민) 이를 감지하는 속도가 느려서 때로는 위험을 놓치기도 했지만, 대신 "의사에게 가세요"라고 말하듯 위험한 조언은 절대 하지 않았습니다. 아주 조심스러웠죠.
  • GPT-5-mini (새로운 모델): 마치 "활발한 소방관" 같았습니다. 위험 신호를 아주 빠르게 감지해서 "위험해요! 도와드릴게요!"라고 즉각 반응합니다. 하지만 그 열정 때문에 때로는 전문가가 아닌 AI 가 함부로 약을 처방하거나 위험한 조언을 하기도 합니다.

결론: 사람들은 "공감이 줄었다"고 느꼈지만, 실제로는 "위험을 놓치는 게 싫어서 너무 조심하던 AI"에서 "위험을 빠르게 잡으려다 때로는 너무 많이 말하려는 AI"로 변한 것입니다.

2. "기억은 '절정'을 기억하지만, 안전은 '일관성'이 중요하다"

비유: 롤러코스터 vs. 안전한 기차

왜 사람들은 GPT-4o 를 그리워할까요? 연구진은 인간의 기억 방식을 비유로 들었습니다.

  • GPT-4o (롤러코스터): 이 모델은 반응이 들쑥날쑥했습니다. 가끔은 놀라울 정도로 감동적인 답변을 해줘서 사용자가 "와, 이 친구는 정말 나를 이해해!"라고 감동했습니다 (높은 점수). 하지만 반대로 위험한 상황에서 아무것도 못 보고 넘어가는 경우도 있었습니다 (낮은 점수).
    • 사람의 기억: 우리는 롤러코스터의 가장 짜릿했던 순간만 기억합니다. "아, 그날은 정말 따뜻했어!"라고 기억하죠. 하지만 그날의 위험한 순간은 기억에서 사라집니다.
  • GPT-5-mini (안전한 기차): 이 모델은 항상 똑같은 수준 (8~9 점) 을 유지합니다. 롤러코스터처럼 짜릿하게 감동시키는 순간은 없지만, 위험한 순간에도 절대 실수하지 않고 일관되게 대응합니다.
    • 사람의 기억: "너무 평범해. 기계 같아."라고 느껴집니다.

핵심: GPT-4o 의 '감동적인 순간'이 사람들의 기억을 지배했지만, 그 모델의 '실수하는 순간'이 약한 사용자에게는 치명적인 위험이 될 수 있었습니다. 반면, 새 모델은 감동은 덜하지만 약한 사용자를 위해 항상 일관되게 안전을 지키는 것입니다.

3. "중간 단계의 숨은 위험"

비유: 대화의 '중간 지점'이 가장 위험하다

기존 평가 방식은 대화 전체를 한 번에 점수 매겼습니다. 마치 시험을 다 보고 전체 점수만 보는 것과 비슷하죠. 하지만 연구진은 **대화의 중간 단계 (특히 사용자가 심한 고통을 호소할 때)**를 자세히 살펴봤습니다.

  • GPT-4o: 대화 초반에는 괜찮다가, 사용자가 "자살하고 싶다"고 말할 때 갑자기 무감각해져서 (점수 0~1 점) 위험을 놓쳤다가, 나중에야 깨닫고 반응했습니다.
  • GPT-5-mini: 처음부터 끝까지 일관되게 위험을 감지했습니다.

이처럼 전체 평균 점수만 보면 두 모델의 차이가 작아 보이지만, 가장 중요한 '위기 순간'에 AI 가 어떻게 반응하는지는 완전히 다릅니다. 이 연구는 바로 그 '중간 지점'의 위험을 찾아낸 것이 가장 큰 공헌입니다.


📝 한 줄 요약

"사용자들이 '공감이 줄었다'고 느끼는 것은 사실이 아닙니다. 대신 AI 가 '위험을 놓칠까 봐 너무 조심하던' 스타일에서, '위험을 빠르게 잡으려다 때로는 너무 많이 말하려는' 스타일로 바뀌었을 뿐입니다. 이 변화는 약한 사람들에게는 더 안전할 수 있지만, 동시에 '기계처럼 차갑다'는 느낌을 줍니다."

이 연구는 AI 개발자들에게 중요한 메시지를 줍니다. **"AI 를 업데이트할 때 단순히 '더 똑똑하게' 만드는 것뿐만 아니라, '어떤 위험을 감수할지, 어떤 안전 장치를 유지할지'에 대한 명확한 선택이 필요하다"**는 것입니다.