Evaluating LLM Alignment With Human Trust Models

이 논문은 EleutherAI/gpt-j-6B 모델의 내부 활성화 공간에서 신뢰 개념을 분석한 결과, 해당 모델의 신뢰 표현이 인간 신뢰 모델 중 Castelfranchi 사회인지 모델과 가장 밀접하게 정렬되어 있음을 밝힘으로써 인간-AI 협업 시스템 설계에 중요한 통찰을 제공합니다.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 배경: AI 의 '마음'은 어떻게 생겼을까?

우리는 AI 가 대화를 잘하고, 심지어 친구처럼 행동하는 것을 봅니다. 하지만 AI 가 **"신뢰 (Trust)"**라는 개념을 내부적으로 어떻게 정의하고 있는지, 그 '생각의 구조'는 우리가 모릅니다.

  • 비유: AI 는 거대한 도서관 같습니다. 수많은 책 (데이터) 을 읽었지만, 그 책들이 책장 (내부 메모리) 에 어떻게 정리되어 있는지 우리는 알 수 없습니다. 이 연구는 도서관의 책장 구조를 직접 들여다보는 '백색 상자 (White-box)' 분석입니다.

2. 실험 방법: AI 의 '감정 나침반' 만들기

연구진은 AI 가 '신뢰'와 관련된 단어들을 어떻게 느끼는지 측정하기 위해 두 가지 단계를 거쳤습니다.

1 단계: AI 의 '감정 지도' 그리기

먼저, AI 가 '기쁨', '분노', '신뢰' 같은 60 가지 감정과 개념을 어떻게 구분하는지 확인했습니다.

  • 비유: AI 에게 "기쁜 이야기"와 "슬픈 이야기"를 각각 100 개씩 만들어달라고 시켰습니다. 그리고 AI 가 그 이야기를 생각할 때 뇌 (내부 활성화 공간) 에서 어떤 신호가 켜지는지 기록했습니다.
  • 결과: AI 는 비슷한 개념들 (예: '기쁨'과 '행복') 은 서로 가깝게 배치하고, 반대 개념들 (예: '기쁨'과 '분노') 은 멀리 떨어뜨려 놓는다는 것을 발견했습니다. 마치 감정들이 모여 사는 마을처럼, 비슷한 감정은 이웃하고 반대 감정은 멀리 사는 것입니다.

2 단계: AI 가 믿는 '신뢰의 지도' 찾기

이제 핵심입니다. 인간 사회학자들은 '신뢰'를 설명하는 여러 가지 이론 (지도) 을 가지고 있습니다.

  • 마쉬 (Marsh) 모델: 신뢰는 과거의 경험과 계산입니다.
  • 메이어 (Mayer) 모델: 신뢰는 능력, 선의, 정직함의 조합입니다.
  • 카스텔프란치 (Castelfranchi) 모델: 신뢰는 상대방의 능력과 의지, 그리고 예측 가능성에 대한 '생각 (믿음)'입니다.

연구진은 AI 가 이 중 어떤 '지도'를 가장 많이 따라 다니는지 확인했습니다.

  • 방법: AI 가 '신뢰'라는 개념을 생각할 때, 뇌 속 신호가 '능력'이나 '의지' 같은 다른 개념의 신호와 얼마나 비슷하게 반응하는지 (코사인 유사도) 측정했습니다.

3. 연구 결과: AI 는 누구의 말을 가장 잘 들을까?

결과는 놀라웠습니다. AI 의 뇌 속 '신뢰' 개념은 카스텔프란치 (Castelfranchi) 모델과 가장 비슷하게 일치했습니다.

  • 비유: AI 는 신뢰를 단순히 "이 사람이 과거에 나를 도와줬으니 (계산)"라고만 보지 않았습니다. 대신, **"이 사람은 능력이 있고, 나를 돕고 싶어하며, 앞으로 어떻게 행동할지 예측할 수 있구나 (생각과 믿음)"**라고 이해하고 있었습니다.
  • 2 위: 마쉬 모델이 그 뒤를 이었습니다.
  • 흥미로운 점: 인간 이론 중 하나인 '메이어 모델'에서는 '위험 (Risk)'을 신뢰의 필수 요소로 보지만, AI 는 오히려 '신뢰'와 '위험'을 서로 반대되는 개념으로 인식하고 있었습니다. AI 는 "위험을 감수해야 신뢰가 생긴다"는 논리보다는, "위험은 신뢰와 거리가 먼 것"으로 이해하고 있는 것입니다.

4. 이 연구가 왜 중요한가?

이 연구는 AI 가 단순히 말을 잘하는 게 아니라, 사회적 관계와 신뢰를 계산하는 복잡한 '뇌 구조'를 가지고 있음을 증명했습니다.

  • 실용적 의미: 우리는 이제 AI 의 뇌 속에 '신뢰'와 관련된 신호를 찾아내어, AI 가 더 신뢰할 수 있는 행동을 하도록 유도할 수 있습니다.
    • 예: AI 가 코치와 선수, 혹은 의사와 환자 사이에서 신뢰를 쌓는 대화를 할 때, 우리가 원하는 '신뢰'의 개념 (예: 능력과 의지 강조) 을 AI 의 뇌에 주입하여 더 나은 반응을 이끌어낼 수 있습니다.

요약

이 논문은 **"AI 가 인간처럼 '신뢰'를 어떻게 생각하는지 그 뇌의 지도를 그려보았다"**는 내용입니다.
그 결과, AI 는 **상대방의 능력과 의지, 예측 가능성을 중시하는 '생각 기반의 신뢰 (카스텔프란치 모델)'**를 가장 잘 이해하고 있다는 것을 발견했습니다. 이는 앞으로 AI 와 인간이 더 자연스럽게 협력하고 신뢰를 쌓는 시스템을 만드는 데 중요한 첫걸음이 될 것입니다.