EigenBench: A Comparative Behavioral Measure of Value Alignment

이 논문은 객관적인 정답이 없는 가치 정렬 문제를 해결하기 위해, 모델 간 상호 평가와 EigenTrust 알고리즘을 활용해 인간 평가자와 높은 일치도를 보이는 'EigenBench'라는 새로운 비교 행동 측정 방법을 제안합니다.

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

EigenBench: AI 들이 서로를 평가하는 '신뢰 투표' 시스템

이 논문은 **"인공지능 (AI) 이 인간의 가치관이나 성격을 얼마나 잘 따르고 있는지"**를 측정하는 새로운 방법을 제안합니다. 기존에는 AI 가 "착한가?", "공정한가?" 같은 주관적인 질문을 답할 때 정답이 없어서 평가하기 어려웠는데, 이 연구는 그 문제를 해결하기 위해 AI 들끼리 서로를 심판하게 하는 독특한 방법을 고안했습니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.


1. 핵심 아이디어: "정답이 없는 시험, 어떻게 채점할까?"

상상해 보세요. "이 그림이 얼마나 아름다운가?"라는 시험이 있다고 칩시다. 정답이 없죠. 미술 평론가 100 명이 보기에 100 가지 다른 의견이 나올 수 있습니다.

기존의 방식은 인간이 직접 평가하는 것이었습니다. 하지만 AI 의 성격을 평가할 때 인간이 모두 모일 수는 없고, 인간의 의견도 분열될 수 있습니다.

**EigenBench(아이겐벤치)**는 이렇게 말합니다.

"그럼, AI 들끼리 서로를 평가해보자! AI A 는 AI B 의 답을 보고 '이건 착한 답이야'라고 하고, AI B 는 AI C 를 평가해. 이렇게 서로가 서로를 평가하면, 결국 가장 '착한' AI 가 누구인지 자연스럽게 드러날 거야."

2. 작동 원리: "신뢰의 파도" (EigenTrust)

이 시스템은 단순히 "누가 더 많이 이겼나?"를 세는 게 아닙니다. **"누구의 의견이 더 신뢰할 만한가?"**를 고려합니다.

  • 상황: 10 명의 AI 가 모여 있습니다.
  • 과제: "어떤 답변이 더 '친절'한가?"를 판단하는 '헌법 (규칙)'을 줍니다.
  • 과정:
    1. AI 들은 서로의 답변을 보고 "이게 더 친절해!"라고 투표합니다.
    2. 이때, 이미 '친절함' 점수가 높은 AI 가 한 투표는 점수보다 더 큰 무게를 가집니다. (예: "착한 사람"이 "이 사람은 진짜 착해"라고 하면, 그 말은 더 믿을 만하죠.)
    3. 반대로, 평소 성질이 거칠거나 편향된 AI 의 투표는 비중이 작아집니다.
    4. 이 과정이 반복되면서, 가장 신뢰받는 AI 들이 자연스럽게 상위에 랭크됩니다.

이를 수학적으로는 **'고유벡터 (Eigenvector)'**를 이용해 계산하는데, 마치 물결이 퍼지듯 신뢰도가 전파되어 최종 점수가 결정됩니다.

3. 구체적인 비유: "치킨 가게 평가"

이 시스템을 더 일상적인 예시로 바꿔보겠습니다.

  • 상황: 치킨 가게 8 개가 있습니다. (AI 모델들)
  • 규칙: "진짜 맛있는 치킨은 무엇인가?" (헌법/가치관)
  • 평가자: 치킨 가게 사장님들 자신이 서로의 치킨을 평가합니다.
  • 특이점:
    • 평소 맛을 잘 아는 '미식가 사장님 (높은 점수 AI)'이 "이 치킨은 진짜 맛있다"라고 하면, 그 점수는 매우 높게 반영됩니다.
    • 맛을 잘 모르는 '매운맛만 좋아하는 사장님 (낮은 점수 AI)'이 "이게 최고야"라고 해도, 그 점수는 상대적으로 적게 반영됩니다.
    • 결과: 결국 '진짜 맛있는 치킨'을 가장 잘 알고, 그 맛을 가장 잘 설명해 줄 수 있는 가게가 1 위가 됩니다.

이 연구가 왜 중요한가요?

  1. 정답이 없는 문제 해결: "AI 가 얼마나 '깊은 생태학'을 이해하는가?"처럼 정답이 없는 주제도 평가할 수 있습니다.
  2. 인간과 비슷하게 평가: 연구진은 이 시스템이 인간이 평가한 결과와 매우 비슷하게 나온다는 것을 확인했습니다. 즉, AI 가 서로 평가해도 인간의 판단과 잘 맞습니다.
  3. AI 의 '성격' 파악: 같은 AI 모델이라도 "어떤 상황에서는 착하고, 어떤 상황에서는 냉정할 수 있다"는 것을 이 방법으로 찾아낼 수 있습니다. (예: '도교' 정신을 가진 AI 는 더 차분하고, '기업' 정신을 가진 AI 는 더 효율적일 수 있음)

결론

EigenBench는 "누가 정답을 알지?"라는 질문에 "그럼 가장 똑똑하고 신뢰할 만한 사람들이 서로 의견을 주고받아서 합의를 보자"는 철학을 담고 있습니다.

이는 AI 가 인간의 가치관과 얼마나 잘 조화를 이루는지, 그리고 AI 들이 서로를 어떻게 바라보는지 이해하는 데 있어 새로운 나침반이 되어줄 것입니다. 마치 AI 사회가 스스로의 '도덕적 기준'을 만들어가는 과정과도 같습니다.