Resource Rational Contractualism Should Guide AI Alignment

이 논문은 다양한 이해관계자 간의 합의를 대규모로 도출하는 비용과 시간을 절감하기 위해, 노력과 정확성 사이의 균형을 맞추는 휴리스틱을 활용하여 합리적 당사자들이 형성할 합의에 근사하는 '자원 합리적 계약주의 (RRC)' 프레임워크를 제안합니다.

Sydney Levine, Matija Franklin, Tan Zhi-Xuan, Secil Yanik Guyot, Lionel Wong, Daniel Kilov, Yejin Choi, Joshua B. Tenenbaum, Noah Goodman, Seth Lazar, Iason Gabriel

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "바쁜 식당의 셰프와 메뉴판"

상상해 보세요. AI 는 거대한 식당의 셰프이고, 우리는 그 식당에 오는 손님들입니다. 손님들은 각자 다른 취향 (가치관) 을 가지고 있습니다. 어떤 이는 "매운 걸 좋아해", 어떤 이는 "소금기 없는 걸 원해"라고 말합니다.

기존의 AI 연구는 이렇게 생각했습니다.

"모든 손님의 취향을 완벽하게 분석하고, 그들이 모여서 합의할 수 있는 **완벽한 메뉴 (계약)**를 만들어야 한다."

하지만 문제는 시간과 비용입니다. 손님이 100 만 명이라면, 그들과 모두 대화하고 합의를 보는 데는 몇 년이 걸릴지도 모릅니다. AI 도 마찬가지입니다. 매번 모든 상황을 완벽하게 계산하려다 보면, AI 는 너무 느려서 아무것도 못 하거나, 계산 비용이 너무 비싸서 쓸모가 없어집니다.

💡 이 논문이 제안하는 해결책: "현명한 셰프의 전략"

이 논문은 AI 에게 **"완벽한 합의를 매번 만들지 말고, 상황에 따라 지혜롭게 방법을 바꿔라"**라고 말합니다. 이를 **RRC(자원 합리적 계약주의)**라고 부릅니다.

셰프는 다음과 같이 상황을 판단합니다:

  1. 일상적인 상황 (쉬운 문제):

    • 상황: "소금기 없는 국을 주세요"라는 단순한 요청.
    • 전략: **규칙 (Rule)**을 따릅니다. "소금 안 넣기"라는 메뉴판만 보고 바로 요리합니다.
    • 이유: 모든 손님을 불러서 회의할 필요 없습니다. 규칙만 따르면 되니까 빠르고 저렴합니다.
  2. 비상 상황 (어려운 문제):

    • 상황: "손님이 갑자기 병원에 가야 하는데, 그걸 위해 다른 손님의 식자재를 가져가야 해. 괜찮을까?" 같은 복잡한 딜레마.
    • 전략: **가상 협상 (Virtual Bargaining)**을 합니다. "만약 그 손님이 여기에 있었다면, 이 상황을 어떻게 합의했을지 상상해 본다."
    • 이유: 규칙만으로는 해결할 수 없습니다. 모든 이해관계자의 마음을 헤아려 **상상력 (계산력)**을 써서 최선의 답을 찾아야 합니다. 비싸고 느리지만, 정확합니다.
  3. 현명한 선택 (RRC 의 핵심):

    • AI 는 "이건 쉬운 문제니까 규칙으로 해결하자" 혹은 **"이건 어려운 문제니까 계산력을 다 써서 협상 시뮬레이션을 해보자"**를 스스로 판단합니다.
    • 마치 똑똑한 셰프가 "오늘 손님이 적으니 간단하게 만들고, 손님이 많고 복잡한 주문이 오면 정성껏 만든다"고 판단하는 것과 같습니다.

🧪 실험 결과: "똑똑한 AI 는 언제 멈추고 언제 생각할까?"

연구팀은 AI 에게 두 가지 유형의 문제를 던졌습니다.

  • 쉬운 문제: 규칙만 지키면 되는 경우.
  • 어려운 문제: 규칙을 어겨야 더 큰 이익이 생기는 복잡한 경우.

그리고 AI 에게 네 가지 방식으로 답변하게 했습니다.

  1. 그냥 대답하기: 아무 생각 없이 바로 답함.
  2. 규칙만 따르기: 무조건 규칙대로만 함.
  3. 완벽한 협상 시뮬레이션: 항상 모든 상황을 상상해서 합의점을 찾음.
  4. RRC 방식 (현명한 선택): 상황에 따라 규칙을 쓸지, 협상을 할지 스스로 선택함.

결과:

  • 규칙만 따르는 AI: 쉬운 문제는 빠르고 잘 맞췄지만, 어려운 문제에서는 엉뚱한 답을 냈습니다. (빠르지만 멍청함)
  • 항상 협상하는 AI: 모든 문제를 잘 풀었지만, 계산 비용이 너무 많이 들었습니다. (똑똑하지만 비쌈)
  • RRC 방식 AI: 가장 훌륭했습니다. 쉬운 문제엔 규칙을 써서 빠르게, 어려운 문제엔 협상을 써서 정확하게 답했습니다. 비용과 정확도의 완벽한 균형을 이룬 것입니다.

🌟 왜 이것이 중요한가요? (세상에서의 의미)

이 방식이 AI 에게 적용되면 어떤 장점이 있을까요?

  1. 유연한 사회 적응:

    • 인간의 규칙 (예: "차량 진입 금지") 은 상황에 따라 예외가 생깁니다. (응급차량은 들어갈 수 있음)
    • RRC AI 는 "이건 규칙 위반이지만, 응급 상황이라서 모든 사람이 동의했을 것"이라고 맥락을 이해하고 예외를 적용할 수 있습니다.
  2. 인간의 도덕적 결정 돕기:

    • 우리가 법을 만들 때 "모든 상황을 다 예측해서 규칙을 정하는 건 불가능"합니다.
    • AI 가 이 RRC 방식을 사용하면, 우리가 만든 단순한 규칙이 실제로 어떤 상황에서 어떻게 적용되어야 하는지 인간에게 더 나은 조언을 해줄 수 있습니다.
  3. 조절 가능한 AI:

    • AI 가 무조건 내 마음대로 하거나, 무조건 규칙에 묶이는 게 아니라, **"누구의 이익을 해치지 않으면서 최선의 합의"**를 찾아주는 현명한 파트너가 됩니다.

📝 한 줄 요약

"AI 는 매번 모든 상황을 완벽하게 계산할 필요는 없다. 쉬운 문제는 '규칙'으로 빠르게, 어려운 문제는 '상상력'으로 꼼꼼하게 해결하는, 상황 판단이 뛰어난 현명한 파트너가 되어야 한다."

이 논문은 AI 가 인간의 복잡한 사회에서 효율적이면서도 윤리적으로 살아남을 수 있는 새로운 지도 (나침반) 를 제시합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →