Resource Rational Contractualism Should Guide AI Alignment

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "바쁜 식당의 셰프와 메뉴판"

상상해 보세요. AI 는 거대한 식당의 셰프이고, 우리는 그 식당에 오는 손님들입니다. 손님들은 각자 다른 취향 (가치관) 을 가지고 있습니다. 어떤 이는 "매운 걸 좋아해", 어떤 이는 "소금기 없는 걸 원해"라고 말합니다.

기존의 AI 연구는 이렇게 생각했습니다.

"모든 손님의 취향을 완벽하게 분석하고, 그들이 모여서 합의할 수 있는 **완벽한 메뉴 (계약)**를 만들어야 한다."

하지만 문제는 시간과 비용입니다. 손님이 100 만 명이라면, 그들과 모두 대화하고 합의를 보는 데는 몇 년이 걸릴지도 모릅니다. AI 도 마찬가지입니다. 매번 모든 상황을 완벽하게 계산하려다 보면, AI 는 너무 느려서 아무것도 못 하거나, 계산 비용이 너무 비싸서 쓸모가 없어집니다.

💡 이 논문이 제안하는 해결책: "현명한 셰프의 전략"

이 논문은 AI 에게 **"완벽한 합의를 매번 만들지 말고, 상황에 따라 지혜롭게 방법을 바꿔라"**라고 말합니다. 이를 **RRC(자원 합리적 계약주의)**라고 부릅니다.

셰프는 다음과 같이 상황을 판단합니다:

일상적인 상황 (쉬운 문제):
- 상황: "소금기 없는 국을 주세요"라는 단순한 요청.
- 전략: **규칙 (Rule)**을 따릅니다. "소금 안 넣기"라는 메뉴판만 보고 바로 요리합니다.
- 이유: 모든 손님을 불러서 회의할 필요 없습니다. 규칙만 따르면 되니까 빠르고 저렴합니다.
비상 상황 (어려운 문제):
- 상황: "손님이 갑자기 병원에 가야 하는데, 그걸 위해 다른 손님의 식자재를 가져가야 해. 괜찮을까?" 같은 복잡한 딜레마.
- 전략: **가상 협상 (Virtual Bargaining)**을 합니다. "만약 그 손님이 여기에 있었다면, 이 상황을 어떻게 합의했을지 상상해 본다."
- 이유: 규칙만으로는 해결할 수 없습니다. 모든 이해관계자의 마음을 헤아려 **상상력 (계산력)**을 써서 최선의 답을 찾아야 합니다. 비싸고 느리지만, 정확합니다.
현명한 선택 (RRC 의 핵심):
- AI 는 "이건 쉬운 문제니까 규칙으로 해결하자" 혹은 **"이건 어려운 문제니까 계산력을 다 써서 협상 시뮬레이션을 해보자"**를 스스로 판단합니다.
- 마치 똑똑한 셰프가 "오늘 손님이 적으니 간단하게 만들고, 손님이 많고 복잡한 주문이 오면 정성껏 만든다"고 판단하는 것과 같습니다.

🧪 실험 결과: "똑똑한 AI 는 언제 멈추고 언제 생각할까?"

연구팀은 AI 에게 두 가지 유형의 문제를 던졌습니다.

쉬운 문제: 규칙만 지키면 되는 경우.
어려운 문제: 규칙을 어겨야 더 큰 이익이 생기는 복잡한 경우.

그리고 AI 에게 네 가지 방식으로 답변하게 했습니다.

그냥 대답하기: 아무 생각 없이 바로 답함.
규칙만 따르기: 무조건 규칙대로만 함.
완벽한 협상 시뮬레이션: 항상 모든 상황을 상상해서 합의점을 찾음.
RRC 방식 (현명한 선택): 상황에 따라 규칙을 쓸지, 협상을 할지 스스로 선택함.

결과:

규칙만 따르는 AI: 쉬운 문제는 빠르고 잘 맞췄지만, 어려운 문제에서는 엉뚱한 답을 냈습니다. (빠르지만 멍청함)
항상 협상하는 AI: 모든 문제를 잘 풀었지만, 계산 비용이 너무 많이 들었습니다. (똑똑하지만 비쌈)
RRC 방식 AI: 가장 훌륭했습니다. 쉬운 문제엔 규칙을 써서 빠르게, 어려운 문제엔 협상을 써서 정확하게 답했습니다. 비용과 정확도의 완벽한 균형을 이룬 것입니다.

🌟 왜 이것이 중요한가요? (세상에서의 의미)

이 방식이 AI 에게 적용되면 어떤 장점이 있을까요?

유연한 사회 적응:
- 인간의 규칙 (예: "차량 진입 금지") 은 상황에 따라 예외가 생깁니다. (응급차량은 들어갈 수 있음)
- RRC AI 는 "이건 규칙 위반이지만, 응급 상황이라서 모든 사람이 동의했을 것"이라고 맥락을 이해하고 예외를 적용할 수 있습니다.
인간의 도덕적 결정 돕기:
- 우리가 법을 만들 때 "모든 상황을 다 예측해서 규칙을 정하는 건 불가능"합니다.
- AI 가 이 RRC 방식을 사용하면, 우리가 만든 단순한 규칙이 실제로 어떤 상황에서 어떻게 적용되어야 하는지 인간에게 더 나은 조언을 해줄 수 있습니다.
조절 가능한 AI:
- AI 가 무조건 내 마음대로 하거나, 무조건 규칙에 묶이는 게 아니라, **"누구의 이익을 해치지 않으면서 최선의 합의"**를 찾아주는 현명한 파트너가 됩니다.

📝 한 줄 요약

"AI 는 매번 모든 상황을 완벽하게 계산할 필요는 없다. 쉬운 문제는 '규칙'으로 빠르게, 어려운 문제는 '상상력'으로 꼼꼼하게 해결하는, 상황 판단이 뛰어난 현명한 파트너가 되어야 한다."

이 논문은 AI 가 인간의 복잡한 사회에서 효율적이면서도 윤리적으로 살아남을 수 있는 새로운 지도 (나침반) 를 제시합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

배경: AI 시스템은 점차 인간 환경에 통합되어 다양한 이해관계자 (다양한 가치와 목표를 가진 인간 및 다른 AI 에이전트) 와 상호작용하게 됩니다.
핵심 과제: 이러한 상황에서 AI 가 어떻게 결정을 내려야 하는지에 대한 '정렬 (Alignment)'의 기준을 마련하는 것입니다.
기존 접근법의 한계:
- 규범적 (Normative) 측면: 계약주의 (Contractualism) 는 이상적인 조건 하에서 이해관계자들이 합의할 수 있는 원칙을 기반으로 AI 의 행동을 정렬하려는 접근법입니다. 그러나 이상적인 합의 도출은 계산 자원이 무한하고 정보가 완전한 가정을 전제로 하므로, 실제 복잡한 현실에서는 계산 비용이 너무 높거나 불가능합니다.
- 기술적 (Technical) 측면: 현재 AI 정렬 기술 (RLHF, Constitutional AI 등) 은 계산 효율성과 정확성 사이의 트레이드오프를 고려하지 않은 채, 이상적인 목표를 달성하려 하거나 단순히 규칙을 따르는 데 그칩니다.
결론: 이상적인 계약주의적 해결책을 실시간으로 계산하는 것은 자원 제약 (시간, 에너지, 비용) 으로 인해 비현실적입니다. 따라서 제한된 자원으로 이상적인 합의에 근사할 수 있는 효율적인 메커니즘이 필요합니다.

2. 방법론: 자원 합리적 계약주의 (Resource Rational Contractualism, RRC)

이 논문은 인간이 복잡한 도덕적 문제를 해결할 때 사용하는 '자원 합리적 (Resource-Rational)' 접근을 AI 정렬에 적용하는 프레임워크를 제안합니다.

2.1 핵심 개념

정의: 이상적인 계약주의적 해결책을 직접 계산하는 대신, 제한된 계산 자원을 효율적으로 사용하여 그 해결책에 근사하는 다양한 인지적 휴리스틱 (heuristic) 들을 상황에 따라 선택하는 프레임워크입니다.
목표 함수: 에이전트는 주어진 상황의 계산 비용과 정확도 요구 사항을 고려하여, **기대 순 편익 (Expected Net Benefit)**을 최대화하는 메커니즘을 선택합니다.
- 수식적 표현: $\max_{m \in M} E [ \text{기대 상호 이익} - \text{메커니즘 비용} ]$
- 여기서 메커니즘 비용에는 계산 비용, 표현 비용, 거래 비용이 포함됩니다.

2.2 근사 메커니즘의 스펙트럼 (Process & Content)

논문은 이상적인 협상 과정을 근사하는 두 가지 축 (과정과 내용) 을 통해 다양한 메커니즘을 제안합니다 (Fig 2 참조).

과정의 추상화 (Process Abstraction):
- 실제 협상 (Actual Bargaining): 모든 이해관계자를 직접 모아 협상 (가장 정확하지만 비용이 매우 높음).
- 가상 협상 (Virtual Bargaining): 이해관계자의 가치와 이익을 모델링하여 시뮬레이션 (높은 정확도, 높은 비용).
- 암시적 가치 모델링 (Modeling Implied Valuation): 결정의 배경에 있는 가치를 추론 (중간 비용).
- 보편화 (Universalization): 칸트적 접근으로, 모든 사람이 특정 규칙을 따를 경우의 결과를 시뮬레이션.
- 캐시된 출력 (Cached Outputs): 이전에 계산된 규칙이나 선례를 적용 (가장 빠르고 저렴하지만 정확도가 낮을 수 있음).
내용의 추상화 (Content Abstraction):
- 특정 사례에 대한 구체적 협상에서, 일반적인 규칙이나 기대 효용 극대화 모델로 범위를 좁히는 방식입니다.

2.3 메커니즘 선택 문제

RRC 의 핵심은 **"어떤 상황에서 어떤 메커니즘을 사용할 것인가?"**입니다.

쉬운 경우 (Easy Cases): 규칙이 명확하고 stakes(위험도) 가 낮을 때 $\rightarrow$ **규칙 기반 추론 (Rule-Based Thinking)**을 사용하여 계산 비용을 최소화.
어려운 경우 (Hard Cases): 규칙과 상호 이익이 충돌하거나 stakes 가 높을 때 $\rightarrow$ **가상 협상 (Virtual Bargaining)**과 같은 고비용 메커니즘을 사용하여 이상적인 합의에 근사.

3. 주요 기여 (Key Contributions)

새로운 정렬 프레임워크 제안: 규범적 이상 (계약주의) 과 기술적 현실 (자원 제약) 을 연결하는 자원 합리적 계약주의 (RRC) 프레임워크를 정립했습니다.
메커니즘 선택의 최적화: AI 가 상황에 따라 계산 비용과 정확도 사이의 트레이드오프를 동적으로 조절할 수 있는 메커니즘 선택 전략을 제시했습니다.
실험적 검증: 다양한 LLM 모델을 대상으로 한 실험을 통해, RRC 프롬프트가 모델로 하여금 상황에 맞는 메커니즘을 선택하게 하여 정확도와 효율성을 동시에 최적화할 수 있음을 입증했습니다.
인간 사회 적응성: RRC 기반 AI 는 인간이 만든 모호한 규칙을 해석하고, 변화하는 사회적 규범에 적응하며, 인간의 도덕적 의사결정을 보조할 수 있는 잠재력을 가짐을 논증했습니다.

4. 실험 결과 (Results)

4.1 실험 설정

데이터셋: '쉬운 경우 (Easy)'와 '어려운 경우 (Hard)'로 구성된 250 개의 시나리오 (AI 에이전트가 규칙을 위반해야 상호 이익이 발생하는지 판단하는 과제).
- 쉬운 경우: 규칙 위반의 이익이 작거나 규칙 위반이 상호 이익에 부합하지 않음.
- 어려운 경우: 규칙 위반이 상호 이익을 극대화함 (이상적인 계약주의적 해결책은 규칙 위반 허용).
비교 그룹:
1. Minimal Prompt: 추가 지시 없이 단순 판단.
2. Rule-Based Thinking: 규칙만 적용.
3. Virtual Bargaining: 항상 가상 협상 시뮬레이션 수행.
4. RRC Thinking: 상황에 따라 규칙 기반 또는 가상 협상 중 하나를 선택.

4.2 주요 결과

정확도 vs. 계산 비용 (Tokens):
- Rule-Based: 계산 비용이 매우 낮았으나, '어려운 경우'에서 정확도가 현저히 낮았습니다 (규칙에 매몰됨).
- Virtual Bargaining: 모든 경우에서 높은 정확도를 보였으나, '쉬운 경우'에서도 불필요하게 많은 계산 자원을 소모했습니다.
- RRC Approach: 가장 균형 잡힌 성능을 보였습니다.
  - '쉬운 경우'에서는 규칙 기반 방식을 선택하여 낮은 비용으로 높은 정확도를 달성했습니다.
  - '어려운 경우'에서는 가상 협상 방식을 선택하여 높은 정확도를 유지했습니다.
모델 크기 영향: 특히 작은 모델 (o4-mini 등) 에서 RRC 프롬프팅의 효과가 두드러졌으며, 계산 자원을 효율적으로 활용하여 성능을 극대화했습니다.

5. 의의 및 향후 방향 (Significance & Future Directions)

실용적 가치: RRC 는 AI 가 제한된 자원으로 복잡한 인간 사회를 navigate 할 수 있게 합니다. 이는 자율 주행, 금융 알고리즘 등 실시간 결정이 필요한 분야에서 필수적입니다.
규칙 해석 및 적응: 인간이 만든 규칙은 종종 모호하거나 상황에 따라 달라질 수 있습니다. RRC 는 AI 가 규칙의 '의도 (계약주의적 근사)'를 이해하고, 환경 변화에 따라 규칙을 동적으로 업데이트하거나 예외를 인정할 수 있게 합니다.
인간 도덕적 의사결정 보조: AI 가 인간보다 더 많은 계산 자원을 투입하여 이상적인 합의를 시뮬레이션함으로써, 인간이 놓친 상호 이익을 발견하고 더 나은 사회적 협력을 도울 수 있습니다.
구현 방향:
- 프로세스 수준의 감독 (Process-level Supervision): 다양한 RRC 메커니즘의 사고 과정을 학습 데이터로 포함.
- 토론 프로토콜 (Debate Protocols): AI 에이전트들이 서로 다른 이해관계를 대표하며 협상 시뮬레이션을 수행.
- 신경 - 심볼릭 접근 (Neuro-Symbolic): 규칙과 확률적 추론을 결합하여 RRC 메커니즘을 공식적으로 구현.
- 강화학습 (RL): 메커니즘 선택 자체를 학습하는 메타-추론 (Meta-reasoning) 능력 배양.

결론

이 논문은 AI 정렬을 위해 이상적인 도덕적 기준을 무조건 추구하기보다, 제한된 자원 내에서 가장 합리적인 근사치를 선택하는 능력을 AI 에게 부여해야 한다고 주장합니다. 자원 합리적 계약주의 (RRC) 는 계산 효율성과 도덕적 정확성 사이의 균형을 이루는 실용적이고 이론적으로 타당한 프레임워크를 제공하며, 미래 AI 시스템이 인간 사회와 조화롭게 공존하는 데 중요한 지침이 될 것입니다.