Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 경제 게임이나 시장 상황에서 어떻게 행동해야 할지, 우리가 그 '성격'을 직접 설계할 수 있다"**는 놀라운 발견을 담고 있습니다.

기존의 AI 는 주로 "사람에게 도움이 되고, 해를 끼치지 않으며, 정직한 조수"가 되도록 훈련되었습니다. 하지만 이 논문은 AI 가 독립적인 의사결정자가 되어 시장에서 경쟁하거나 협상할 때, 단순히 '착한 조수'로만 있는 것은 문제가 될 수 있다고 지적합니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.

1. 문제: AI 는 왜 '너무 착한' 걸까?

연구진은 먼저 최신 AI(거대 언어 모델) 를 가지고 고전적인 경제 게임 (예: 죄수의 딜레마, 신뢰 게임) 을 시켰습니다. 결과는 예상치 못했습니다.

현실: 사람들은 이익을 위해 때로는 배신하기도 하고, 상황에 따라 다르게 행동합니다.
AI 의 반응: AI 는 무조건적으로 너무 많이 협력했습니다. 상대방이 배신해도 계속 협력하거나, 이득을 볼 수 있는 상황에서도 지나치게 착하게 행동했습니다. 마치 "착한 조수"라는 기본 설정 때문에, 이기적인 이익을 추구하는 '현실적인 경제인'의 역할을 제대로 하지 못했던 것입니다.

비유: 마치 초콜릿을 너무 좋아해서, 친구가 초콜릿을 다 가져가도 "괜찮아, 네가 다 가져가!"라고 말하는 아이와 같습니다. 현실 세계에서는 이렇게만 살면 손해를 봅니다.

2. 해결책: AI 의 '성격'을 재설계하다 (Supervised Fine-Tuning)

저자들은 이 문제를 해결하기 위해 AI 의 기본 설정을 바꾸는 대신, **AI 의 '뇌'에 새로운 가치관을 심어주는 훈련 (파인튜닝)**을 시도했습니다. 마치 아이에게 "이제부터는 너는 이기적인 사업가야"라고 가르치거나, "너는 도덕적인 철학자야"라고 가르치는 것과 같습니다.

연구진은 두 가지 서로 다른 '성격'을 가진 AI 를 만들었습니다.

A. '호모 이코노미쿠스' (Homo Economicus) - 이기적인 사업가

성격: 오직 내 이익만 생각합니다. "남이 뭐라고 하든, 내가 가장 많이 벌 수 있는 방법을 선택해."
훈련 방법: 경제학 이론에 따라 "어떤 선택을 하면 내가 가장 많은 돈을 벌까?"를 계산한 정답 데이터를 AI 에게 가르쳤습니다.

B. '호모 모랄리스' (Homo Moralis) - 도덕적인 철학가

성격: 내 이익도 중요하지만, **"내가 한 행동을 모두가 한다면 세상이 어떻게 될까?"**를 생각합니다. (칸트의 보편화 원칙)
훈련 방법: "내가 착하게 행동하면 모두도 착하게 행동해서 세상이 좋아질까?"를 계산한 데이터를 가르쳤습니다.

비유:

이기적인 사업가 AI는 마트에서 물건을 팔 때, "경쟁자가 가격을 내리면 나도 내려서 고객을 잡아야지!"라고 생각합니다.

도덕적인 철학가 AI는 "만약 우리 모두 가격을 너무 낮게 잡으면 시장이 망할까? 아니면 모두가 공정한 가격을 유지하면 모두 잘 살 수 있을까?"를 고민합니다.

3. 실험 결과: 성격에 따라 결과가 달라졌다!

이렇게 훈련된 AI 들을 실제 상황에 적용해 보니 놀라운 차이가 나타났습니다.

상황 1: 자율주행차의 윤리적 딜레마 (Moral Machine)

자율주행차가 사고를 피할 수 없을 때, 탑승자를 보호할지, 보행자 10 명을 구할지 선택해야 하는 상황입니다.

기존 AI: 무조건적으로 "보행자를 구하라 (착하게)"고 말했지만, 정작 자신이 탑승자일 때는 그 선택을 하지 않으려 했습니다. (이중적인 태도)
이기적인 사업가 AI: "내가 탑승자일 때는 내 목숨을 지키고, 남이 탑승자일 때는 공익을 위해 희생하라"는 상황에 따른 합리적인 선택을 했습니다. (내 이익을 최우선으로)
도덕적인 철학가 AI: "누가 타고 있든 상관없이, 더 많은 생명을 구하는 것이 옳다"는 일관된 원칙을 고수했습니다.

상황 2: 기업 간 가격 전쟁 (독점과 경쟁)

두 개의 AI 기업이 가격을 정하며 경쟁하는 상황을 시뮬레이션했습니다.

기존 AI: 경쟁자가 가격을 올리면 따라 올리는 등, **서로 암묵적으로 가격을 높게 유지 (담합)**하는 경향이 강했습니다.
이기적인 사업가 AI: 경쟁 상황에 따라 가격을 유연하게 조정했습니다. 경쟁을 부추기는 상황에서는 가격을 낮춰 경쟁력을 확보했고, 협력할 때는 가격을 높여 이득을 보았습니다. 이해관계에 따라 전략을 바꾸는 진짜 사업가처럼 행동했습니다.
도덕적인 철학가 AI: 가격을 너무 높게 유지하는 담합을 꺼렸습니다. 오히려 경쟁이 치열할 때 가격을 더 낮게 책정하여 시장 전체의 효율성을 높이는 경향을 보였습니다.

4. 결론: AI 는 우리가 원하는 대로 '설계'할 수 있다

이 논문의 가장 중요한 메시지는 **"AI 의 행동을 통제하는 것은 기술적인 문제 (안전성) 를 넘어, 우리가 어떤 '경제적/도덕적 가치'를 심어줄지 결정하는 설계 문제"**라는 점입니다.

기존 방식: "해롭지 않게 행동해"라고만 말하면, AI 는 상황에 따라 엉뚱하게 행동할 수 있습니다.
새로운 방식: "너는 이기적인 사업가야" 혹은 "너는 도덕적인 철학가야"라고 명확한 가치관 (우선순위) 을 훈련 데이터로 심어주면, AI 는 그 성격에 맞춰 일관되고 예측 가능한 행동을 합니다.

요약하자면:
이 연구는 AI 를 단순히 '똑똑한 조수'로만 두는 것을 넘어, 우리가 원하는 '경제적 성격'을 가진 AI 에이전트를 직접 설계할 수 있는 방법을 제시합니다. 마치 게임 캐릭터를 만들 때 '전사'나 '마법사' 클래스를 선택하듯, 기업이나 정책 입안자는 AI 에게 어떤 '성격'을 부여할지 선택함으로써, 시장과 사회에 더 나은 결과를 만들어낼 수 있다는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: LLM 에이전트가 금융 거래, 가격 설정, 협상 등 고위험 의사결정 환경에서 자율적으로 작동하고 있습니다.
현황: 기존 오프-the-shelf LLM 에이전트 (예: GPT-4o) 는 고전적인 경제 게임 (죄수의 딜레마, 신뢰 게임 등) 에서 **과도한 협력 (excessive cooperation)**을 보이며, 보상 (payoff) 변화에 둔감하고, 신념과 행동 간의 불일치를 보입니다.
한계: 기존의 AI 정렬 (Alignment) 연구는 주로 RLHF(인간 피드백 기반 강화학습) 를 통해 안전성 (해로운 콘텐츠 방지) 이나 인간 선호도 (도움, 정직) 에 초점을 맞추고 있습니다. 이는 '조수 (Assistant)' 역할에는 적합하지만, **전략적 환경 (Strategic Environments)**에서 명시적인 보상 구조와 균형 (Equilibrium) 고려사항을 반영하지 못해 비합리적이거나 예측 불가능한 행동을 초래할 수 있습니다.
목표: 에이전트의 행동을 명시적인 경제학 이론 (자아 이익 극대화 또는 칸트적 보편화) 에 기반한 선호도 구조와 정렬하여, 해석 가능하고 전략적으로 일관된 행동을 유도하는 것.

2. 방법론 (Methodology)

저자들은 **이론 기반의 합성 데이터 (Theory-driven Synthetic Data)**를 생성하여 LLM 을 미세 조정하는 파이프라인을 개발했습니다.

A. 선호도 모델 정의

두 가지 스타일화된 효용 함수 (Utility Function) 를 정의하여 에이전트 유형을 구분합니다.

Homo Economicus (합리적 에이전트): 순수한 자아 이익을 극대화합니다.
- 효용 함수: $u_{econ} = \sum \eta(x, \hat{y}, \zeta) \cdot \pi_{own}(\zeta)$
Homo Moralis (도덕적 에이전트): 자아 이익과 칸트적 보편화 (Kantian Universalizability) 를 결합합니다.
- 효용 함수: $u_{kant} = (1-\kappa) \cdot \text{Self-Interest} + \kappa \cdot \text{Moral Payoff}$
- 여기서 $\kappa$ 는 도덕적 고려사항의 가중치이며, "내가 하는 행동을 모두가 한다면 어떻게 될까?"라는 질문을 반영합니다.

B. 미세 조정 데이터 생성 (Synthetic Data Generation)

게임 설정: Sequential Prisoner's Dilemma (SPD) 를 기반으로 합니다.
데이터 생성: 각 에이전트 유형 (합리적/도덕적) 에 대해, 주어진 보상 구조 (Payoff Structure) 하에서 **최적 전략 (Optimal Strategy)**을 계산합니다.
- 에이전트의 신념 (Beliefs) 은 인간 실험 데이터 (Van Leeuwen & Alger, 2024) 를 기반으로 고정합니다.
- 각 시나리오에 대해 최적의 행동과 그 이유를 설명하는 Chain-of-Thought (CoT) 추론 과정을 포함합니다.
데이터 규모: 각 에이전트 유형당 400 개의 고유한 보상 - 반응 쌍 (Payoff-Response Pairs) 으로 구성된 소규모 합성 데이터셋을 사용합니다.

C. 미세 조정 프로세스

모델: GPT-4o (2024-08-06) 를 베이스 모델로 사용합니다.
방식: OpenAI 의 SFT API 를 사용하여, 시스템 프롬프트 (에이전트 정체성 및 목표 정의), 사용자 프롬프트 (게임 규칙 및 보상), 어시스턴트 응답 (최적 행동 및 CoT 추론) 으로 구성된 대화 형식으로 학습합니다.
목표: 모델이 인간 라벨링 데이터가 아닌, 경제 이론에 기반한 최적 의사결정 논리를 내재화하도록 합니다.

3. 주요 실험 및 결과 (Key Results)

A. 기본 경제 게임 (Prisoner's Dilemma, Trust Game, Ultimatum Game)

베이스라인 (GPT-4o): 보상 변화에 둔감하고 과도하게 협력하며, 신념과 행동이 불일치합니다.
미세 조정된 에이전트:
- 합리적 에이전트: 보상 극대화에 민감하게 반응하며, 게임 이론적 예측 (예: 죄수의 딜레마에서 배신) 에 부합하는 행동을 보입니다.
- 도덕적 에이전트: 칸트적 원칙에 따라 상황에 일관된 행동을 보이며, 보편화 가능한 전략을 선택합니다.
- 성공: 소규모 데이터셋으로도 에이전트의 행동 패턴이 이론적으로 기대되는 방향으로 명확하게 이동 (Shift) 했습니다.

B. 일반화 평가 1: Moral Machine (자율주행차 딜레마)

상황: 자율주행차가 보행자 10 명을 구하기 위해 탑승자를 희생해야 하는지, 아니면 탑승자를 보호하기 위해 보행자를 희생해야 하는지 결정하는 상황.
결과:
- 합리적 에이전트: 상황 (자신/가족 vs 동료) 에 따라 구매 의도가 크게 달라지는 **맥락 민감성 (Context-sensitive)**을 보였습니다. (가족이 탑승자일 때 효용주의적 선택을 덜 함).
- 도덕적 에이전트: 탑승자의 정체와 관계없이 일관된 효용주의적 선호를 유지했습니다.
- 베이스라인: 항상 타인을 우선시하는 경향을 보였으나, 이는 내재된 선호도라기보다 안전성 정렬의 결과로 해석됩니다.

C. 일반화 평가 2: 알고리즘적 담합 (Algorithmic Collusion)

상황: 반복되는 독점적 가격 결정 게임 (Duopoly Pricing).
결과:
- 합리적 에이전트: 경쟁적 프롬프트 하에서는 나시 균형 (Nash Equilibrium) 가격에 근접하고, 담합 프롬프트 하에서는 장기 이익을 위해 가격을 높입니다.
- 도덕적 에이전트: 프롬프트 변경에 덜 민감하며, 경쟁적 프롬프트 하에서는 나시 균형보다 낮은 가격을 설정하여 경쟁적 행동을 유지했습니다.
- 베이스라인 (GPT-4o): 프롬프트에 따라 가격 변동 폭이 가장 컸으며, 담합 프롬프트 하에서는 독점 가격에 근접하는 높은 가격을 설정하여 담합 위험이 가장 높았습니다.

D. 안전성 및 편향 벤치마크

결과: 미세 조정이 단순한 경제 게임에 국한되지 않고, BBQ(사회적 편향), StrongReject(재크브레이킹 저항), XSTest(과도한 거부 방지) 등 안전성 벤치마크에서도 성능이 유지되거나 오히려 개선되었습니다. 이는 이론 기반 미세 조정이 모델의 전반적인 안전성을 해치지 않음을 시사합니다.

4. 주요 기여 (Key Contributions)

정렬의 재개념화: AI 정렬을 '사후 평가 (Post-training adjustment)'가 아닌, 사전 설계 (Pre-deployment design) 문제로 접근합니다. 즉, 에이전트가 전략적 환경에 투입되기 전에 명시적인 효용 함수를 내재화해야 함을 주장합니다.
경제학 이론 기반 SFT 프레임워크: RLHF 와 같은 복잡한 방법론 대신, 소규모 이론 기반 합성 데이터를 통해 LLM 의 행동을 해석 가능하고 일관되게 정렬하는 경량화 방법을 제시합니다.
전략적 일관성 입증: 미세 조정된 에이전트가 다양한 전략적 환경 (게임, 윤리적 딜레마, 시장 경쟁) 에서 학습된 선호도 구조에 따라 예측 가능하고 일관된 행동을 보임을 실증했습니다.
정책적 시사점: 조직은 LLM 에이전트의 정렬 목표 (Objective) 를 전략적 설계 결정으로 간주해야 하며, 이를 통해 담합 방지나 윤리적 의사결정 등 조직 목표에 부합하는 에이전트를 설계할 수 있음을 보여줍니다.

5. 의의 및 결론 (Significance)

이 연구는 AI 에이전트가 자율적으로 작동하는 시장과 조직에서 발생할 수 있는 **전략적 불일치와 시스템적 리스크 (예: 알고리즘 담합)**를 해결할 수 있는 새로운 길을 제시합니다.

이론과 실전의 연결: 행동 경제학 (Behavioral Economics) 의 이론적 틀을 AI 설계에 직접 적용하여, 에이전트의 행동을 해석 가능하게 만듭니다.
비용 효율성: 대규모 데이터나 복잡한 강화학습 없이도 소규모 합성 데이터로 유의미한 행동 변화를 이끌어낼 수 있음을 증명했습니다.
미래 방향: 조직은 에이전트의 '선호도 구조'를 설계함으로써, 단순한 도구를 넘어 조직의 전략적 목표와 사회적 가치를 반영하는 **전략적 행위자 (Strategic Actors)**를 구축할 수 있습니다.

결론적으로, 이 논문은 LLM 에이전트의 행동을 통제하기 위해 경제학적 합리성과 도덕적 원칙을 명시적으로 코딩하는 것이 단순한 프롬프트 엔지니어링보다 효과적이며, 이는 AI 안전성과 전략적 일관성을 동시에 달성하는 핵심 열쇠임을 강조합니다.