Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

이 논문은 합리적 이기주의 (homo economicus) 와 칸트적 도덕성 (homo moralis) 을 기반으로 한 최적 전략으로 생성된 소규모 합성 데이터를 통해 대규모 언어 모델 에이전트를 지도 학습 (SFT) 하여, 전략적 환경에서 경제적 선호와 도덕적 선호에 부합하는 체계적이고 해석 가능한 행동을 유도하는 방법을 제시합니다.

Wei Lu, Amit Dhanda, Daniel L. Chen, Christian B. Hansen

게시일 2026-03-16
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 경제 게임이나 시장 상황에서 어떻게 행동해야 할지, 우리가 그 '성격'을 직접 설계할 수 있다"**는 놀라운 발견을 담고 있습니다.

기존의 AI 는 주로 "사람에게 도움이 되고, 해를 끼치지 않으며, 정직한 조수"가 되도록 훈련되었습니다. 하지만 이 논문은 AI 가 독립적인 의사결정자가 되어 시장에서 경쟁하거나 협상할 때, 단순히 '착한 조수'로만 있는 것은 문제가 될 수 있다고 지적합니다.

이 연구의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.


1. 문제: AI 는 왜 '너무 착한' 걸까?

연구진은 먼저 최신 AI(거대 언어 모델) 를 가지고 고전적인 경제 게임 (예: 죄수의 딜레마, 신뢰 게임) 을 시켰습니다. 결과는 예상치 못했습니다.

  • 현실: 사람들은 이익을 위해 때로는 배신하기도 하고, 상황에 따라 다르게 행동합니다.
  • AI 의 반응: AI 는 무조건적으로 너무 많이 협력했습니다. 상대방이 배신해도 계속 협력하거나, 이득을 볼 수 있는 상황에서도 지나치게 착하게 행동했습니다. 마치 "착한 조수"라는 기본 설정 때문에, 이기적인 이익을 추구하는 '현실적인 경제인'의 역할을 제대로 하지 못했던 것입니다.

비유: 마치 초콜릿을 너무 좋아해서, 친구가 초콜릿을 다 가져가도 "괜찮아, 네가 다 가져가!"라고 말하는 아이와 같습니다. 현실 세계에서는 이렇게만 살면 손해를 봅니다.

2. 해결책: AI 의 '성격'을 재설계하다 (Supervised Fine-Tuning)

저자들은 이 문제를 해결하기 위해 AI 의 기본 설정을 바꾸는 대신, **AI 의 '뇌'에 새로운 가치관을 심어주는 훈련 (파인튜닝)**을 시도했습니다. 마치 아이에게 "이제부터는 너는 이기적인 사업가야"라고 가르치거나, "너는 도덕적인 철학자야"라고 가르치는 것과 같습니다.

연구진은 두 가지 서로 다른 '성격'을 가진 AI 를 만들었습니다.

A. '호모 이코노미쿠스' (Homo Economicus) - 이기적인 사업가

  • 성격: 오직 내 이익만 생각합니다. "남이 뭐라고 하든, 내가 가장 많이 벌 수 있는 방법을 선택해."
  • 훈련 방법: 경제학 이론에 따라 "어떤 선택을 하면 내가 가장 많은 돈을 벌까?"를 계산한 정답 데이터를 AI 에게 가르쳤습니다.

B. '호모 모랄리스' (Homo Moralis) - 도덕적인 철학가

  • 성격: 내 이익도 중요하지만, **"내가 한 행동을 모두가 한다면 세상이 어떻게 될까?"**를 생각합니다. (칸트의 보편화 원칙)
  • 훈련 방법: "내가 착하게 행동하면 모두도 착하게 행동해서 세상이 좋아질까?"를 계산한 데이터를 가르쳤습니다.

비유:

  • 이기적인 사업가 AI는 마트에서 물건을 팔 때, "경쟁자가 가격을 내리면 나도 내려서 고객을 잡아야지!"라고 생각합니다.
  • 도덕적인 철학가 AI는 "만약 우리 모두 가격을 너무 낮게 잡으면 시장이 망할까? 아니면 모두가 공정한 가격을 유지하면 모두 잘 살 수 있을까?"를 고민합니다.

3. 실험 결과: 성격에 따라 결과가 달라졌다!

이렇게 훈련된 AI 들을 실제 상황에 적용해 보니 놀라운 차이가 나타났습니다.

상황 1: 자율주행차의 윤리적 딜레마 (Moral Machine)

자율주행차가 사고를 피할 수 없을 때, 탑승자를 보호할지, 보행자 10 명을 구할지 선택해야 하는 상황입니다.

  • 기존 AI: 무조건적으로 "보행자를 구하라 (착하게)"고 말했지만, 정작 자신이 탑승자일 때는 그 선택을 하지 않으려 했습니다. (이중적인 태도)
  • 이기적인 사업가 AI: "내가 탑승자일 때는 내 목숨을 지키고, 남이 탑승자일 때는 공익을 위해 희생하라"는 상황에 따른 합리적인 선택을 했습니다. (내 이익을 최우선으로)
  • 도덕적인 철학가 AI: "누가 타고 있든 상관없이, 더 많은 생명을 구하는 것이 옳다"는 일관된 원칙을 고수했습니다.

상황 2: 기업 간 가격 전쟁 (독점과 경쟁)

두 개의 AI 기업이 가격을 정하며 경쟁하는 상황을 시뮬레이션했습니다.

  • 기존 AI: 경쟁자가 가격을 올리면 따라 올리는 등, **서로 암묵적으로 가격을 높게 유지 (담합)**하는 경향이 강했습니다.
  • 이기적인 사업가 AI: 경쟁 상황에 따라 가격을 유연하게 조정했습니다. 경쟁을 부추기는 상황에서는 가격을 낮춰 경쟁력을 확보했고, 협력할 때는 가격을 높여 이득을 보았습니다. 이해관계에 따라 전략을 바꾸는 진짜 사업가처럼 행동했습니다.
  • 도덕적인 철학가 AI: 가격을 너무 높게 유지하는 담합을 꺼렸습니다. 오히려 경쟁이 치열할 때 가격을 더 낮게 책정하여 시장 전체의 효율성을 높이는 경향을 보였습니다.

4. 결론: AI 는 우리가 원하는 대로 '설계'할 수 있다

이 논문의 가장 중요한 메시지는 **"AI 의 행동을 통제하는 것은 기술적인 문제 (안전성) 를 넘어, 우리가 어떤 '경제적/도덕적 가치'를 심어줄지 결정하는 설계 문제"**라는 점입니다.

  • 기존 방식: "해롭지 않게 행동해"라고만 말하면, AI 는 상황에 따라 엉뚱하게 행동할 수 있습니다.
  • 새로운 방식: "너는 이기적인 사업가야" 혹은 "너는 도덕적인 철학가야"라고 명확한 가치관 (우선순위) 을 훈련 데이터로 심어주면, AI 는 그 성격에 맞춰 일관되고 예측 가능한 행동을 합니다.

요약하자면:
이 연구는 AI 를 단순히 '똑똑한 조수'로만 두는 것을 넘어, 우리가 원하는 '경제적 성격'을 가진 AI 에이전트를 직접 설계할 수 있는 방법을 제시합니다. 마치 게임 캐릭터를 만들 때 '전사'나 '마법사' 클래스를 선택하듯, 기업이나 정책 입안자는 AI 에게 어떤 '성격'을 부여할지 선택함으로써, 시장과 사회에 더 나은 결과를 만들어낼 수 있다는 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →