MERIT Feedback Elicits Better Bargaining in LLM Negotiators

이 논문은 LLM 의 협상 능력을 향상시키기 위해 9 가지 복잡한 시나리오를 다루는 새로운 벤치마크 'AgoraBench'와 인간 선호도에 기반한 지시 피드백 학습 파이프라인을 제안하며, 이를 통해 기존 모델보다 전략적 깊과 상대방 인식 능력이 뛰어난 협상 성과를 입증합니다.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 어떻게 하면 더 똑똑하게, 그리고 인간처럼 협상할 수 있을까?"**라는 질문에 답하기 위해 쓴 연구입니다.

기존의 AI 는 협상할 때 "무조건 이득을 보려고만 하거나" 너무 단순하게 행동하는 문제가 있었습니다. 이 논문은 그 문제를 해결하기 위해 **새로운 시험장 (AGORABENCH)**과 새로운 점수판 (MERIT), 그리고 학습 방법을 제안합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "AI 는 협상할 때 너무 기계적이에요"

지금까지 AI 가 협상하는 능력을 평가할 때는 **"얼마나 싸게 사왔나?" (이윤)**만 중요하게 봤습니다. 마치 시장에서 물건을 살 때, "최저가만 찾는 로봇"처럼요.

하지만 실제 인간은 다릅니다.

  • "비싸더라도 내가 정말 원하는 물건을 사야 해."
  • "상대방이 너무 공격적으로 나오면 화가 나서 아예 안 살 수도 있어."
  • "할부 결제가 가능하면 조금 비싸도 괜찮아."

기존의 AI 는 이런 인간의 복잡한 심리와 상황을 이해하지 못해, 인간이 싫어하는 방식으로 협상하거나, 중요한 물건을 놓치는 실수를 자주 했습니다.

2. 해결책 1: 새로운 시험장 '아고라 벤치 (AGORABENCH)'

저자들은 AI 를 테스트할 때, 단순한 "가격 흥정"만 시키지 않았습니다. 대신 실제 시장처럼 복잡한 상황 9 가지를 만들어냈습니다.

  • 비유: 기존 시험이 "평평한 도로에서 달리기"였다면, 아고라 벤치는 **"비, 눈, 장애물이 있는 복잡한 오프로드 주행"**입니다.
  • 상황 예시:
    • 사기성 시장: 상대방이 거짓말을 할 수도 있는 상황.
    • 독점 시장: 다른 가게가 없어서 강제로 그 가게만 이용해야 하는 상황.
    • 할부 시장: 지금 당장 돈이 없어도 나중에 나누어 낼 수 있는 상황.
    • 나쁜 평판 시장: 상대방 가게가 예전에 나쁜 소문이 난 상황.

이런 다양한 상황에서 AI 가 어떻게 대처하는지 테스트했습니다.

3. 해결책 2: 새로운 점수판 '메리트 (MERIT)'

기존에는 "얼마를 아꼈나?"만 점수로 매겼습니다. 하지만 저자들은 **"인간이 진짜로 만족하는 점수"**를 만들었습니다. 이를 MERIT라고 부릅니다.

  • 비유: 시험 점수를 매길 때, 단순히 "정답 개수"만 세는 게 아니라, **"어떤 문제를 풀었는지", "시간을 얼마나 잘 썼는지", "상대방과 얼마나 잘 소통했는지"**까지 종합적으로 평가하는 것입니다.
  • MERIT 의 3 가지 요소:
    1. 소비자 잉여 (CS): 내가 원하는 가격보다 얼마나 싸게 샀나? (이윤)
    2. 협상력 (NP): 처음에 비싸게 부른 가격을 얼마나 잘 깎아냈나? (상대방을 얼마나 설득했나?)
    3. 획득 비율 (AR): 내가 정말 원하던 물건을 샀나? (예: 카메라를 원했는데, 할부 조건 때문에 비싼 다른 카메라를 사면 점수가 깎입니다.)

이 점수판을 통해 AI 가 "인간이 좋아할 만한 협상"을 했는지 판단합니다.

4. 해결책 3: 인간처럼 배우는 방법 (ICL-MF & SFT)

이제 AI 에게 이 새로운 점수판 (MERIT) 을 가르쳐 주었습니다.

  • 방법 1: 상황별 힌트 주기 (ICL-MF)
    • AI 가 협상할 때, "상대방이 이 물건을 얼마에 샀을까?", "상대방의 심리는 어떨까?"를 미리 생각해보게 합니다.
    • 비유: 시험을 볼 때, 문제만 보고 푸는 게 아니라, "출제자의 의도를 파악하고 전략을 세우는" 방식으로 가르친 것입니다.
  • 방법 2: 인간이 한 대화를 보고 학습 (SFT)
    • 인간이 실제로 "어떻게 협상하면 좋은지" 선택한 대화 데이터를 AI 에게 보여주고, 그 패턴을 따라하게 학습시켰습니다.

5. 결과: AI 가 훨씬 똑똑해졌습니다!

이 방법을 적용한 AI 는 다음과 같은 변화를 보였습니다.

  • 상대방을 읽는 눈: 상대방이 거짓말을 하거나, 가격을 너무 높게 부르면 이를 간파하고 대응합니다.
  • 인간 같은 전략: 단순히 가격만 깎는 게 아니라, "내가 원하는 물건을 꼭 사야 한다"는 목표를 잊지 않고 협상합니다.
  • 성공률 상승: 더 많은 거래를 성사시켰고, 인간이 보기에 훨씬 만족스러운 결과를 얻었습니다.

요약

이 논문은 **"AI 가 협상할 때, 단순히 '돈'만 쫓지 말고 '인간의 심리'와 '상황'을 이해하게 해야 한다"**는 것을 증명했습니다.

새로운 시험장 (아고라 벤치) 과 새로운 점수판 (MERIT) 을 통해 AI 를 훈련시키니, AI 가 이제 현명한 상인처럼 행동하게 되었습니다. 앞으로는 AI 가 우리 대신 복잡한 거래를 할 때, 인간처럼 유연하고 똑똑하게 대처할 수 있을 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →