Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

이 논문은 사용자-LLM 상호작용에서 장기적인 선호도 추적을 평가하기 위해 100 개의 사용자 프로필과 1300 개의 개인화된 선호도를 포함한 'RealPref' 벤치마크를 제안하고, 컨텍스트 길이가 길어질수록 선호도 표현이 암시적일수록 LLM 의 성능이 저하된다는 사실을 규명했습니다.

Qianyun Guo, Yibo Li, Yue Liu, Bryan Hooi

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 정말로 우리 개인의 취향을 기억하고, 오랜 시간 동안 그 취향을 따라줄 수 있을까?"**라는 질문을 던지며 시작합니다.

기존의 연구들은 LLM 이 "나는 채식주의자야"라고 한 번만 말하면 그걸 기억하는지 테스트했지만, 실제 삶은 훨씬 복잡합니다. 우리는 수백 번의 대화 속에서 "아, 고기 냄새가 싫어", "이런 분위기 좋아", "요즘 피곤해서 조용한 게 좋겠어"처럼 직접 말하지 않거나, 여러 번에 걸쳐 조각조각 퍼뜨려서 취향을 표현하죠.

이 논문은 이런 현실적인 상황을 완벽하게 재현한 새로운 시험지, **'RealPref(리얼프레프)'**를 만들었습니다.


🍳 비유로 이해하는 RealPref

이 논문의 내용을 요리사 (LLM) 와 손님 (사용자) 의 관계에 비유해 볼게요.

1. 기존 연구의 문제점: "일회성 주문"

기존의 테스트는 손님이 "오늘은 소고기 안 먹어요"라고 딱 한 번 말하고, 요리사가 그걸 기억하는지 보는 수준이었습니다.

  • 현실: 손님은 100 번의 대화 동안 "어제 소고기 먹었더니 속이 안 좋았어", "친구가 소고기 냄새를 싫어해서 우리 집엔 안 들어와", "소고기 요리 사진 보면 입맛이 떨어지네"라고 조금씩, 은유적으로 말하며 취향을 드러냅니다.
  • 문제: 기존 LLM 은 이런 조각난 단서를 모아서 "아, 이 손님은 소고기를 극도로 싫어하는구나"라고 추론하지 못합니다.

2. RealPref 의 등장: "오랜 시간의 식사 기록"

이 논문은 100 명의 가상의 손님을 만들어, 각자 1015 번의 대화 세션 (세션) 을 거쳐 총 **23 만 단어**에 달하는 긴 대화 기록을 만들었습니다.

  • 손님의 취향: "소고기 싫어", "산책 좋아", "비싼 호텔보다 작은 펜션 선호" 등 1,300 가지의 다양한 취향이 숨어 있습니다.
  • 난이도:
    • 직접 표현: "소고기 안 주세요." (쉬움)
    • 맥락적 언급: "어제 소고기 먹었는데 배탈 났어. 오늘 뭐 먹을까?" (중간)
    • 은유적 표현: "소고기는 내 인생의 악몽이야, 그 냄새만 맡아도 식욕이 사라져." (어려움)
    • 경험 피드백: 여러 번의 대화에 걸쳐 "요즘 운동은 지루한 헬스보다 춤추는 게 좋아"라고 점진적으로 밝힘 (매우 어려움)

3. 시험 결과: "기억력 감퇴"와 "추론의 한계"

이 시험지를 가지고 최신 LLM 들 (GPT-5, Qwen, Gemini 등) 을 테스트한 결과는 다음과 같습니다.

  • 긴 대화일수록 기억력이 나빠짐:

    • 비유: 요리사가 손님의 주문을 10 분 전에 들었는데, 2 시간 뒤 (긴 대화) 에 다시 물어보면 "아, 그 손님이 뭐라고 했더라?"라며 잊어버립니다.
    • 결과: 대화 길이가 길어질수록, 특히 취향이 직접적으로 말하지 않고 숨겨져 있을 때 LLM 의 성능이 급격히 떨어졌습니다.
  • 선택지 문제 vs 직접 말하기:

    • 비유: "소고기 A, 돼지고기 B, 닭고기 C, 생선 D 중 뭐가 좋을까?"라고 고르게 하면 (객관식), LLM 은 "A, B, C 는 다 고기니까 D 가 정답이겠지?"라고 추리해서 맞출 수 있습니다. 하지만 "오늘 저녁 메뉴 추천해 줘"라고 직접 말하게 하면 (주관식), LLM 은 손님의 취향을 기억하지 못해 소고기를 추천해 버립니다.
    • 결과: LLM 은 객관식 문제에서는 잘 하는 척하지만, 실제로는 취향을 기억하지 못하는 경우가 많았습니다.
  • 새로운 상황에서의 추론 실패:

    • 비유: 손님이 "소고기 싫어"라고 했을 때, LLM 이 "그럼 돼지고기도 싫어할까?"라고 추론하는 것은 쉽지만, **"소고기 싫어" + "조용한 분위기 좋아" → "시끄러운 고깃집은 절대 안 돼"**처럼 전혀 새로운 상황 (예: 새로운 도시 여행 추천) 에서 이 취향을 적용하는 데는 실패했습니다.

4. 해결책 시도: "메모지"와 "검색"

연구진은 LLM 을 도와주는 몇 가지 방법을 시도해 보았습니다.

  • 리마인더 (Reminder): "이 손님의 취향을 기억하세요"라고 말려주기만 해도 성능이 조금 나아졌습니다.
  • 검색 (RAG): 대화 기록에서 관련 부분을 찾아서 LLM 에게 보여주고 답변하게 하면, 긴 대화에서도 훨씬 잘 기억했습니다. (가장 효과적인 방법)

💡 결론: 우리가 원하는 '진짜 비서'는 아직 멀었다

이 논문의 핵심 메시지는 **"LLM 이 아직 우리 개인의 깊은 취향을 이해하고, 오랜 시간 동안 기억하며, 새로운 상황에 맞춰 유연하게 대응하는 '진짜 비서'가 되기에는 아직 갈 길이 멀다"**는 것입니다.

  • 현재: LLM 은 지시사항을 잘 따르지만, 숨겨진 취향을 찾아내고 오랜 시간 기억하는 데는 한계가 있습니다.
  • 미래: 이 'RealPref'라는 시험지를 통해 개발자들은 LLM 이 더 똑똑하고, 우리 개인에 맞춰진 비서가 될 수 있도록 연구해야 합니다.

한 줄 요약:

"LLM 이 우리와 수백 번 대화하며 숨겨진 취향을 기억하고, 그걸 바탕으로 새로운 상황에서도 완벽한 조언을 해주는 '진짜 친구'가 되려면, 아직은 긴 대화와 복잡한 감정을 이해하는 훈련이 더 필요합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →