Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 정말로 우리 개인의 취향을 기억하고, 오랜 시간 동안 그 취향을 따라줄 수 있을까?"**라는 질문을 던지며 시작합니다.

기존의 연구들은 LLM 이 "나는 채식주의자야"라고 한 번만 말하면 그걸 기억하는지 테스트했지만, 실제 삶은 훨씬 복잡합니다. 우리는 수백 번의 대화 속에서 "아, 고기 냄새가 싫어", "이런 분위기 좋아", "요즘 피곤해서 조용한 게 좋겠어"처럼 직접 말하지 않거나, 여러 번에 걸쳐 조각조각 퍼뜨려서 취향을 표현하죠.

이 논문은 이런 현실적인 상황을 완벽하게 재현한 새로운 시험지, **'RealPref(리얼프레프)'**를 만들었습니다.

🍳 비유로 이해하는 RealPref

이 논문의 내용을 요리사 (LLM) 와 손님 (사용자) 의 관계에 비유해 볼게요.

1. 기존 연구의 문제점: "일회성 주문"

기존의 테스트는 손님이 "오늘은 소고기 안 먹어요"라고 딱 한 번 말하고, 요리사가 그걸 기억하는지 보는 수준이었습니다.

현실: 손님은 100 번의 대화 동안 "어제 소고기 먹었더니 속이 안 좋았어", "친구가 소고기 냄새를 싫어해서 우리 집엔 안 들어와", "소고기 요리 사진 보면 입맛이 떨어지네"라고 조금씩, 은유적으로 말하며 취향을 드러냅니다.
문제: 기존 LLM 은 이런 조각난 단서를 모아서 "아, 이 손님은 소고기를 극도로 싫어하는구나"라고 추론하지 못합니다.

2. RealPref 의 등장: "오랜 시간의 식사 기록"

이 논문은 100 명의 가상의 손님을 만들어, 각자 10~~15 번의 대화 세션 (세션) 을 거쳐 총 **2~~3 만 단어**에 달하는 긴 대화 기록을 만들었습니다.

손님의 취향: "소고기 싫어", "산책 좋아", "비싼 호텔보다 작은 펜션 선호" 등 1,300 가지의 다양한 취향이 숨어 있습니다.
난이도:
- 직접 표현: "소고기 안 주세요." (쉬움)
- 맥락적 언급: "어제 소고기 먹었는데 배탈 났어. 오늘 뭐 먹을까?" (중간)
- 은유적 표현: "소고기는 내 인생의 악몽이야, 그 냄새만 맡아도 식욕이 사라져." (어려움)
- 경험 피드백: 여러 번의 대화에 걸쳐 "요즘 운동은 지루한 헬스보다 춤추는 게 좋아"라고 점진적으로 밝힘 (매우 어려움)

3. 시험 결과: "기억력 감퇴"와 "추론의 한계"

이 시험지를 가지고 최신 LLM 들 (GPT-5, Qwen, Gemini 등) 을 테스트한 결과는 다음과 같습니다.

긴 대화일수록 기억력이 나빠짐:
- 비유: 요리사가 손님의 주문을 10 분 전에 들었는데, 2 시간 뒤 (긴 대화) 에 다시 물어보면 "아, 그 손님이 뭐라고 했더라?"라며 잊어버립니다.
- 결과: 대화 길이가 길어질수록, 특히 취향이 직접적으로 말하지 않고 숨겨져 있을 때 LLM 의 성능이 급격히 떨어졌습니다.
선택지 문제 vs 직접 말하기:
- 비유: "소고기 A, 돼지고기 B, 닭고기 C, 생선 D 중 뭐가 좋을까?"라고 고르게 하면 (객관식), LLM 은 "A, B, C 는 다 고기니까 D 가 정답이겠지?"라고 추리해서 맞출 수 있습니다. 하지만 "오늘 저녁 메뉴 추천해 줘"라고 직접 말하게 하면 (주관식), LLM 은 손님의 취향을 기억하지 못해 소고기를 추천해 버립니다.
- 결과: LLM 은 객관식 문제에서는 잘 하는 척하지만, 실제로는 취향을 기억하지 못하는 경우가 많았습니다.
새로운 상황에서의 추론 실패:
- 비유: 손님이 "소고기 싫어"라고 했을 때, LLM 이 "그럼 돼지고기도 싫어할까?"라고 추론하는 것은 쉽지만, **"소고기 싫어" + "조용한 분위기 좋아" → "시끄러운 고깃집은 절대 안 돼"**처럼 전혀 새로운 상황 (예: 새로운 도시 여행 추천) 에서 이 취향을 적용하는 데는 실패했습니다.

4. 해결책 시도: "메모지"와 "검색"

연구진은 LLM 을 도와주는 몇 가지 방법을 시도해 보았습니다.

리마인더 (Reminder): "이 손님의 취향을 기억하세요"라고 말려주기만 해도 성능이 조금 나아졌습니다.
검색 (RAG): 대화 기록에서 관련 부분을 찾아서 LLM 에게 보여주고 답변하게 하면, 긴 대화에서도 훨씬 잘 기억했습니다. (가장 효과적인 방법)

💡 결론: 우리가 원하는 '진짜 비서'는 아직 멀었다

이 논문의 핵심 메시지는 **"LLM 이 아직 우리 개인의 깊은 취향을 이해하고, 오랜 시간 동안 기억하며, 새로운 상황에 맞춰 유연하게 대응하는 '진짜 비서'가 되기에는 아직 갈 길이 멀다"**는 것입니다.

현재: LLM 은 지시사항을 잘 따르지만, 숨겨진 취향을 찾아내고 오랜 시간 기억하는 데는 한계가 있습니다.
미래: 이 'RealPref'라는 시험지를 통해 개발자들은 LLM 이 더 똑똑하고, 우리 개인에 맞춰진 비서가 될 수 있도록 연구해야 합니다.

한 줄 요약:

"LLM 이 우리와 수백 번 대화하며 숨겨진 취향을 기억하고, 그걸 바탕으로 새로운 상황에서도 완벽한 조언을 해주는 '진짜 친구'가 되려면, 아직은 긴 대화와 복잡한 감정을 이해하는 훈련이 더 필요합니다."

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

🍳 비유로 이해하는 RealPref

1. 기존 연구의 문제점: "일회성 주문"

2. RealPref 의 등장: "오랜 시간의 식사 기록"

3. 시험 결과: "기억력 감퇴"와 "추론의 한계"

4. 해결책 시도: "메모지"와 "검색"

💡 결론: 우리가 원하는 '진짜 비서'는 아직 멀었다

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

A. 데이터셋 구성 (Dataset Construction)

B. 평가 프레임워크 (Evaluation Framework)

3. 주요 기여 (Key Contributions)

4. 실험 결과 및 분석 (Results & Analysis)

5. 의의 및 결론 (Significance & Conclusion)

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

🍳 비유로 이해하는 RealPref

1. 기존 연구의 문제점: "일회성 주문"

2. RealPref 의 등장: "오랜 시간의 식사 기록"

3. 시험 결과: "기억력 감퇴"와 "추론의 한계"

4. 해결책 시도: "메모지"와 "검색"

💡 결론: 우리가 원하는 '진짜 비서'는 아직 멀었다

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

A. 데이터셋 구성 (Dataset Construction)

B. 평가 프레임워크 (Evaluation Framework)

3. 주요 기여 (Key Contributions)

4. 실험 결과 및 분석 (Results & Analysis)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks