FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

이 논문은 시퀀스 수준의 보상이나 희소하고 노이즈가 많은 피드백으로 인한 학습 불안정성을 해결하기 위해, 역사실적 스왑 기반의 인과적 아이템 수준 보상과 불확실성을 고려한 크리틱 가이드 스케일링을 도입한 강화학습 기반 추천 프레임워크 'FlexRec'을 제안하여 다양한 추천 시나리오에서 기존 모델 대비 NDCG 와 Recall 성능을 획기적으로 향상시켰음을 보여줍니다.

Yijun Pan, Weikang Qiu, Qiyao Ma, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

FlexRec: 추천 시스템의 '유연한 두뇌'를 깨우는 방법

이 논문은 **"FlexRec"**이라는 새로운 기술을 소개합니다. 쉽게 말해, 이 기술은 인공지능 (LLM) 이 추천 시스템을 할 때, 사용자의 즉흥적인 기분이나 상황에 맞춰 추천 방식을 바꿀 수 있도록 가르치는 방법입니다.

기존의 추천 시스템은 "무조건 클릭률이 높은 것"이나 "무조건 많이 팔리는 것"처럼 하나의 목표만 쫓았습니다. 하지만 현실은 다릅니다. 어떤 날은 "새로운 취향을 발견하고 싶고", 어떤 날은 "인기 있는 걸 보고 싶고", 또 어떤 날은 "오래전부터 좋아하던 걸 다시 보고 싶을" 수도 있죠.

FlexRec 은 이 복잡한 인간의 마음을 이해하고, 상황에 맞춰 추천을 바꿔주는 초능력을 가진 추천 시스템을 만드는 방법입니다.


🎯 핵심 문제: 왜 기존 시스템은 답답할까?

기존의 추천 시스템은 마치 한 가지 요리법만 아는 셰프와 같습니다.

  • 상황: 손님이 "매운 걸 먹고 싶어"라고 하면 매운 요리를 해주고, "달콤한 걸 먹고 싶어"라고 해도 여전히 매운 요리를 해줍니다. (왜냐하면 그 셰프는 '매운 요리'만 배웠기 때문입니다.)
  • 문제: 인공지능 (LLM) 도 원래는 책이나 글을 읽는 데만 훈련되어 있어서, 추천이라는 새로운 일을 시키면 잘 못합니다. 게다가 추천을 할 때 사용자의 반응 (클릭 여부 등) 이 드물게만 나타나기 때문에 (우리가 모든 물건을 다 사보지는 않으니까), 인공지능이 "내가 잘했나, 못했나?"를 판단하기가 매우 어렵습니다.

💡 FlexRec 의 해결책: 두 가지 마법

FlexRec 은 이 두 가지 문제를 해결하기 위해 두 가지 마법을 사용합니다.

1. "만약에..." 시뮬레이션 (Swap-based Item-level Reward)

비유: 체스 게임의 한 수를 다시 생각해보기

기존의 방법은 "최종 결과물 (전체 리스트)"이 좋으면 모든 수를 칭찬하고, 나쁘면 모두 혼냅니다. 하지만 어떤 수 (아이템) 가 나쁜 결과를 만든 건지, 좋은 결과를 만든 건지 알 수 없습니다.

FlexRec 은 체스 게임에서 한 수를 바꿔보며 시뮬레이션을 합니다.

  • "만약에 1 등으로 추천한 물건을 5 등으로 내리고, 5 등 물건을 1 등으로 올렸다면 어떨까?"
  • 이렇게 만약에 (Counterfactual) 상황을 만들어서, 각 아이템이 실제 결과에 얼마나 기여했는지 정확하게 계산합니다.
  • 효과: 인공지능은 "아, 이 물건을 1 등으로 둔 게 좋았구나!" 또는 "아, 이 물건을 1 등으로 둔 게 나빴구나!"를 정확하게 깨닫게 되어, 훨씬 빠르게 배웁니다.

2. "불확실한 정보"를 무시하는 안목 (Uncertainty-Aware Scaling)

비유: 낚시꾼과 잡은 물고기

추천 시스템은 사용자의 반응을 모두 알 수 없습니다. (사용자가 클릭한 건 알지만, 안 클릭한 건 왜 안 클릭했는지 모릅니다.) 그래서 인공지능은 가상적인 점수를 매겨야 합니다. 하지만 이 가상의 점수는 때로는 틀릴 수도 있습니다.

FlexRec 은 인공지능에게 **"이 점수가 얼마나 믿을 만한지"**도 함께 가르칩니다.

  • 높은 확신: "이 물건을 추천하면 사용자가 좋아할 거야 (점수 90, 확신 90%)" → 강하게 반영
  • 낮은 확신: "이 물건을 추천하면 좋아할지도 모르는데... (점수 90, 확신 10%)" → 약하게 반영하거나 무시
  • 효과: 틀린 정보 (노이즈) 에 휘둘려 엉뚱한 방향으로 배우는 것을 막아줍니다. 마치 낚시꾼이 잡은 물고기가 진짜인지 가짜인지 확인하고, 가짜라면 무시하는 것과 같습니다.

🚀 FlexRec 의 놀라운 성과

이 기술을 적용한 결과, FlexRec 은 다음과 같은 능력을 보여줍니다.

  1. 상황에 맞는 추천: "새로운 걸 찾아줘", "인기 있는 걸 보여줘", "내가 좋아하는 걸 보여줘"라는 명령어 하나만으로 추천 방식을 즉시 바꿉니다.
  2. 범용성: 하나의 모델로 모든 상황을 다 처리할 수 있습니다. 별도의 모델을 여러 개 만들 필요가 없습니다.
  3. 압도적인 성능: 기존 추천 시스템이나 다른 인공지능 모델보다 최대 100% 이상 더 좋은 결과를 냈습니다. (사용자가 원하는 물건을 더 빨리 찾아줍니다.)

🌟 결론

FlexRec 은 추천 시스템이 고정된 기계에서 유연한 파트너로 변신하게 해줍니다.

  • 기존: "무조건 많이 팔리는 거 추천해."
  • FlexRec: "오늘은 새로운 취향을 발견하고 싶어." → "알겠어, 너의 취향을 분석해서 아직 안 본 새로운 걸 찾아줄게!"

이 기술은 우리가 매일 사용하는 쇼핑, 영상, 음악 추천이 우리의 그날그날의 기분과 필요에 맞춰 더 똑똑하고 친절하게 변할 수 있음을 보여줍니다.