Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시퀀스 추천 (Sequential Recommendation)"**이라는 기술의 숨겨진 문제를 해결하고, 더 똑똑한 추천 시스템을 만드는 방법에 대해 설명합니다.

간단히 말해, **"우리가 클릭하지 않은 아이템이 '싫어서'인지, 그냥 '보이지 않아서'인지 구분하는 방법"**을 찾아낸 이야기입니다.

이 내용을 일상적인 비유로 풀어보겠습니다.

🍿 1. 문제: "보이지 않는 영화는 재미없다?" (선택 편향과 노출 편향)

상상해 보세요. 친구가 당신에게 영화를 추천해 줍니다. 친구는 당신이 **클릭 (관람)**한 영화만 보고 "이 친구는 액션 영화를 좋아하네!"라고 결론 내립니다.

하지만 여기서 두 가지 치명적인 오해가 생깁니다.

노출 편향 (Exposure Bias): 친구가 당신에게 보여준 영화는 10 개뿐이었습니다. 그중 9 개는 안 봤지만, 사실 그 9 개 중 8 개는 당신이 정말 좋아할 만한 영화였을 수도 있습니다. 하지만 친구는 "보여주지 않았으니 (노출되지 않았으니) 관심 없는 거겠지"라고 생각합니다.
선택 편향 (Selection Bias): 친구가 보여준 10 개 중 1 개만 클릭했습니다. 친구는 "나머지 9 개는 싫어서 안 본 거야"라고 생각합니다. 하지만 사실은 그 9 개 중 2 개는 "아, 이거 재미있겠다!" 싶었는데, 단순히 타이밍이 안 맞거나 다른 영화가 먼저 눈에 들어와서 클릭을 못 했을 수도 있습니다.

기존의 추천 시스템은 **"클릭한 것만 좋아하고, 클릭하지 않은 건 싫어하는 거"**라고 잘못 판단해서, 점점 더 편향된 추천을 하게 됩니다. 마치 친구가 당신에게 항상 같은 장르의 영화만 보여주고, "너는 이거밖에 안 좋아해!"라고 말하는 것과 같습니다.

⏳ 2. 해결책: "시간을 거슬러 상상하기" (시간 인식 역선호 점수, TIPS)

이 문제를 해결하기 위해 연구자들은 **'반사실적 추론 (Counterfactual Reasoning)'**이라는 개념을 사용했습니다. 쉽게 말해 **"만약에..."**라고 상상하는 것입니다.

기존의 방법 (IPS) 은 정적 (Static) 이어서, "이 영화가 노출될 확률은 50% 였으니 점수를 2 배로 올려줘"라고 단순히 계산했습니다. 하지만 사람의 취향은 시간에 따라 변합니다. 어제는 액션 영화를 좋아했는데, 오늘은 공포 영화를 원할 수도 있죠.

이 논문이 제안한 **TIPS (Time-aware Inverse Propensity Scoring)**는 **"시간을 고려한 상상"**을 합니다.

🎭 TIPS 의 마법 같은 상상 세 가지

시스템은 실제 클릭한 데이터를 바탕으로, 다음과 같은 "만약에" 상황을 만들어냅니다.

비슷한 물건이 보였다면? (Similar Items)
- 상상: "내가 아이폰 17 을 샀는데, 만약에 그 옆에 아이폰 케이스가 노출되었다면 클릭했을까?"
- 효과: 비슷한 아이템이 노출되었을 때의 반응을 예측합니다.
인기 있는 물건이 보였다면? (Popular Items)
- 상상: "내가 평범한 음악을 들었는데, 만약에 전 세계 1 위 곡이 노출되었다면 클릭했을까?"
- 효과: 인기 있는 아이템이 노출되었을 때의 반응을 예측합니다.
같은 물건, 다른 시간이라면? (Same Item, Different Time)
- 상상: "내가 어제 이 영화를 클릭했는데, 만약에 오늘 이 영화가 노출되었다면 클릭했을까?"
- 효과: 시간의 흐름에 따라 내 취향이 어떻게 변하는지 파악합니다.

이 세 가지 "만약에" 상황을 통해, 시스템은 **"사실은 내가 클릭하지 않았지만, 노출만 되었다면 클릭했을 것"**인 아이템들을 찾아냅니다. 그리고 그 아이템들에게는 **"클릭을 못 했어도 좋아할 가능성이 높으니, 추천 점수를 올려줘!"**라고 보정해 줍니다.

🚀 3. 결과: 더 똑똑한 추천 시스템

이 방법을 적용한 결과, 기존 추천 시스템 (RNN, 트랜스포머, 생성형 AI 등) 에 이 기술을 '플러그인'처럼 끼우기만 해도 성능이 크게 향상되었습니다.

큰 데이터일수록 효과 큼: 사용자가 많고 상호작용이 활발할수록 (예: 뮤직 스트리밍 서비스), 이 "시간을 고려한 상상"이 더 정확하게 작동했습니다.
편향 제거: "클릭 안 함 = 싫음"이라는 오해를 깨뜨리고, "보이지 않아서 클릭 안 함"을 찾아내어, 사용자가 몰랐던 좋은 아이템을 찾아내어 추천해 줍니다.

💡 요약: 이 논문이 우리에게 주는 교훈

기존의 추천 시스템은 **"보인 것만 보고 판단"**하는 편견에 갇혀 있었습니다. 하지만 이 논문은 **"보이지 않았던 것들도, 시간이 흐르고 상황이 바뀐다면 내가 좋아했을지도 모른다"**는 시간을 고려한 상상력을 시스템에 심어주었습니다.

마치 훌륭한 친구가 되어주는 것과 같습니다.

"너는 이거만 좋아한다고 생각했는데, 사실은 저것도 좋아할 수 있잖아? 특히 오늘 같은 날엔 더 그럴 것 같아. 한번 들어봐!"

이처럼 시간과 상황을 고려한 추천은 사용자에게 더 다양하고 정확한 만족감을 줄 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

순차 추천 (Sequential Recommendation, SR) 은 사용자의 과거 행동 시퀀스를 모델링하여 다음 상호작용을 예측하는 작업입니다. 기존 연구들은 주로 클릭, 구매 등 명시적 상호작용 (Explicit Interactions) 에만 의존하며, 노출 (Exposure) 데이터 (사용자에게 보여졌지만 클릭하지 않은 항목) 를 무시하는 경향이 있습니다. 이로 인해 다음과 같은 두 가지 주요 편향 (Bias) 이 발생합니다.

노출 편향 (Exposure Bias): 노출되지 않은 항목은 사용자의 관심사가 없는 것으로 잘못 간주됩니다.
선택 편향 (Selection Bias): 노출되었지만 상호작용하지 않은 항목은 사용자의 관심사가 없는 것으로 오해받습니다. 실제로는 노출 전략이나 컨텍스트의 영향일 수 있습니다.

기존의 역선호도 점수 (Inverse Propensity Scoring, IPS) 는 이러한 편향을 보정하기 위해 사용되지만, 정적 (Static) 인 방법론입니다. 이는 시간의 흐름에 따른 사용자의 선호도 변화나 항목 간의 순차적 의존성 (Sequential Dependencies) 을 고려하지 못하여, 순차 추천의 동적 특성을 반영하지 못한다는 한계가 있습니다.

2. 제안 방법론 (Methodology: HyperG / TIPS)

저자들은 시간 인지 역선호도 점수 (Time-aware Inverse Propensity Scoring, TIPS) 를 포함한 새로운 프레임워크 HyperG 를 제안합니다. 이 프레임워크는 노출 로그가 없는 상황에서도 시간적 동역학을 고려하여 편향을 보정하는 플러그인 (Plug-in) 모델입니다.

2.1 구조적 인과 모델 (Structural Causal Model, SCM)

SR 의 인과 관계를 명확히 하기 위해 SCM 을 도입했습니다.

U (사용자 선호) → E (노출): 사용자의 선호가 노출 목록에 영향을 줌.
E (노출) → C (클릭/상호작용): 노출은 상호작용의 전제 조건 (Exposure Bias).
E (노출) → U (선호): 노출된 데이터는 사용자의 진정한 선호를 왜곡할 수 있음 (Selection Bias).

2.2 이중 인코딩 전략 (Dual Encoding Strategy)

편향을 효과적으로 보정하기 위해 항목의 상호작용 (Interaction) 과 노출 (Exposure) 을 분리하여 표현합니다.

상호작용 임베딩 ( $H^{(C)}$ ): 클릭 등 명시적 피드백을 학습하여 사용자 선호도를 반영.
노출 임베딩 ( $H^{(E)}$ ): 인기, 프로모션 등 노출 확률에 영향을 미치는 요인을 반영.
시간 임베딩: 상호작용 간의 시간 간격 (Time Interval) 을 정규화하고 MLP 를 통해 임베딩하여 시간적 맥락을 포착.

2.3 반사실적 샘플 구성 (Counterfactual Samples Construction)

노출 로그가 없으므로, 반사실적 (Counterfactual) 인 가상의 노출 시나리오를 생성하여 노출 분포를 추정합니다. 각 실제 상호작용 $(v_i, t_i)$ 에 대해 세 가지 가상의 양의 노출 샘플을 생성합니다:

유사 항목 (Similar Items): 노출 임베딩 기반의 유사 항목을 같은 시간에 노출된 것으로 가정.
인기 항목 (Popular Items): 역사적 데이터에서 높은 노출 빈도를 가진 인기 항목을 같은 시간에 노출된 것으로 가정.
동일 항목, 다른 시간 (Same Item, Different Time): 동일한 항목을 약간 다른 시간 ( $t^*$ ) 에 노출된 것으로 가정 (시간 임베딩에 작은 교란 $\Delta$ 추가).

이러한 샘플들은 노출 분포 추정 모델 ( $f_\phi$ ) 에서는 양 (Positive) 샘플로, 사용자 선호 추론 모델 ( $g_\theta$ ) 에서는 음 (Negative) 샘플로 활용됩니다.

2.4 노출 영향 모델링 및 TIPS 적용

노출 추정 (E → C): 크로스 어텐션 (Cross-Attention) 메커니즘을 사용하여 사용자 상호작용 시퀀스와 후보 항목의 노출 임베딩을 결합합니다. 이를 통해 시간 인지 노출 확률 ( $\pi_t$ ) 을 추정합니다.
사용자 선호 보정 (E → U): 추정된 노출 확률을 기반으로 역선호도 점수 ($1/\pi_t$) 를 계산하여 추천 점수를 재가중치 (Reweighting) 합니다.
시간 감쇠 가중치: 최근 상호작용에 더 큰 가중치를 주되, 노출 확률이 낮은 항목에 대한 보정을 강화하는 가중치 함수를 설계합니다.

최종 손실 함수는 추천 목표 (BPR-TIPS) 와 노출 분포 학습 목표 (LEP) 를 결합하여 최적화됩니다.

3. 주요 기여 (Key Contributions)

시간 인지 역선호도 (TIPS) 프레임워크 제안: 기존 정적 IPS 의 한계를 극복하고, 순차적 의존성과 시간적 동역학을 통합하여 사용자의 진정한 선호도를 더 정확하게 추정합니다.
노출 로그 없는 노출 분포 추정: 반사실적 데이터 증강 (Counterfactual Augmentation) 기법을 통해 노출 로그가 없는 환경에서도 노출 분포를 효과적으로 추정합니다.
범용 플러그인 아키텍처: 기존 순차 추천 모델 (Attention 기반, RNN 기반) 과 생성형 모델 (Diffusion, VAE) 모두에 적용 가능한 범용적인 구조를 제공합니다.
광범위한 실험 검증: 다양한 데이터셋과 백본 모델에 대한 실험을 통해 제안 방법의 유효성을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: MovieLens (1M, 10M), Music4All, GoodReads 등 4 개의 대규모 데이터셋.
비교 대상: SASRec, TiSASRec, GRU 등 전통적 순차 모델 및 CVAE, DiffuRec 등 생성형 모델, 그리고 기존 편향 보정 방법 (USR, LDPE 등).
성과:
- HyperG 는 모든 백본 모델과 데이터셋에서 일관된 성능 향상을 보였습니다.
- 특히 대규모 데이터셋 (Music4All, ML-10M) 에서 HR@10 기준 최대 8.87%, NDCG@10 기준 8.72% 의 향상 효과를 기록했습니다.
- 생성형 모델 (DiffuRec) 에 적용 시에도 약 4~6% 의 성능 향상을 보였습니다.
Ablation Study:
- 시간 정보 제거 (HyperG¬time) 나 노출 추정 모듈 제거 (HyperG¬EP) 시 성능이 현저히 저하되어, 시간 정보와 노출 모델링의 결합이 핵심임을 입증했습니다.
- 기존 IPS 대비 HyperG 는 긍정/부정 샘플 간의 선호도 점수 분포를 더 잘 구분하여 (Discriminative) 편향 보정 효과를 높였습니다.

5. 의의 및 결론 (Significance)

이 논문은 순차 추천 시스템에서 노출 데이터의 부재로 인한 근본적인 편향 문제를 해결하기 위해 인과적 추론 (Counterfactual Reasoning) 과 시간적 동역학을 결합한 새로운 패러다임을 제시합니다.

실용성: 실제 서비스 환경에서는 노출 로그를 수집하기 어려운 경우가 많으므로, 노출 로그 없이도 편향을 보정할 수 있는 방법은 실제 적용에 매우 중요합니다.
모델 중립성: 기존 추천 모델의 구조를 변경하지 않고도 플러그인으로 적용 가능하여, 연구 및 산업 현장에서의 도입 장벽을 낮춥니다.
향후 방향: 생성형 AI 와 결합된 추천 시스템의 편향 해소에 대한 중요한 기초를 마련했다는 점에서 학술적, 실용적 가치가 높습니다.

요약하자면, 이 연구는 시간을 고려한 역선호도 점수 (TIPS) 를 통해 순차 추천의 노출 및 선택 편향을 효과적으로 제거하고, 사용자의 진정한 선호도를 더 정밀하게 예측하는 강력한 프레임워크를 제안했습니다.