DisenReason: Behavior Disentanglement and Latent Reasoning for Shared-Account Sequential Recommendation

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "누가 이 계정을 쓰고 있을까?"

생각해 보세요. 넷플릭스나 유튜브 같은 서비스를 가족이 하나만 공유한다고 가정해 봅시다.

아빠는 뉴스와 스포츠를 보고,
엄마는 드라마를 보고,
아이는 애니메이션을 봅니다.

기존의 추천 시스템은 **"이 계정은 한 사람이 쓰는 거야"**라고 가정하고 작동합니다. 그래서 아빠가 스포츠를 본 직후에 아이에게 스포츠를 추천하거나, 엄마가 드라마를 본 직후에 아빠에게 드라마를 추천하는 어색한 일이 생깁니다.

기존 연구들은 "아, 이 계정은 보통 2~3 명이 쓰는구나"라고 정해진 숫자를 미리 정해두고 해결하려 했습니다. 하지만 현실은 다릅니다. 어떤 날은 혼자 쓰고, 어떤 날은 온 가족이 함께 쓰는 식으로 사용자 수가 매일 바뀝니다. 이걸 고정된 숫자로 맞추는 건 불가능에 가깝죠.

🧩 2. 해결책: DisenReason (행동 분리 + 추론)

이 논문은 **"사용자 수를 미리 정하지 말고, 행동 자체를 분석해서 알아내자!"**라고 제안합니다. 이를 위해 두 단계의 과정을 거칩니다.

1 단계: '소음 제거'와 '주파수 분리' (Behavior Disentanglement)

비유: 혼란스러운 오케스트라 연주를 악기별로 분리하다

가족이 함께 계정을 쓸 때의 기록은 마치 여러 악기가 한꺼번에 연주하는 소음처럼 섞여 있습니다.

아빠의 행동: 낮에 꾸준히 보는 뉴스 (낮은 주파수, 안정적인 신호)
아이의 행동: 갑자기 보는 애니메이션 (높은 주파수, 급격한 신호)

이 연구팀은 **'푸리에 변환 (Fourier Transform)'**이라는 수학적 도구를 사용합니다. 이는 소리를 주파수 (음높이) 별로 분리하는 기술입니다.

안정적인 신호 (낮은 주파수): 가족 전체의 공통된 취향이나 장기적인 패턴.
급격한 신호 (높은 주파수): 특정 순간의 갑작스러운 행동.

이렇게 주파수 대역별로 행동을 분리한 뒤, 어떤 행동이 중요한지 '스마트하게' 섞어서 **계정 전체의 대표 이미지 (Pivot)**를 만듭니다. 마치 혼란스러운 오케스트라 소리를 악기별로 분리해서, '이 계정은 지금 어떤 분위기인가?'를 정확히 파악하는 것과 같습니다.

2 단계: '점진적 추론' (Progressive Residual Reasoning)

비유: 낚시꾼이 물고기를 하나씩 잡아내는 과정

이제 만든 '대표 이미지'를 바탕으로 누가 숨어있는지 찾아냅니다.

첫 번째 추론: 가장 눈에 띄는 행동 패턴을 가진 사람 (예: 아빠) 을 찾아냅니다.
나머지 제거: 찾은 아빠의 행동을 '대표 이미지'에서 빼버립니다 (잔차 처리). 이제 이미지에는 아빠가 사라지고 엄마와 아이만 남게 됩니다.
두 번째 추론: 남은 이미지에서 다음으로 눈에 띄는 사람 (예: 엄마) 을 찾아냅니다.
반복: 이 과정을 반복하다가, 더 이상 새로운 사람이 나오지 않거나 (이전 사람과 너무 비슷해지면) 멈춥니다.

이 방식은 **"누가 몇 명인지 미리 정하지 않고, 행동이 끝날 때까지 하나씩 찾아낸다"**는 점이 핵심입니다.

🏆 3. 왜 이 방법이 좋을까?

유연함: 계정을 쓰는 사람이 1 명일 수도, 5 명일 수도 있습니다. 이 방법은 상황에 따라 자동으로 맞춰줍니다.
정확도: 실험 결과, 기존 최고의 방법들보다 추천 정확도가 최대 12% 이상 향상되었습니다.
실용성: 넷플릭스, 쇼핑몰, 스마트 홈 등 가족이 공유하는 모든 서비스에 적용 가능합니다.

💡 한 줄 요약

**"한 계정을 여러 사람이 쓸 때, 미리 정해진 숫자에 갇히지 않고 '행동의 주파수'를 분석해 숨겨진 사용자들을 하나씩 찾아내는 똑똑한 추천 시스템"**입니다.

이 기술은 더 이상 "누가 이 계정을 썼을까?"라고 Guess(추측) 하는 것이 아니라, 행동 데이터를 분석해 **정확하게 추론 (Reasoning)**해낸다는 점에서 혁신적입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 스트리밍, 이커머스 등 다양한 디지털 플랫폼에서 여러 사용자가 하나의 계정을 공유하는 '공유 계정 (Shared-Account)' 사용이 보편화되었습니다.
기존 방법의 한계:
- 기존 공유 계정 순차 추천 (SSR) 모델들은 대부분 계정에 숨겨진 사용자 (Latent Users) 의 수가 고정되어 있다는 비현실적인 가정을 합니다. 실제 상황에서는 계정당 사용자 수가 2 명에서 여러 명까지 동적으로 변할 수 있습니다.
- 기존 순차 추천 (SR) 모델들은 마지막 아이템을 사용자의 현재 의도를 나타내는 '추론의 시작점 (Pivot)'으로 사용하지만, 공유 계정 상황에서는 마지막 아이템이 특정 한 사용자의 행동만 반영할 뿐, 계정 전체의 집단적 행동을 대표하지 못합니다.
핵심 문제:
1. 공유 계정의 혼합된 행동 시퀀스를 어떻게 통일된 계정 수준의 표현 (Unified Account-level Representation) 으로 변환할 것인가?
2. 사전에 정해진 수 없이, 각 계정 뒤에 숨겨진 사용자 수를 동적으로 추론 (Adaptively Infer) 할 수 있는 방법은 무엇인가?

2. 제안 방법론: DisenReason (Methodology)

저자들은 DisenReason이라는 새로운 2 단계 추론 프레임워크를 제안합니다. 이 프레임워크는 주파수 영역에서의 행동 분리와 잠재적 추론 (Latent Reasoning) 기술을 결합합니다.

1 단계: 행동 분리를 위한 피벗 생성 (Behavior Disentanglement for Pivot)

목표: 혼합된 사용자 행동 시퀀스에서 계정 전체를 대표하는 '추론 피벗 (Reasoning Pivot)'을 생성합니다.
주파수 영역 분리 (Frequency-domain Disentanglement):
- 공유 계정의 행동 시퀀스를 고속 푸리에 변환 (FFT) 을 통해 주파수 영역으로 변환합니다.
- 신호 처리 이론에 기반하여, 저주파는 안정적인 장기 선호도 (특정 사용자), 고주파는 불안정한 단기 상호작용 (다른 사용자) 으로 해석합니다.
- 주파수 축을 여러 대역 (Sub-bands) 으로 분할하여 서로 다른 행동 패턴 (Behavioral Patterns) 을 분리합니다.
적응형 융합 (Adaptive Fusion):
- 분리된 각 주파수 대역의 중요도를 학습하기 위해 Mixture-of-Experts (MoE) 방식을 도입합니다.
- 각 행동 패턴에 적응적인 가중치를 부여하여 통합된 계정 시퀀스 표현을 생성합니다.
- 이 통합된 표현의 마지막 은닉 상태 (Last Hidden State) 를 추론 피벗 (Reasoning Pivot) 으로 사용합니다.

2 단계: 잠재 사용자를 위한 점진적 잔차 추론 (Progressive Residual Reasoning for Latent User)

목표: 생성된 피벗을 기반으로 계정에 숨겨진 사용자 수와 각 사용자의 표현을 점진적으로 추론합니다.
점진적 잔차 추론 (Progressive Residual Reasoning):
- 피벗에서 가장 지배적인 잠재 사용자를 추론하여 표현 벡터 ( $u^{(t)}$ ) 를 생성합니다.
- 잔차 (Residual) 기법: 추론된 사용자 표현을 현재 피벗에서 뺍니다 ( $r^{(t+1)} = r^{(t)} - u^{(t)}$ ). 이를 통해 이미 추론된 사용자의 신호를 제거하고, 다음 단계에서는 남은 설명되지 않은 신호에 집중하게 합니다.
- 이 과정은 새로운 사용자와 직전 사용자의 의미적 유사도 (Cosine Similarity) 가 임계값 ( $\alpha$ ) 을 초과할 때까지 반복됩니다. 유사도가 높다는 것은 더 이상 새로운 사용자가 없다는 것을 의미하므로 추론이 종료됩니다.
최종 예측: 추론된 모든 잠재 사용자 표현을 평균하여 최종 계정 표현을 만들고, 이를 기반으로 다음 아이템을 추천합니다.

3. 주요 기여 (Key Contributions)

SSR 에 대한 잠재 추론 (Latent Reasoning) 의 최초 도입: 공유 계정 순차 추천 작업에 '생각 후 행동 (Think before acting)' 패러다임을 적용하여, 고정된 사용자 수 가설을 탈피하고 동적인 사용자 수를 추론하는 첫 번째 연구입니다.
DisenReason 프레임워크 개발:
- 주파수 영역 기반의 행동 분리를 통해 신뢰할 수 있는 계정 피벗을 생성합니다.
- 잔차 기반의 점진적 추론 메커니즘을 통해 중복 추론을 방지하고 사용자 수를 자동으로 결정합니다.
성능 입증: 4 개의 벤치마크 데이터셋 (실제 및 합성 공유 계정 데이터) 에서 기존 최첨단 (SOTA) 모델들을 일관되게 상회하는 성능을 보였습니다.

4. 실험 결과 (Results)

데이터셋: Hvideo (HV-E, HV-V), Hamazon (HA-M, HA-B) 등 4 개 데이터셋.
성능:
- 모든 데이터셋에서 MRR@5와 Recall@20 지표에서 SOTA 모델 (LightGC2N, SASRec 등) 을 능가했습니다.
- 특히 HV-E 데이터셋에서 MRR@5 기준 최대 12.56%, Recall@20 기준 6.06% 의 상대적 개선을 달성했습니다.
Ablation Study (성분 분석):
- 행동 분리 (Behavior Disentanglement) 제거 시: 성능이 가장 크게 저하됨 (예: HV-E 에서 MRR@5 가 52.05 → 33.35 로 감소). 이는 마지막 아이템만 사용하는 기존 방식의 한계를 보여줍니다.
- LightGCN 제거 시: 전역 협업 신호 부재로 성능 감소.
- 잔차 연산 제거 시: 약간의 성능 저하 발생 (중복 추론 방지 효과 입증).
강건성 (Robustness): 시퀀스 길이가 길어지거나 학습 데이터 양이 적을 때 (최소 20%) 도 기존 모델들보다 안정적인 성능을 유지했습니다.
사용자 수 추론: 실제 데이터에서 계정마다 다른 수의 잠재 사용자를 동적으로 추론하는 능력을 시각적으로 입증했습니다.

5. 의의 및 결론 (Significance)

이론적 의의: 공유 계정 추천 분야에서 '고정된 사용자 수'라는 비현실적인 가설을 깨고, 신호 처리 (FFT) 와 추론 (Reasoning) 기술을 결합하여 새로운 접근법을 제시했습니다.
실용적 의의: 스트리밍 서비스나 이커머스 플랫폼에서 실제 발생하는 다양한 공유 계정 상황 (가족 단위, 친구 단위 등) 에 맞춰 동적으로 사용자 수를 파악하고 개인화된 추천을 제공할 수 있습니다. 명시적인 사용자 식별이나 수동 설정 없이도 높은 정확도의 추천이 가능해집니다.
한계 및 향후 과제: 고정된 주파수 대역 분할이 미세한 행동 경계를 놓칠 수 있으며, 두 단계 간의 파라미터 결합이 작업 목적을 흐릴 수 있다는 점을 지적하며, 향후 적응형 주파수 분해 및 해리 (Decoupled) 아키텍처 연구를 제안했습니다.

요약하자면, DisenReason은 공유 계정의 복잡한 행동 패턴을 주파수 영역에서 분리하고, 이를 기반으로 잠재 사용자를 점진적으로 추론하여 기존 방법론의 한계를 극복한 혁신적인 추천 모델입니다.

DisenReason: Behavior Disentanglement and Latent Reasoning for Shared-Account Sequential Recommendation

🎬 1. 문제 상황: "누가 이 계정을 쓰고 있을까?"

🧩 2. 해결책: DisenReason (행동 분리 + 추론)

1 단계: '소음 제거'와 '주파수 분리' (Behavior Disentanglement)

2 단계: '점진적 추론' (Progressive Residual Reasoning)

🏆 3. 왜 이 방법이 좋을까?

💡 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론: DisenReason (Methodology)

1 단계: 행동 분리를 위한 피벗 생성 (Behavior Disentanglement for Pivot)

2 단계: 잠재 사용자를 위한 점진적 잔차 추론 (Progressive Residual Reasoning for Latent User)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study