LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

Each language version is independently generated for its own context, not a direct translation.

🍽️📚 상황 설정: "만능 추천사"의 고민

상상해 보세요. 당신은 아주 유명한 **개인 비서 (추천 시스템)**입니다.
고객이 **A 부서 (음식)**에서는 맛있는 파스타를 좋아하고, **B 부서 (주방용품)**에서는 고급 팬을 사서 요리하는 걸 좋아합니다.

기존의 비서들은 이렇게 생각했습니다.

"음, 고객은 파스타만 좋아하네? 다음엔 또 파스타를 추천해야지."
"아니, 팬만 좋아하네? 다음엔 팬을 추천해야지."

문제점:

데이터 부족: 파스타만 보면 '이 사람은 파스타만 좋아해'라고 단정 짓지만, 사실은 '요리 자체'를 좋아하는 걸 모릅니다.
정보 부족: 파스타 사진이나 설명서를 보지 않고, 그냥 '파스타'라는 이름 (ID) 만 보고 추천합니다.
편향: 한쪽 부서 (예: 음식) 기록이 너무 많으면, 다른 부서 (주방용품) 기록을 무시하고 음식만 계속 추천합니다.

💡 이 논문이 제안한 해결책: "LLM-EMF" (지능형 멀티모달 융합 비서)

이 논문은 기존 비서에게 세 가지 강력한 업그레이드를 해줍니다.

1. 🧠 "생각을 확장하는" LLM (대형 언어 모델)

기존 비서는 물건 이름만 알았지만, 이 비서는 **LLM(초지능 AI)**을 고용했습니다.

비유: 파스타를 추천할 때, LLM 에게 "이 파스타는 이탈리아 전통 레시피를 따르며, 토마토 소스가 특징이야"라고 물어봅니다.
효과: 단순히 '파스타'라는 이름만 보는 게 아니라, 맛, 분위기, 요리 스타일 같은 깊은 의미 (맥락) 를 이해하게 됩니다. 이렇게 하면 '파스타'를 좋아하는 사람과 '이탈리아 요리'를 좋아하는 사람을 연결해 줄 수 있습니다.

2. 👁️👄 "눈과 귀를 동시에 쓰는" 멀티모달 (Multimodal)

기존 비서는 물건 이름 (ID) 만 봤지만, 이 비서는 **눈 (이미지)**과 **귀 (텍스트)**를 모두 사용합니다.

비유:
- 눈 (CLIP 모델): 파스타의 사진을 보고 "와, 이거 정말 맛있겠다, 색감이 좋아"라고 느낍니다.
- 귀 (텍스트): 파스타의 설명을 읽고 "저는 이 재료 조합을 좋아해요"라고 이해합니다.
효과: 이름만 보고 추천하는 게 아니라, 시각적 매력과 내용까지 모두 고려해서 훨씬 더 정교한 추천을 합니다.

3. ⚖️ "공정한 저울" (계층적 주의 메커니즘)

한쪽 부서의 기록이 너무 많으면 다른 부서를 무시하는 문제를 해결합니다.

비유: 비서가 고객 기록을 볼 때, "음식 기록이 100 개고 주방용품 기록이 10 개라면, 100 개만 보고 결정하지 말자"라고 생각합니다.
효과: LLM 이 생성한 새로운 정보와 이미지, 텍스트를 모두 섞어서, 어떤 분야가 너무 지배하지 않도록 균형 잡힌 추천을 합니다.

🚀 결과: 어떻게 작동할까요?

이 새로운 시스템 (LLM-EMF) 은 다음과 같이 작동합니다.

정보 수집: 고객에게서 음식과 주방용품 기록을 모두 모읍니다.
지식 추가: LLM 을 통해 "이 물건은 이런 특징이 있고, 이런 사람들에게 어울려요"라는 새로운 설명을 만들어냅니다.
다중 감각 통합: 물건 사진, 설명, 그리고 LLM 이 만든 설명을 모두 하나로 합칩니다.
균형 잡기: 어떤 분야가 너무 많지 않게 조절하면서, 고객의 취향을 분석합니다.
최종 추천: "고객님은 파스타를 좋아하시는데, 이 고급 팬을 사시면 파스타를 더 맛있게 드실 수 있을 거예요!"라고 추천합니다.

🏆 결론

이 논문은 **"단순히 기록만 보는 게 아니라, AI 가 그림을 보고 글을 읽고 깊이 생각하게 만들어서, 서로 다른 분야 (음식과 주방용품 등) 를 연결해 주는 더 똑똑한 추천 시스템"**을 만들었습니다.

실험 결과, 기존 방법들보다 더 정확하게 사용자의 다음 행동을 예측할 수 있었습니다. 마치 단순한 서점 사서가 문학 평론가이자 그림 전문가로 변신해서, 책뿐만 아니라 책 표지의 디자인과 작가의 철학까지 고려해 책을 추천하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

교차 도메인 순차 추천 (Cross-Domain Sequential Recommendation, CDSR) 은 사용자의 여러 도메인 (예: 음식, 주방용품, 영화, 책 등) 에 걸친 과거 상호작용 이력을 활용하여 다음에 선호할 아이템을 예측하는 작업입니다. 기존 단일 도메인 추천은 데이터 희소성 (Data Sparsity) 과 도메인 편향 (Domain Bias) 으로 인해 일반화 성능이 떨어지는 한계가 있습니다.

기존 CDSR 방법론들은 다음과 같은 세 가지 주요 한계를 가지고 있습니다:

도메인 간 관계의 미흡한 탐색: 주로 도메인 내부의 의존성 (Intra-domain) 에 집중하여, 서로 다른 도메인 간의 관계 (Inter-domain) 를 충분히 활용하지 못함.
멀티모달 정보의 활용 부족: 이미지, 텍스트 등 풍부한 멀티모달 데이터를 충분히 반영하지 못함.
도메인 불균형 문제: LLM 기반 접근법조차 교차 도메인 선호도 모델링 시 도메인 간의 데이터 불균형 (예: 한 도메인의 상호작용이 다른 도메인보다 압도적으로 많은 경우) 을 고려하지 않아, 빈도가 높은 도메인이 추천을 지배하는 문제가 발생함.

2. 제안 방법론 (Methodology: LLM-EMF)

저자들은 이러한 한계를 해결하기 위해 LLM-EMF라는 새로운 프레임워크를 제안했습니다. 이 프레임워크는 프롬프트 기반 LLM 증강, 멀티모달 융합, 그리고 도메인 균형 계층적 어텐션 메커니즘을 통합합니다.

2.1. 핵심 구성 요소

프롬프트 기반 LLM 증강 (Prompt-based LLM Augmentation):
- 각 아이템의 제목과 도메인 정보를 입력으로 하여 Deepseek-r1 과 같은 LLM 을 활용합니다.
- 도메인 중립적 (Domain-agnostic) 인 시맨틱 속성과 추가적인 문맥 정보를 생성하여 아이템 표현을 풍부하게 만듭니다. 이는 도메인 간의 의미론적 정렬 (Semantic Alignment) 을 개선합니다.
멀티모달 특징 통합 (Multimodal Feature Integration):
- ID 임베딩: 학습 가능한 아이템 식별자 (ID) 행렬 사용.
- 시각 및 텍스트 임베딩: 프리트레인된 CLIP 모델을 사용하여 고정 (Frozen) 된 이미지 및 텍스트 (제목) 임베딩을 생성합니다.
- 생성된 LLM 증강 텍스트는 CLIP 텍스트 인코더를 통해 임베딩되어 시각 및 ID 특징과 결합됩니다.
계층적 어텐션 메커니즘 (Hierarchical Attention Mechanism):
- 사용자의 상호작용 시퀀스를 세 가지 하위 시퀀스로 분할하여 처리합니다: 도메인 X 만의 시퀀스 ( $S_X$ ), 도메인 Y 만의 시퀀스 ( $S_Y$ ), 그리고 두 도메인이 혼합된 시퀀스 ( $S_{X+Y}$ ).
- 각 시퀀스에 대해 ID, 이미지, 텍스트 기반의 어텐션 레이어를 독립적으로 적용하여 도메인 내 (Intra-domain) 및 도메인 간 (Inter-domain) 관계를 모델링합니다.
- 도메인 불균형 해결: 각 도메인의 기여도를 명시적으로 조절하는 가중치 ( $\lambda$ ) 를 도입하여, 상호작용 빈도가 높은 도메인이 추천 결과를 독점하는 것을 방지합니다.
예측 및 손실 함수:
- 최종 예측은 각 도메인과 멀티모달 특징 (ID, 이미지, 텍스트) 에서 도출된 유사도 점수를 가중 합산하여 수행됩니다.
- 손실 함수는 각 도메인별 예측 오차를 가중치로 결합하여 최적화합니다.

3. 주요 기여 (Key Contributions)

도메인 중립적 LLM 증강 전략: 프롬프트 엔지니어링을 통해 도메인 간 의미론적 정렬을 개선하는 추가적인 텍스트 속성을 생성했습니다.
통합 멀티모달 융합 프레임워크: 시각, 텍스트, ID 임베딩을 계층적 어텐션 메커니즘을 통해 통합하여, 도메인 불균형을 완화하면서 복잡한 사용자 선호도를 포착합니다.
성능 입증: 4 개의 전자상거래 데이터셋 (Amazon Food-Kitchen, Movie-Book 등) 에서 실험을 수행하여, 기존 최첨단 (SOTA) 방법론들보다 모든 평가 지표에서 우수한 성능을 보임을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: Amazon 데이터셋을 기반으로 구축된 'Food-Kitchen' 및 'Movie-Book' 두 가지 교차 도메인 시나리오.
평가 지표: Mean Reciprocal Rank (MRR), NDCG@5, NDCG@10.
성능 비교:
- Food-Kitchen 시나리오: LLM-EMF 는 MRR 9.24% (Food), 5.13% (Kitchen) 를 기록하여, 2 위인 MAN(8.65%) 및 LLMRec(9.05%) 을 능가했습니다.
- Movie-Book 시나리오: LLM-EMF 는 MRR 6.32% (Movie), 2.86% (Book) 를 기록하여 기존 방법론들을 압도했습니다.
Ablation Study (구성 요소 제거 실험):
- 기본 프레임워크 (MRR 5.03) 에 텍스트 융합을 추가하면 5.88 로 상승.
- LLM 증강을 추가하면 6.01 로 추가 상승.
- 시각 융합을 추가하면 6.08 로 상승.
- 모든 요소를 통합한 LLM-EMF는 6.32 로 최고 성능을 달성하여, 멀티모달 정보와 LLM 지식의 통합이 성능 향상에 결정적임을 증명했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 LLM 과 멀티모달 데이터를 교차 도메인 순차 추천에 체계적으로 통합한 최초의 프레임워크 중 하나라는 점에서 의의가 있습니다.

기술적 혁신: 단순한 텍스트 증강을 넘어, LLM 이 생성한 시맨틱 정보를 CLIP 기반의 시각/텍스트 임베딩과 결합하고, 도메인 불균형을 해결하는 어텐션 메커니즘을 도입했습니다.
실용적 가치: 데이터가 희소하거나 도메인 간 편향이 심한 실제 전자상거래 환경에서도 사용자의 복잡한 관심사를 정확히 파악하여 추천 품질을 획기적으로 개선할 수 있음을 보여줍니다.

결론적으로, LLM-EMF 는 시퀀스 기반 추천 시스템의 한계를 극복하고, 멀티모달 데이터와 대규모 언어 모델의 시너지를 통해 차세대 교차 도메인 추천의 새로운 표준을 제시합니다.