SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "기억력이 너무 좋은 사람"의 딜레마

상상해 보세요. 당신이 친구를 소개해 주는 추천 시스템이라고 합시다.

과거 방식 (기존 기술): 친구가 "지난 10,000 일 동안 본 모든 영화"를 기억하고 있습니다. 그런데 친구가 "오늘 이 3,000 개의 영화 중 무엇을 볼까?"라고 물어보면, 당신은 10,000 개의 과거 영화와 3,000 개의 후보 영화를 하나하나 비교하며 "어? 이 친구는 3 년 전 A 영화를 봤는데, 지금 B 영화를 추천하면 어떨까?"라고 계산합니다.
문제점: 이렇게 모든 것을 다 비교하면 계산량이 엄청나게 많아집니다. (수학적으로 $N^2$ 에 비례해서 늘어납니다.) 그래서 실제로는 10,000 개를 다 기억하지 못하고, "최근 50 개만 기억하자"거나 "유사한 것만 골라보자"라고 일부러 기억을 잘라내거나 필터링을 씁니다. 하지만 이렇게 하면 중요한 '오래된 취향'이나 '희귀한 취향'을 놓칠 수 있습니다.

2. 기존 해결책의 함정: "계산은 빠르지만, 맛이 달라진 요리"

연구자들은 "계산량을 줄이자!"라고 해서 새로운 방법을 시도했습니다.

선형 주의 (Linear Attention): 모든 것을 다 비교하는 대신, "대략적인 느낌"으로만 계산하는 방식입니다. 계산은 빨라졌지만, **소프트맥스 (Softmax)**라는 중요한 재료를 빼먹었습니다.
비유: 마치 "요리를 빨리 하려고 불을 끄고 찬밥을 먹자"는 것과 같습니다. 속도는 빠르지만, 원래의 맛 (정확한 선호도) 이 사라져서 추천이 매끄럽기만 하고 강렬한 취향이 사라지는 문제가 생깁니다.

3. SOLAR 의 핵심 아이디어: "불필요한 정보는 버리고, 핵심만 잡자"

이 논문은 **"사용자의 행동 데이터는 사실 중복된 정보가 많아서, 핵심만 뽑아내도 똑같은 결과가 나온다"**는 사실을 발견했습니다.

핵심 발견 (저랭크 구조): 사용자가 10,000 개의 영상을 봤다고 해도, 그중에서 진짜 중요한 '취향의 핵심'은 고작 27 개 정도에 불과할 수 있습니다. (논문의 그림 1 참조) 마치 10,000 장의 사진이 있지만, 그 사진들의 공통된 주제는 '산', '바다', '사람' 세 가지뿐인 것과 같습니다.
SVD-Attention (핵심 기술): 이 기술은 **SVD(특이값 분해)**라는 수학적 도구를 써서, 10,000 개의 데이터를 핵심 27 개로 압축합니다.
- 비유: 10,000 페이지의 두꺼운 책을 읽을 때, **목차와 핵심 요약 (27 페이지)**만 읽어도 책의 전체 내용을 99% 이해할 수 있다면, 굳이 10,000 페이지를 다 읽을 필요가 없죠? SOLAR 는 이렇게 핵심 요약만 보고도 원본과 똑같은 결론을 내립니다.
- 장점: 계산 속도는 수천 배 빨라지지만, 원래의 '맛 (소프트맥스 방식의 정확한 선호도)'은 그대로 유지됩니다.

4. SOLAR 의 두 가지 혁신

이 기술이 적용된 SOLAR 시스템은 두 가지 면에서 혁신적입니다.

① "기억력"의 확장 (Lifelong Attention)

과거: "최근 50 개만 기억해." (필터링 필요)
SOLAR: "지난 10,000 개를 다 기억해." (필터링 불필요)
결과: 사용자가 10 년 전부터 좋아했던 취향까지 놓치지 않고, 10,000 개의 과거 기록을 3,000 개의 후보 영화와 비교해도 순식간에 추천해 줍니다.

② "경쟁"을 고려한 추천 (Set-wise Modeling)

과거: "이 영화는 80 점, 저 영화는 70 점." (각각 독립적으로 점수 매김)
- 문제: 두 영화가 비슷하면 둘 다 80 점일 수 있어, 어떤 걸 고를지 결정하기 어렵습니다.
SOLAR: "이 3,000 개의 영화 중에서 서로 경쟁했을 때 누가 이길까?"를 봅니다.
- 비유: 시험에서 A 학생이 90 점, B 학생이 80 점이라고 해서 A 가 무조건 좋은 게 아닙니다. **반 전체 (후보군)**를 놓고 비교했을 때 A 가 더 돋보이면 A 를 추천합니다. 이렇게 **경쟁 관계 (Set-wise)**를 고려해야 사용자가 실제로 클릭할 확률이 높아집니다.

5. 실제 성과: 카카오톡 (카카오) 의 사례

이 기술은 **카카오 (Kuaishou)**라는 거대한 동영상 플랫폼에서 실제로 적용되었습니다.

결과: 비디오 조회수 (Views) 가 0.68% 증가했습니다.
의미: 거대 플랫폼에서 0.1% 만 올라도 엄청난 수익과 사용자 만족도로 이어집니다. 또한, 서버 비용은 줄이고 속도는 빨라졌습니다.

요약: 한 문장으로 정리하면?

"SOLAR 는 사용자의 방대한 과거 기록 (10,000 개) 을 '핵심 요약본'으로 압축하여, 기존 기술보다 훨씬 빠르고 정확하게, 동시에 모든 후보작을 경쟁시켜서 최적의 추천을 해주는 기술입니다."

이 기술은 앞으로 우리가 유튜브나 넷플릭스에서 더 오래, 더 다양한 콘텐츠를 만나면서도, 시스템이 느려지지 않고 더 똑똑해지도록 도와줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대 추천 시스템, 특히 Transformer 기반 모델에서는 Attention 메커니즘이 전역적인 상호작용을 학습하는 핵심 연산자로 사용됩니다. 그러나 표준 Softmax Attention 은 시퀀스 길이 $N$ 과 임베딩 차원 $d$ 에 대해 $O(N^2d)$ 의 시간 및 메모리 복잡도를 가집니다. 이는 다음과 같은 심각한 문제를 야기합니다:

긴 컨텍스트 모델링의 비효율성: 사용자의 행동 시퀀스 (수만 개) 와 후보 아이템 집합 (수천 개) 을 모두 고려할 때 계산 비용이 기하급수적으로 증가하여, 실제 산업 환경에서는 시퀀스를 잘라내거나 (truncation) 필터링해야만 합니다.
기존 효율화 기법의 한계:
- Sparse/Truncated Attention: 상호작용을 일부 제거하여 계산을 줄이지만, 분산된 약한 신호 (weak signals) 를 놓칠 수 있습니다.
- Linear Attention: 커널 특징 맵을 통해 계산을 재배열하여 $O(Nd^2)$ 로 복잡도를 낮추지만, Softmax 정규화를 제거합니다. 이로 인해 Attention 점수 분포가 왜곡되고, 고강도 키 (high-magnitude keys) 를 과소평가하는 'Magnitude Neglect' 현상이 발생하여 추천 성능이 저하될 수 있습니다.

2. 방법론 (Methodology)

이 논문은 추천 시스템에서 사용자 행동 시퀀스 행렬이 저랭크 (Low-Rank) 구조를 가진다는 인덕티브 바이어스 (inductive bias) 를 활용하여 위 문제들을 해결합니다.

A. SVD-Attention (핵심 연산자)

기존의 Softmax Attention 을 대체하지 않고, **Shared Key-Value 행렬 ( $H$ )**의 저랭크 구조를 활용하여 계산을 최적화합니다.

원리: Key-Value 행렬 $H$ 를 랭크 $r$ ( $r \ll d$ ) 로 자른 SVD(특이값 분해) 를 수행합니다 ( $H \approx U\Sigma V^\top$ ).
계산 최적화: Attention 연산 과정에서 $U$ $U$ 행렬의 곱셈을 제거합니다. $U^\top U = I$ $U^{⊤} U = I$ (단위 행렬) 성질을 이용하여, $Q K^\top V$ $Q K^{⊤} V$ 연산을 $Q (K_r^\top V_r)$ $Q (K_{r}^{⊤} V_{r})$ 형태로 재구성합니다.
- 여기서 $K_r, V_r$ 은 저랭크 분해된 요소들입니다.
복잡도 감소: 계산 복잡도를 $O(N^2d)$ 에서 $O(Ndr)$ 로 줄입니다.
Softmax 보존: 연산 순서를 변경하지 않고 Softmax 정규화를 그대로 유지하므로, Linear Attention 의 점수 분포 왜곡 문제가 발생하지 않습니다.
학습 가능성: SVD 연산은 미분 불가능한 것으로 알려져 있으나, 논문은 Truncated SVD 에 대한 Backward Pass (기울기 전파) 수식을 유도하여 엔드 - 투 - 엔드 학습을 가능하게 합니다.

B. SOLAR 프레임워크

SVD-Attention 을 기반으로 한 SOLAR (SVD-Optimized Lifelong Attention for Recommendation) 프레임워크를 제안합니다.

Set-Wise 모델링: 개별 아이템 점수 (Point-wise) 가 아닌, 전체 후보 집합 (Candidate Set) 을 조건으로 한 순위 결정 (Set-wise) 을 수행합니다.
무 필터링 긴 시퀀스: 필터링 없이 수만 개 (10,000+) 의 사용자 행동 시퀀스와 수천 개의 후보 아이템을 동시에 처리할 수 있는 캐스케이딩 (cascading) 프로세스를 지원합니다.

C. 이론적 분석 (Theoretical Analysis)

Ranking Bias (순위 편향): Point-wise 모델은 컨텍스트에 따라 선호도가 반전되는 상황 (Contextual Flip) 에서 구조적으로 불가피한 순위 오류를 범함을 증명했습니다. 반면 Set-wise 모델은 이를 해결할 수 있습니다.
Generalization Gap (일반화 간격): 후보 아이템 간의 상관관계 (Correlation) 가 클수록 Point-wise 모델의 일반화 오차가 커짐을 증명했습니다. Set-wise 아키텍처는 동적으로 상관관계를 제거하여 더 엄격한 일반화 한계를 가집니다.

3. 주요 기여 (Key Contributions)

SVD-Attention 도입: 공유 Key-Value 행렬의 저랭크 구조를 활용하여 Softmax 를 유지하면서 Attention 복잡도를 $O(N^2d) \to O(Ndr)$ 로 줄인 새로운 Attention 메커니즘을 제안했습니다.
SOLAR 프레임워크 개발: 수만 개의 행동 시퀀스와 수천 개의 후보를 필터링 없이 처리하는 Set-aware 시퀀스 모델링 프레임워크를 구축했습니다.
이론적 증명: Point-wise 모델이 가지는 순위 편향 (Ranking Bias) 과 일반화 패널티 (Generalization Penalty) 를 이론적으로 분석하고, Set-wise 아키텍처의 우월성을 증명했습니다.
실제 배포 및 검증: 카이쇼우 (Kuaishou) 의 온라인 추천 시스템에 배포하여 비즈니스 지표를 개선했습니다.

4. 실험 결과 (Results)

A. 오프라인 벤치마크 (RecFlow, MIND)

RecFlow: SOLAR 은 AUC 0.6812, Logloss 0.0610을 기록하여 기존 최상위 모델 (IFA, TWIN 등) 을 모두 상회했습니다.
MIND: AUC 0.6713, Logloss 0.1052로 최상의 성능을 달성했습니다.

B. 온라인 배포 (Kuaishou)

환경: 12,000 개의 행동 시퀀스와 3,000 개의 후보 아이템을 처리.
성과:
- AUC: 0.8531 (기존 모델 대비 향상).
- UAUC: 0.8502.
- 비즈니스 지표: Video Views(영상 조회수) 가 0.68% 증가했으며, 기타 비즈니스 지표에서도 개선 효과를 보였습니다.
효율성:
- SVD-Attention 을 적용한 결과, 온라인 배포 시 머신 코어 사용량이 약 52.38% 감소했습니다.
- CPU 기반 단일 스레드 벤치마크에서 긴 시퀀스 ( $N$ ) 에 대해 Softmax Attention 대비 월등히 낮은 지연 시간 (Latency) 을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 추천 시스템의 장기 행동 모델링 (Lifelong Behavior Modeling) 에서 겪는 계산 병목 현상을 데이터의 저랭크 구조를 활용하여 해결한 획기적인 사례입니다.

기술적 의의: Softmax 를 유지하면서 Attention 의 이차적 복잡도를 선형에 가깝게 줄인 것은 Transformer 기반 추천 시스템의 확장성을 크게 높였습니다.
산업적 의의: 필터링 없이 긴 시퀀스를 처리함으로써 사용자의 장기적인 관심사를 더 정밀하게 포착할 수 있게 되었고, 이는 실제 서비스 (Kuaishou) 에서 직접적인 비즈니스 성과 (조회수 증가) 로 이어졌습니다.
확장성: 이 접근법은 추천 시스템을 넘어 언어 모델링, 컴퓨터 비전 등 긴 컨텍스트가 필요한 다른 도메인에서도 저랭크 구조를 가진 대규모 표현 학습의 효율성을 높이는 데 적용될 수 있습니다.