Bringing Model Editing to Generative Recommendation in Cold-Start Scenarios

Each language version is independently generated for its own context, not a direct translation.

🍎 비유: "새로운 과일을 파는 슈퍼마켓 AI"

상상해 보세요. 거대한 AI 슈퍼마켓이 있습니다. 이 슈퍼마켓은 과거에 사람들이 무엇을 샀는지 기억하고, "다음엔 이 과일을 사실 거예요!"라고 추천해 줍니다.

1. 문제: "새로운 과일"이 등장하면 AI 는 당황합니다 (콜드 스타트 붕괴)

어느 날, 슈퍼마켓에 전혀 본 적 없는 새로운 과일 (예: '신비한 보라색 망고') 이 들어왔습니다.

기존 AI 의 반응: "이게 뭐지? 내 기억 속에 이 과일의 코드가 없어! 아예 추천을 안 하거나, 엉뚱한 사과를 추천해 버려요."
결과: 새로운 과일을 추천하는 정확도가 **0%**에 가까워집니다. 이를 논문에서는 **'콜드 스타트 붕괴 (Cold-Start Collapse)'**라고 부릅니다.

2. 기존 해결책의 문제점: "다시 공부하기"

기존에는 이런 문제가 생기면 AI 를 **처음부터 다시 공부 (재학습)**시켰습니다.

단점: 시간이 너무 오래 걸리고, 비용이 많이 들며, 새로운 과일이 계속 들어오면 AI 는 항상 뒤처지게 됩니다. 마치 매일 아침마다 학교를 다시 다니는 것과 같습니다.

3. 새로운 해결책: "GenRecEdit" (AI 의 지식 수정)

이 논문은 **"재학습 없이, AI 의 머릿속에 새로운 지식만 딱 집어넣는 방법"**을 제안합니다. 이를 **'모델 편집 (Model Editing)'**이라고 합니다.

핵심 아이디어:

NLP(언어 AI) 에서 영감: 언어 AI 가 "미국 대통령은 조 바이든"이라고 배웠는데, "도널드 트럼프"로 바꾸려면 전체를 다시 공부할 필요 없이, 그 부분만 수정하면 됩니다.
하지만 추천 시스템은 다릅니다:
- 문제 1 (구조의 부재): 언어는 "주어 + 서술어"처럼 구조가 명확하지만, 추천 데이터는 "과일 A -> 과일 B -> 과일 C"처럼 이어지는 것뿐이라, "어디를 고쳐야 할지" 찾기 어렵습니다.
- 문제 2 (고정된 패턴 없음): "도널드"와 "트럼프"는 항상 같이 오지만, 새로운 과일은 어떤 순서로 나올지 정해진 패턴이 없습니다.

4. GenRecEdit 의 3 가지 비밀 무기

이 문제를 해결하기 위해 연구팀은 GenRecEdit라는 도구를 만들었습니다.

가짜 경험 만들기 (Position-Wise Knowledge Preparation)
- 새로운 과일이 들어오면, AI 가 아직 본 적이 없어서 당황합니다.
- 해결: "이 새로운 과일은 과거에 팔렸던 '사과'와 비슷하네?"라고 가상의 구매 기록을 만들어 AI 에게 보여줍니다. 마치 새로운 학생에게 "너는 이 친구와 비슷하니까, 이 친구가 했던 행동을 따라 해봐"라고 알려주는 것과 같습니다.
정확한 위치 찾기 (Locate-Then-Edit)
- AI 의 뇌 (신경망) 는 층층이 쌓여 있습니다. 어디를 고쳐야 할지 모르면 엉망이 됩니다.
- 해결: "어떤 층 (Layer) 에서 이 새로운 과일에 대한 정보가 가장 잘 구분되는가?"를 찾아내서, 그 층만 딱 고칩니다. 전체를 고치는 게 아니라, 필요한 부분만 수술하는 것과 같습니다.
한 번에 하나씩 고치기 (One-One Triggering)
- 새로운 과일은 보통 4 개의 숫자 (코드) 로 이루어져 있습니다. (예: 1-2-3-4)
- 문제: 4 개의 숫자를 한 번에 다 고치려다 보면 서로 섞여서 엉뚱한 결과가 나옵니다.
- 해결: "1 번 숫자를 고칠 때는 1 번 층만 작동하고, 2 번 숫자를 고칠 때는 2 번 층만 작동하게" 순서대로 하나씩 고칩니다. 이렇게 하면 서로 간섭하지 않고 정확한 코드를 만들어냅니다.

5. 결과: 얼마나 빨라졌나요?

기존 방식 (재학습): 100% 의 시간과 비용이 듭니다.
GenRecEdit: 약 9.5% 의 시간만으로도 같은 효과를 냅니다.
효과: 새로운 과일을 추천하는 능력은 획기적으로 좋아졌는데, 기존에 잘하던 추천 (따뜻한 고객) 능력은 거의 떨어지지 않았습니다.

📝 한 줄 요약

"새로운 물건을 추천할 때 AI 가 망가지는 문제를, AI 를 다시 공부시키는 대신 '머릿속의 특정 부분만 정확히 수정'하는 방식으로 해결했습니다. 비용은 10 분의 1 로 줄이고, 효과는 그대로 유지했습니다!"

이 기술은 뉴스나 쇼츠처럼 매일 새로운 콘텐츠가 쏟아지는 플랫폼에서 AI 가 실시간으로 새로운 것을 추천할 수 있게 해주는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem Definition)

1.1 생성형 추천 (Generative Recommendation, GR) 의 한계

최근 생성형 추천은 시퀀스 추천을 엔드 - 투 - 엔드 생성 패러다임으로 전환하여 확장성과 성능 면에서 우수함을 입증했습니다.
그러나 기존 GR 모델은 콜드스타트 붕괴 (Cold-Start Collapse) 현상에 시달립니다. 이는 훈련 데이터에 존재하지 않는 새로운 아이템 (콜드스타트 아이템) 에 대한 추천 정확도가 거의 0 으로 떨어지는 현상을 의미합니다.

1.2 기존 해결책의 문제점

현재 콜드스타트 문제를 해결하기 위한 주된 방법은 새로운 상호작용 데이터를 수집하여 모델을 재학습 (Retraining) 하거나 추가 학습 (Finetuning) 하는 것입니다.
하지만 이 방식은 다음과 같은 치명적인 단점이 있습니다:
- 희소한 피드백: 콜드스타트 아이템에 대한 초기 데이터가 매우 부족함.
- 높은 계산 비용: 모델을 처음부터 다시 학습하는 데 막대한 시간과 연산 자원이 소요됨.
- 지연된 업데이트: 빠르게 변화하는 상품 카탈로그 (뉴스, 숏폼 비디오 등) 에 실시간으로 대응하기 어려움.

1.3 핵심 질문

NLP 분야에서 대형 언어 모델 (LLM) 에 훈련 없이 지식을 주입하는 모델 편집 (Model Editing) 기법을 GR 에 적용할 수 있는가?
만약 가능하다면, GR 데이터의 고유한 특성 (문장 구조 부재, 토큰 공발생 패턴 부재) 으로 인한 두 가지 근본적인 과제를 어떻게 해결할 것인가?

2. 제안 방법론: GenRecEdit

저자들은 생성형 추천을 위한 최초의 모델 편집 프레임워크인 GenRecEdit를 제안합니다. 이 프레임워크는 콜드스타트 아이템의 시맨틱 ID(SID) 패턴을 '편집 가능한 지식'으로 간주하여 기존 모델에 주입합니다.

2.1 핵심 도전 과제 및 해결 전략

GR 데이터에 모델 편집을 적용할 때 발생하는 두 가지 주요 문제를 해결하기 위해 다음과 같은 전략을 채택했습니다.

명시적인 문장 구조 및 주체 - 객체 결합 (Subject-Object Binding) 부재:
- 문제: NLP 는 "The American president is..."와 같이 명확한 주체와 객체가 존재하지만, GR 은 시퀀스만 존재하여 특정 아이템을 대상으로 편집하기 어렵습니다.
- 해결: 전체 시퀀스 컨텍스트와 다음 토큰 (Next-token) 간의 내재적 관계를 명시적으로 모델링합니다. 문장 구조 대신, 전체 히스토리 (Subject) 와 목표 토큰 (Object) 의 관계를 정의하여 편집 요청을 구성합니다.
고정된 토큰 공발생 패턴 (Token Co-occurrence) 부재:
- 문제: NLP 는 "Donald"와 "Trump"처럼 안정적인 구 (Phrase) 가 존재하지만, GR 의 콜드스타트 아이템은 훈련 중 관찰되지 않아 SID 패턴이 고정되어 있지 않습니다. 따라서 한 번에 여러 토큰을 주입하는 것은 불확실합니다.
- 해결: **반복적인 토큰 단위 편집 (Iterative Token-level Edits)**을 도입합니다. 하나의 아이템 (보통 4 개의 SID 토큰) 을 한 번에 주입하는 대신, 각 위치 (Position) 마다 토큰을 순차적으로 편집하여 안정성을 확보합니다.

2.2 GenRecEdit 의 세 가지 주요 모듈

위치별 지식 준비 (Position-Wise Knowledge Preparation):
- 콜드스타트 아이템에 대한 실제 상호작용 데이터가 없으므로, 유사한 웜 (Warm) 아이템의 히스토리를 기반으로 **가짜 상호작용 데이터 (Pseudo Interaction Data)**를 생성합니다.
- 이를 통해 각 토큰 위치 ( $p$ ) 별 편집 요청 $\langle s_p, o_p \rangle$ (히스토리 + 접두사, 목표 토큰) 을 구성합니다.
Locate-Then-Edit 프레임워크 (위치 탐색 후 편집):
- 레이어 위치 선정 (Layer Location): 각 토큰 위치별로 어떤 신경망 레이어가 해당 지식을 가장 잘 표현하는지 탐지합니다. 선형 프로빙 (Linear Probing) 분류기를 훈련하여 콜드스타트 데이터와 기존 데이터의 활성화 (Activation) 를 구분할 수 있는 최적의 레이어를 선택합니다.
- 메모리 구성 및 파라미터 업데이트: 선택된 레이어의 FFN(Feed-Forward Network) 출력에 필요한 보정값 ( $\delta$ ) 을 계산하고, 기존 지식 (웜 아이템) 을 보존하면서 새로운 지식 (콜드스타트) 을 주입하도록 가중치 업데이트 ( $\Delta W$ ) 를 수행합니다. 이는 최소 제곱 문제 (Least-squares) 로 풀며, 보존과 주입 사이의 균형을 조절하는 하이퍼파라미터 $\lambda$ 를 사용합니다.
One-One Triggering Policy (인퍼런스 시 트리거링):
- 문제: 여러 위치 ( $p=0,1,2,3$ ) 에 대한 편집이 동시에 활성화되면 토큰 간 간섭이 발생하여 불안정한 생성이 일어납니다.
- 해결: 디코딩 시 현재 생성 중인 토큰의 위치 ( $p$ ) 에 해당하는 편집 레이어 ( $l_p$ ) 하나만 활성화시키고 나머지는 비활성화하는 'One-One' 전략을 도입합니다. 이를 통해 위치 간 간섭을 방지하고 안정적인 SID 생성을 보장합니다.

3. 주요 기여 (Key Contributions)

콜드스타트 붕괴 현상의 규명: GR 모델이 콜드스타트 아이템의 첫 번째 시맨틱 ID 토큰은 생성할 수 있으나, 이후 토큰들을 훈련된 기존 패턴으로 채우려는 편향 (Bias) 으로 인해 정확도가 급격히 떨어짐을 분석했습니다.
GenRecEdit 프레임워크 제안: 훈련 없이 (Training-free) 실시간으로 콜드스타트 패턴을 주입하면서도 기존 추천 성능을 유지하는 최초의 모델 편집 프레임워크를 개발했습니다.
효율성과 성능 입증: 재학습 대비 약 9.5% 의 시간 비용으로 모델 업데이트가 가능하며, 콜드스타트 아이템의 추천 성능을 획기적으로 개선하면서도 웜 아이템의 성능 저하를 최소화함을 실험을 통해 증명했습니다.

4. 실험 결과 (Results)

데이터셋: Amazon 2023 리뷰 데이터셋 (Video Games, Software, Cell Phones and Accessories) 을 사용했습니다.
성능 (Cold Subset):
- 기존 아이템 ID 기반 방법 (SASRec, BERT4Rec) 은 콜드스타트 아이템을 전혀 추천하지 못했습니다.
- 기존 생성형 방법 (TIGER, LC-Rec) 은 콜드스타트 성능이 매우 낮았습니다.
- GenRecEdit는 콜드스타트 서브셋에서 NDCG@10 및 Recall@10 지표에서 모든 베이스라인을 압도적으로 상회했습니다.
성능 (Warm Subset 및 Overall):
- GenRecEdit 는 콜드스타트 성능을 향상시키면서도 기존 웜 아이템에 대한 성능 저하가 6.5% 미만으로 매우 작았습니다.
- 반면, 미세 조정 (Finetuning) 은 콜드스타트 성능은 높였으나 기존 지식의 망각 (Catastrophic Forgetting) 으로 인해 전체 성능이 크게 떨어졌습니다.
효율성:
- 모델 업데이트 소요 시간은 재학습 (Retraining) 대비 9.5% 수준으로, 실시간 업데이트가 필요한 환경에 적합함을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 생성형 추천 시스템의 가장 큰 병목 현상인 '콜드스타트 붕괴'를 해결하기 위해 NLP 의 모델 편집 기술을 성공적으로 이식했습니다.

실용성: 대규모 재학습 없이도 새로운 아이템에 대한 추천을 즉시 가능하게 하여, 뉴스나 숏폼 비디오처럼 데이터가 빠르게 변하는 환경에서 높은 실용성을 가집니다.
기술적 혁신: 문장 구조가 없는 시퀀스 데이터에 모델 편집을 적용하기 위한 '위치별 편집'과 'One-One 트리거링'과 같은 새로운 메커니즘을 제시하여, 추후 생성형 추천 및 시퀀스 모델링 연구에 중요한 기초를 제공합니다.
지속 가능성: 계산 비용과 시간을 획기적으로 줄임으로써 환경 친화적이고 경제적인 모델 유지보수 체계를 제시합니다.

요약하자면, GenRecEdit는 콜드스타트 아이템에 대한 추천 정확도를 극적으로 높이는 동시에 기존 모델의 능력을 유지하고, 재학습 비용을 대폭 절감하는 혁신적인 솔루션입니다.