Quantized Inference for OneRec-V2

이 논문은 LLM 과 유사한 통계적 특성과 높은 하드웨어 활용도를 보이는 생성형 추천 모델 OneRec-V2 에 FP8 양자화 기법을 적용하여, 추천 시스템의 성능 저하 없이 지연 시간을 49% 단축하고 처리량을 92% 증가시키는 효율적인 추론 프레임워크를 제안합니다.

Yi Su, Xinchen Luo, Hongtao Cheng, Ziteng Shu, Yunfeng Zhao, Fangyu Zhang, Jiaqiang Liu, Xiao Liang, Yiwu Liu, Ruiming Tang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 무거운 짐을 나르는 트럭 (기존 추천 시스템)

과거의 추천 시스템은 마치 거대한 창고에서 필요한 물건 하나하나를 찾아서 나르는 트럭과 같았습니다.

  • 문제점: 물건 (데이터) 의 크기가 너무 다양하고, 트럭이 자주 멈추고 다시 출발해야 해서 (메모리 병목), 엔진이 아무리 좋아도 전체 속도가 느렸습니다.
  • 숫자의 문제: 이 트럭이 다루는 숫자 (가중치) 들이 너무 크고 들쭉날쭉해서, 숫자를 작게 줄이면 (정밀도를 낮추면) 물건이 깨지거나 잘못 실리는 경우가 많았습니다. 그래서 정밀한 계산 (FP16) 만을 고집해야 했습니다.

2. 해결책: OneRec-V2 의 등장 (새로운 트럭)

최근 등장한 OneRec-V2는 이 문제를 해결하기 위해 트럭의 구조 자체를 바꿨습니다.

  • LLM(대형 언어 모델) 의 방식을 차용: 이제 추천 시스템도 "질문하면 답을 생성한다"는 방식 (생성형) 을 씁니다. 마치 챗봇이 문장을 이어가는 것처럼, 추천할 영상을 하나씩 만들어냅니다.
  • 숫자가 훨씬 깔끔해짐: 이 새로운 방식 덕분에, 트럭이 나르는 숫자들의 크기가 훨씬 일정하고 작아졌습니다. 마치 정돈된 창고처럼 숫자 분포가 깔끔해져서, 정밀도를 조금만 낮춰도 물건이 깨지지 않게 된 것입니다.

3. 핵심 기술: 'FP8 양자화' (짐을 가볍게 만드는 마법)

이제 이 깔끔해진 OneRec-V2 에 'FP8 양자화' 기술을 적용했습니다.

  • 비유: 원래는 **금으로 만든 저울 (고정밀 FP16)**로 무게를 재고 있었습니다. 하지만 OneRec-V2 는 **스테인리스 저울 (저정밀 FP8)**로도 무게를 거의 똑같이 재도 됩니다.
  • 효과: 금 저울은 무겁고 비싸지만, 스테인리스 저울은 가볍고 빠릅니다. 계산 속도가 빨라지고, 한 번에 더 많은 짐 (데이터) 을 실을 수 있게 되었습니다.

4. 시스템 최적화: 고속도로 개조 (인프라 업그레이드)

그냥 저울만 바꾼다고 해서 다 해결되는 건 아닙니다. 도로 (인프라) 도 함께 고쳐야 합니다.

  • 기존: PyTorch → ONNX → TensorRT 로 이어지는 복잡한 우회도로를 다녔습니다.
  • 새로운 방식: TensorRT 로 바로 연결되는 직통 고속도로를 뚫었습니다.
  • 특수 기술:
    • TopK 최적화: "가장 인기 있는 영상 10 개"를 고르는 작업을 더 빠르게 처리.
    • MoE 최적화: 전문가 (Expert) 들이 일하는 방식을 효율화하여, 한 번에 더 많은 작업을 처리.

5. 결과: 얼마나 빨라졌을까? (성능 지표)

이 모든 기술을 합치니 놀라운 결과가 나왔습니다.

  • 속도: 영상 추천을 하는 데 걸리는 시간이 약 50% 단축되었습니다. (139ms → 70ms)
  • 처리량: 같은 시간에 처리할 수 있는 사용자 수는 **약 2 배 (92% 증가)**로 늘어났습니다. (205 → 394)
  • 품질: 속도가 빨라졌지만, 사용자에게 추천되는 영상의 품질은 완전히 그대로 유지되었습니다. (A/B 테스트 결과, 클릭률이나 시청 시간 등 핵심 지표는 변함없음)

6. 결론: 왜 이 연구가 중요한가?

이 논문은 **"추천 시스템도 이제 대형 언어 모델 (LLM) 과 같은 길을 가고 있다"**는 것을 증명했습니다.

  • 과거에는 추천 시스템이 너무 복잡해서 정밀도를 낮추는 게 불가능했지만, OneRec-V2처럼 구조가 바뀌면 LLM 에서 쓰던 기술 (양자화) 을 그대로 가져와도 된다는 것을 보여줬습니다.
  • 이는 거대한 서버 비용을 줄이고, 사용자에게 더 빠르게 영상을 추천해 줄 수 있는 길을 열었습니다.

💡 한 줄 요약

"추천 시스템의 구조를 LLM 스타일로 개조하고, 짐을 가볍게 만드는 (FP8 양자화) 기술을 적용하자, 속도는 2 배 빨라졌는데 품질은 그대로 유지되었다!"