Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

이 논문은 고정된 시각 생성 모델에 저랭크 적응 (LoRA) 을 부착하여 신호를 함수로 인코딩하는 새로운 프레임워크를 제안함으로써, 극저 비트레이트에서 강력한 지각적 비디오 압축을 실현하고 압축과 생성을 통합하는 새로운 패러다임을 제시합니다.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "레시피 카드 vs. 완성된 요리"

기존의 영상 압축 기술 (예: 유튜브, 넷플릭스) 은 **"완성된 요리"**를 잘게 잘라 담는 방식입니다.

  • 기존 방식: 요리사 (컴퓨터) 가 만든 맛있는 케이크 (영상) 를 잘게 부수어 (픽셀 단위로) 상자에 담습니다. 나중에 다시 먹으려면 상자에 든 부스러기를 하나하나 조립해서 케이크 모양을 만들어야 합니다. 하지만 부스러기가 너무 많으면 상자가 커지고, 조립할 때 모양이 조금씩 깨지기도 합니다.

이 논문이 제안하는 새로운 방식은 **"요리 레시피"**를 저장하는 것입니다.

  • 새로운 방식: 우리는 이미 세상에서 가장 유명한 **슈퍼 셰프 (대규모 AI 생성 모델)**를 가지고 있습니다. 이 셰프는 어떤 요리든 만들 수 있는 능력을 이미 가지고 있습니다.
    • 우리는 케이크를 저장할 때, 케이크 조각을 담는 대신 **"이 셰프가 이 케이크를 만들 때만 쓰는 특별한 비법 (적응 파라미터)"**만 적어둡니다.
    • 이 비법은 아주 짧고 간결한 메모 (하나의 벡터) 로 저장됩니다.
    • 나중에 다시 보고 싶을 때는, 이 메모를 슈퍼 셰프에게 보여줍니다. 셰프는 "아, 이 비법대로라면 이 케이크를 만들 수 있겠구나!"라고 생각하며 실시간으로 케이크를 다시 만들어냅니다.

🚀 이 방법의 3 가지 놀라운 특징

1. "한 장의 메모로 81 프레임의 영상 저장하기" (압축의 극한)

보통 1 초짜리 영상도 수만 개의 픽셀로 이루어져 있어 저장 공간이 큽니다. 하지만 이 방법은 **"이 영상을 만드는 과정"**을 저장합니다.

  • 비유: 100 페이지짜리 소설을 저장하는 대신, "이 소설을 쓴 작가의 머릿속에 있는 이 특정 스토리텔링 방식"만 메모장에 적어두는 것과 같습니다.
  • 결과: 81 프레임짜리 짧은 영상도 **단 하나의 숫자 덩어리 (벡터)**로 압축할 수 있어, 기존 방식보다 훨씬 적은 데이터로 고화질을 구현합니다.

2. "재생할 때 더 맛있게 만들기" (추론 시 확장)

기존 방식은 저장된 데이터를 그대로 재생할 뿐, 화질을 더 좋게 하려면 다시 저장해야 합니다. 하지만 이 방법은 다릅니다.

  • 비유: 슈퍼 셰프에게 "이 비법대로 케이크를 만들어줘"라고 하면, 셰프는 "잠깐, 이 비법을 조금 더 정교하게 적용하면 더 맛있을 것 같아"라고 생각하며 실시간으로 더 좋은 케이크를 만들어냅니다.
  • 기술적 의미: 저장된 데이터 (메모) 는 그대로 두면서, 재생 (추론) 할 때 계산량을 조금 더 써서 화질을 획기적으로 높일 수 있습니다. 저장 용량은 그대로인데 화질은 업그레이드되는 셈입니다.

3. "영상을 기억하고 변신시키는 능력" (생성과 압축의 통합)

이 방법은 영상을 저장하는 것뿐만 아니라, 그 영상을 기억하게 합니다.

  • 비유: 이 메모를 가진 슈퍼 셰프는 "이 케이크를 만들 때 쓰던 비법"을 기억하고 있습니다. 그래서 "이 케이크를 빨간색으로 바꿔줘"라고 하면, 셰프는 기억하고 있는 비법을 바탕으로 빨간 케이크를 만들어냅니다.
  • 결과: 영상을 압축해서 저장해두는 동시에, 나중에 그 영상을 바탕으로 색상을 바꾸거나, 다른 장면과 합치는 등 편집도 가능합니다. 저장 (압축) 과 생성 (편집) 이 하나로 통합된 것입니다.

💡 요약: 왜 이것이 중요한가요?

이 논문은 "저장하는 것"을 "만드는 법을 기억하게 하는 것"으로 바꿉니다.

  • 기존: "이 영상 파일 (데이터 덩어리) 을 여기 저장해."
  • 이 논문: "이 영상을 만들 수 있는 **비법 (적응)**만 기억해. 필요할 때 그 비법으로 다시 만들어."

이 방식은 데이터 저장 공간을 획기적으로 줄이면서도, 화질을 높이고 편집까지 가능하게 만들어 미래의 영상 기술 (저장, 전송, 생성) 을 하나로 묶는 핵심 열쇠가 될 것으로 기대됩니다. 마치 "요리책 한 권으로 전 세계의 모든 요리를 실시간으로 만들어내는" 마법 같은 기술이라고 생각하시면 됩니다.