Real-Time Neural Video Compression with Unified Intra and Inter Coding

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 기존 기술의 문제점: "너무 의존하는 배달부"

기존의 영상 압축 AI (예: DCVC-RT) 는 영상을 보낼 때 **이전 프레임 (이전 장면)**을 아주 많이 믿고 따라갑니다.

비유: imagine you are sending a photo album.
- 정상적인 상황: "어제 사진과 오늘 사진이 거의 똑같네? 그럼 '오늘 사진은 어제 사진과 똑같고, 작은 차이만 적어줘'라고 하면 되겠구나!"라고 생각해서 데이터를 아주 적게 보냅니다. (이게 인터 코딩, 즉 프레임 간 압축입니다.)
- 문제 상황 (장면 전환): 갑자기 배경이 바뀐다면? (예: 숲에서 도시로) "어제 사진과 오늘 사진이 전혀 다르다!"라고 해야 합니다.
- 기존 기술의 한계: 기존 AI 는 "어제 사진을 참고해서 오늘 사진을 설명하는 법"만 배웠습니다. 그래서 갑자기 배경이 바뀌면, 어제 사진을 참고할 수 없는데도 억지로 참고하려고 하다가 엉뚱한 설명을 하거나, 아예 처음부터 다시 모든 것을 설명해야 하는 (데이터 폭증) 상황이 발생합니다.
- 결과: 영상이 뭉개지거나, 갑자기 데이터 양이 터져서 인터넷이 끊기기도 합니다. 이를 막기 위해 주기적으로 "새 앨범을 새로 시작하자 (리프레시)"라고 강제로 하는데요, 이 과정에서도 데이터가 급증하는 문제가 있었습니다.

🚀 2. 이 논문이 제안한 해결책: "유니버설 배달부 (UI2C)"

저자들은 **"한 명의 배달부에게 모든 일을 시키자"**고 제안합니다.

① "유니버설" 모델 (Unified Intra & Inter Coding)

기존 방식: "내부 설명 전문가 (I-프레임)"와 "비교 설명 전문가 (P-프레임)" 두 명을 따로 고용했습니다.
새로운 방식: **한 명의 '유니버설 배달부'**를 고용했습니다.
- 이 배달부는 비교할 게 있으면 비교해서 적게 보내고, 비교할 게 없으면 (장면이 바뀌면) 처음부터 새로 설명하는 능력을 모두 가지고 있습니다.
- 효과: 갑자기 장면이 바뀌어도 당황하지 않고, 자연스럽게 "아, 이건 새로운 거네? 그럼 처음부터 잘 설명해줄게"라고 대처합니다. 그래서 영상이 깨지지 않고, 데이터도 덜 나갑니다.

② "두 장 sekaligus" 압축 (Simultaneous Two-Frame Compression)

아이디어: 영상을 보낼 때, **현재 프레임 (t)**과 **다음 프레임 (t+1)**을 한 번에 묶어서 처리합니다.
비유: 사진을 보낼 때, "지금 이 사진"만 보는 게 아니라, **"다음에 올 사진"**을 미리 살짝 엿보고 "지금 사진"을 설명하는 것입니다.
- "다음 사진이 이렇게 변할 거니까, 지금 사진은 이 부분만 강조해서 보내자!"라고 할 수 있습니다.
장점: 1 프레임의 지연 시간 (약 1/30 초) 만 추가되지만, 훨씬 더 정교하게 데이터를 줄일 수 있습니다. 마치 "다음 장면을 미리 알면, 지금 장면을 더 간결하게 요약할 수 있다"는 원리입니다.

③ "혼합 훈련" (Hybrid References)

훈련 방법: 이 배달부에게 훈련을 시킬 때, 완벽한 정보를 주는 경우와 망가진 정보를 주는 경우를 섞어서 훈련시켰습니다.
효과: 실제 현장에서 정보가 깨지거나 (오류 전파), 정보가 없을 때에도 스스로 "아, 이건 비교할 게 없구나, 내 실력으로 해결해야지"라고 판단하고 대처하는 능력을 기르게 됩니다. 그래서 주기적으로 강제로 리셋 (Refresh) 을 해줄 필요가 없어졌습니다.

📊 3. 실제 성과: "더 빠르고, 더 깔끔하게"

실험 결과, 이 새로운 방식 (UI2C) 은 기존 최고 성능 기술 (DCVC-RT) 보다 약 12% 더 적은 데이터로 같은 화질을 구현했습니다.

화질: 장면이 바뀌는 순간에도 영상이 뭉개지지 않고 선명합니다.
데이터: 갑자기 데이터가 폭증하는 일이 없어, 인터넷 연결이 더 안정적입니다.
속도: 실시간으로 영상을 보낼 수 있을 만큼 빠릅니다 (초당 65 프레임 이상).

💡 요약: 한 줄로 정리하면?

**"이전 장면을 무작정 믿지 않고, 상황 (장면 전환) 에 따라 스스로 '새로 시작'할 줄도 아는 똑똑한 AI 배달부"**를 만들어서, 영상을 더 작게, 더 선명하게, 더 안정적으로 보내는 기술을 개발했습니다.

이 기술은 실시간 화상 회의, 스트리밍 서비스 등에서 끊김 없는 고화질 영상을 보는 데 큰 도움이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 신경 비디오 압축 (NVC) 기술은 H.266/VVC 보다 우수한 압축 효율과 실시간 인코딩/디코딩 능력을 갖춘 DCVC-RT 와 같은 최첨단 (SOTA) 방식을 선보였습니다. 하지만 기존 NVC 방식들은 다음과 같은 근본적인 한계를 가지고 있습니다.

인트라 코딩 능력의 부족: 기존 방식은 프레임 간 (Inter-frame) 예측을 최우선으로 하여, 참조 정보가 없거나 불확실한 상황 (장면 전환, 가려짐/Disocclusion, 새로운 콘텐츠 등) 에서 인트라 (Intra) 코딩 능력이 약합니다. 이로 인해 화질이 급격히 저하됩니다.
오류 전파 및 누적: 참조 프레임의 오류가 다음 프레임으로 전파되어 누적되는 문제가 발생합니다. 이를 해결하기 위해 기존 SOTA 방식들은 주기적인 '리프레시 (Refresh)' 메커니즘을 도입합니다.
리프레시 메커니즘의 단점:
1. 오류와 함께 유용한 장기적 시간적 정보 (Long-term temporal cues) 나 가려진 객체의 세부 정보까지 모두 폐기합니다.
2. 리프레시 지점에서 비트레이트가 급격히 증가 (Bitrate Surge) 하여 네트워크 혼잡을 유발하고 실제 배포를 어렵게 만듭니다.
별도 모델의 비효율성: 기존 방식은 I-프레임 (인트라) 과 P-프레임 (인터) 을 처리하는 별도의 모델을 사용하거나, P-프레임 모델이 인트라 코딩을 수행할 때 성능이 떨어지는 문제가 있습니다.

2. 제안 방법 (Methodology)

저자들은 위 한계들을 해결하기 위해 **UI2C (Unified Intra and Inter Coding)**라는 새로운 NVC 프레임워크를 제안합니다. 핵심은 단일 모델이 인트라 및 인터 코딩을 상황에 따라 적응적으로 수행하도록 하는 것입니다.

2.1. 통합 인트라 및 인터 코딩 (Unified Intra and Inter Coding)

단일 모델 아키텍처: 별도의 I-프레임 모델을 제거하고, 모든 프레임을 처리하는 단일 스페이셜 - 타임 (Spatio-temporal) 네트워크를 사용합니다.
적응적 모드 전환:
- 참조 정보가 정확하고 풍부할 때: 프레임 간 예측을 우선시하여 중복성을 제거합니다.
- 참조 정보가 부족하거나 오류가 많을 때 (예: 장면 전환, 첫 프레임): 모델이 자동으로 인트라 코딩 능력을 활성화하여 현재 프레임의 품질을 향상시킵니다.
리프레시 제거: 모델이 자체적으로 오류를 보정하고 새로운 장면을 처리할 수 있으므로, 수동 리프레시 메커니즘이 불필요해집니다. 이는 비트레이트의 급격한 변동을 방지합니다.

2.2. 동시 2 프레임 압축 (Simultaneous Two-Frame Compression)

양방향 시간적 중복성 활용: 실시간 저지연 시나리오 (1 프레임 지연 허용) 에서, 현재 프레임 ( $x_t$ ) 과 다음 프레임 ( $x_{t+1}$ ) 을 동시에 인코딩합니다.
후방 참조 (Backward Reference): $x_{t+1}$ 의 정보를 $x_t$ 의 인코딩에 활용하여, 참조 정보가 부족한 상황 (첫 프레임 등) 에서도 품질 저하를 보완하고 가려진 영역을 정확하게 모델링합니다.
효율성: 두 프레임을 하나의 비트스트림으로 결합하여 인코딩하므로, 단일 프레임 인코딩 대비 시간적 중복성을 더 효과적으로 활용하면서도 실시간 성능을 유지합니다.

2.3. 하이브리드 참조 학습 (Training with Hybrid References)

학습 전략: 모델이 참조 오류 수준을 스스로 판단하고 적응하도록 훈련시키기 위해, 초기 프레임의 참조로 세 가지 경우를 무작위로 샘플링합니다.
1. 빈 신호 (Blank signal, 인트라 코딩 시뮬레이션)
2. 이전 프레임의 정답 (Ground Truth)
3. 노이즈가 추가된 이전 프레임 특징 (오류가 있는 인터 참조 시뮬레이션)
이를 통해 모델은 긴 시퀀스에서도 오류가 누적되더라도 인트라 코딩을 통해 스스로 보정하는 능력을 습득합니다.

2.4. 2 프레임 양자화 (Two-frame Quantization)

두 프레임이 공유하는 비트스트림 내에서 각 프레임의 품질을 세밀하게 제어하기 위해, 프레임 인덱스에 따라 다른 양자화 파라미터 (QP) 를 할당합니다. 일반적으로 후속 프레임 ( $x_{t+1}$ ) 에 더 높은 QP (낮은 품질) 를 할당하여, 이를 참조로 사용하는 다음 프레임들의 품질을 최적화합니다.

3. 주요 기여 (Key Contributions)

단일 통합 모델: 별도의 I-프레임 모델 없이 하나의 모델로 인트라 및 인터 코딩을 모두 처리하여 모델 파라미터 수를 줄이고 장면 전환 처리 능력을 향상시켰습니다.
적응형 오류 보정: 수동 리프레시 메커니즘 없이도 참조 품질에 기반하여 인트라/인터 코딩을 동적으로 조절함으로써 오류 전파와 비트레이트 스파이크를 해결했습니다.
동시 2 프레임 압축: 후속 프레임의 정보를 활용하여 인트라 코딩이 약한 상황에서도 성능을 보장하면서도 1 프레임 지연만 추가하여 실시간성을 유지했습니다.
성능 향상: 기존 SOTA 실시간 NVC 인 DCVC-RT 대비 평균 12.1% 의 BD-rate 감소를 달성했습니다.

4. 실험 결과 (Results)

압축 효율: HEVC Class B~E, UVG, MCL-JCV 등 다양한 테스트셋에서 DCVC-RT 대비 평균 12.1% 의 비트레이트 절감을 보였습니다. VTM(고전적 코덱) 대비 35.7% 절감 효과도 확인되었습니다.
실시간 성능: 인코딩 속도는 65.1 fps, 디코딩 속도는 46.1 fps로, DCVC-RT 와 비교 가능한 실시간 성능을 유지하면서도 압축 효율이 훨씬 뛰어납니다.
안정성: 장면 전환 시 화질 회복 속도가 빠르고, 프레임별 비트레이트와 PSNR 변동이 매우 안정적입니다. 리프레시 메커니즘이 없어 피크 비트레이트가 크게 감소했습니다.
복잡도: 모델 파라미터 수는 DCVC-RT 보다 적고 (46.7M vs 66.4M), 연산 복잡도 (kMACs) 는 약간 증가했으나 2 프레임 처리로 인해 프레임당 평균 지연과 데이터 양은 효율적으로 관리됩니다.

5. 의의 및 결론 (Significance)

이 논문은 신경 비디오 압축의 핵심 병목 현상이었던 '인트라 코딩 능력 부족'과 '오류 전파' 문제를 혁신적으로 해결했습니다.

실용성: 별도의 리프레시 메커니즘 없이도 안정적인 비트레이트와 화질을 유지하므로, 실시간 스트리밍과 같은 실제 배포 환경에 매우 적합합니다.
효율성: 복잡한 I-프레임 전용 모델을 제거하고 단일 모델을 사용하여 파라미터 효율성을 높였습니다.
향후 과제: 에지 디바이스 (저사양 GPU/NPU) 에 최적화된 경량화 및 고비트레이트 영역에서의 압축 효율 향상이 향후 연구 과제로 제시되었습니다.

요약하자면, UI2C 는 단일 모델의 적응적 능력과 2 프레임 동시 처리를 결합하여 실시간 신경 비디오 압축의 성능과 안정성을 동시에 비약적으로 향상시킨 획기적인 접근법입니다.