VQ-Jarvis: Retrieval-Augmented Video Restoration Agent with Sharp Vision and Fast Thought

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제: "왜 기존 기술은 실패할까?"

상상해 보세요. 낡고 찌든 옛날 영화를 고화질로 복원해야 하는 상황이 생겼습니다.

기존 기술 (고정된 도구 상자): 과거의 기술들은 마치 한 가지 모양의 망치만 들고 있는 대장장이와 같았습니다.
- 비가 온 영상에는 비 제거 망치를, 어두운 영상에는 밝기 조절 망치를 사용했습니다.
- 하지만 현실의 영상은 비가 오면서 동시에 어둡고, 흔들리기도 하고, 노이즈도 섞여 있습니다.
- 고정된 망치 하나로는 이런 복잡한 상황을 해결할 수 없어, 영상을 더 망치거나 어색하게 만드는 경우가 많았습니다.

🧠 2. 해결책: "VQ-Jarvis, 똑똑한 영상 복구 에이전트"

저자들은 이 문제를 해결하기 위해 **'VQ-Jarvis'**를 만들었습니다. 이 시스템은 단순한 도구가 아니라, **상황을 보고 판단하는 '현명한 사령관'**과 같습니다.

🌟 핵심 능력 1: "예리한 눈 (Sharp Vision)"

비유: VQ-Jarvis 는 미세한 차이를 알아보는 미식가와 같습니다.
설명: 기존 AI 는 "이 영상이 조금 더 선명해졌네"라고 대충 판단했지만, VQ-Jarvis 는 "A 버전은 색감이 자연스럽고 B 버전은 약간 노랗게 변했네. A 가 더 좋아"라고 미세한 차이까지 정확히 구분합니다.
이를 위해 연구진은 **2 만 개가 넘는 비교 데이터 (VSR-Compare)**를 만들었습니다. 마치 미식가들이 수만 번의 시식을 통해 입맛을 단련시킨 것처럼, AI 도 수많은 비교를 통해 '어떤 복원이 진짜 좋은지'를 배웠습니다.

⚡ 핵심 능력 2: "빠른 생각 (Fast Thought)"

비유: VQ-Jarvis 는 상황에 따라 지혜롭게 행동하는 택시 기사와 같습니다.
설명: 영상을 복원할 때, 모든 경우를 하나하나 시도해 보면 시간이 너무 오래 걸립니다.
- 쉬운 경우 (단순한 손상): "아, 이거 간단한 거네!" 하고 과거의 성공 사례 (데이터베이스) 를 바로 꺼내서 한 번에 해결합니다. (검색 기반 전략)
- 어려운 경우 (복잡한 손상): "이건 좀 복잡한데?" 하면 단계별로 가장 좋은 방법을 찾아서 꼼꼼하게 처리합니다. (단계별 탐색 전략)
- 이렇게 어려운지 쉬운지 먼저 판단해서 전략을 바꾸기 때문에, 결과도 좋으면서도 속도가 빠릅니다.

🛠️ 3. 어떻게 작동할까? (작동 원리)

VQ-Jarvis 는 영상을 받으면 다음과 같은 과정을 거칩니다.

진단 (Diagnosis): "이 영상에 어떤 문제가 있을까?" (비, 어둠, 흔들림, 노이즈 등) 를 정확히 파악합니다.
전략 수립 (Strategy):
- 문제가 단순하면? 👉 **과거의 성공 사례 (RAG)**를 검색해서 바로 적용합니다. (빠름!)
- 문제가 복잡하면? 👉 여러 가지 도구 (AI 모델) 를 차례로 시험해 보고 가장 좋은 조합을 찾습니다. (정확함!)
실행 (Execution): 찾은 최적의 도구들을 순서대로 적용하여 영상을 복원합니다.
- 예: 먼저 비를 제거하고 → 어둠을 밝히고 → 마지막으로 선명하게 만듭니다.

🏆 4. 왜 이 기술이 특별한가?

단순한 도구가 아닌 '지능': 정해진 규칙대로만 움직이는 기존 AI 와 달리, 상황에 맞춰 스스로 판단하고 도구를 선택합니다.
실제 현실에 강함: 실험실처럼 깨끗한 환경이 아니라, 비가 오고 어두운 실제 세상의 복잡한 상황에서도 뛰어난 성능을 보입니다.
효율성: 무작정 모든 방법을 다 시도하는 게 아니라, 필요한 경우에만 꼼꼼하게, 간단한 경우는 빠르게 처리하여 시간을 아껴줍니다.

💡 요약

이 논문은 **"복잡한 현실의 영상을 고화질로 되살리려면, 고정된 도구가 아니라 상황을 보고 판단하는 똑똑한 AI 사령관이 필요하다"**는 것을 증명했습니다.

VQ-Jarvis는 마치 **수만 번의 시식을 통해 입맛을 단련한 미식가 (예리한 눈)**이자, **상황에 따라 가장 빠른 길을 찾아주는 현명한 택시 기사 (빠른 생각)**처럼 작동하여, 흐릿하고 손상된 영상을 놀라울 정도로 자연스럽고 선명하게 만들어냅니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

실제 환경의 비디오 복원 난제: 실제 세계의 비디오는 잡음, 압축 아티팩트, 흐림, 저해상도, 저조도 등 다양한 이질적인 열화 (heterogeneous degradations) 가 복합적으로 발생하며, 프레임 간에 시간적으로 변화합니다. 기존의 정적 아키텍처나 고정된 추론 파이프라인을 가진 단일 모델들은 이러한 복잡하고 예측 불가능한 열화 패턴에 대해 일반화 능력이 부족합니다.
기존 에이전트 기반 접근법의 한계: 최근 에이전트 (Agent) 기반 시스템이 도입되었으나, 비디오 복원 분야에서는 다음과 같은 한계가 존재합니다.
1. 부족한 품질 인식 (Insufficient Quality Perception): 기존 에이전트는 CLIPIQA 나 ManIQA 와 같은 일반적인 이미지 품질 지표를 사용하는데, 이는 미세한 향상 결과 간의 차이를 구별하거나, 동일한 원본에서 파생된 복원 결과 간의 선호도를 판단하는 데 민감도가 낮습니다.
2. 비효율적인 탐색 전략 (Inefficient Search Strategies): 대부분의 에이전트가 휴리스틱한 시도와 오류 (trial-and-error) 기반의 단계별 탐색을 수행하여, 계산 비용이 높고 추론 시간이 길어집니다.
3. 시간적 일관성 및 복합 열화 대응 미흡: 이미지 복원 에이전트를 비디오로 확장할 때, 프레임 간의 시간적 의존성과 열화의 전파를 충분히 고려하지 못합니다.

2. 제안 방법론 (Methodology)

저자들은 VQ-Jarvis라는 새로운 검색 증강 생성 (RAG) 기반의 올인원 지능형 비디오 복원 에이전트를 제안합니다. 핵심 목표는 "날카로운 시력 (Sharp Vision)"과 "빠른 사고 (Fast Thought)"를 구현하는 것입니다.

가. VSR-Compare 벤치마크 구축 (Sharp Vision)

데이터셋: 2 만 개의 비교 쌍 (comparison pairs) 으로 구성된 대규모 비디오 쌍별 향상 데이터셋 VSR-Compare를 최초로 구축했습니다.
- 7 가지 열화 유형 (저조도, 비, 흐림, 잡음, 압축, 저해상도, 프레임 드롭) 과 11 가지 향상 연산자를 포함합니다.
- AIGC, 인간 얼굴, 자연 풍경 등 다양한 도메인을 커버합니다.
주관적 평가 모델: 인간 전문가와 다중 MLLM (Qwen-MoE, GPT-4o 등) 의 협업을 통해 2 만 개의 고품질 선호도 라벨을 생성했습니다. 이를 기반으로 **다중 연산자 판정 모델 (Multi-operator Judge Model)**과 **열화 인식 모델 (Degradation Perception Model)**을 학습시켰습니다.
- 이 모델들은 기존 MLLM 보다 훨씬 높은 정확도 (93%) 로 복원 결과 간의 미세한 차이를 구별하고 열화 유형을 식별합니다.

나. 계층적 연산자 스케줄링 전략 (Fast Thought)

입력 비디오의 열화 난이도에 따라 두 가지 전략을 동적으로 선택합니다.

단일 단계 검색 (One-Step Retrieval):
- 열화 정도가 낮은 (쉬운) 경우, 검색 증강 생성 (RAG) 라이브러리를 활용합니다.
- 학습된 열화 인식 모델을 통해 입력 비디오의 특성을 분석하고, 품질 정렬 (Quality-aligned) 된 임베딩 공간을 사용하여 가장 유사한 과거 최적 복원 궤적 (Restoration Trajectory) 을 즉시 검색하여 적용합니다.
단계별 탐욕 탐색 (Step-wise Greedy Search):
- 열화 정도가 높은 (어려운) 경우, **탐욕적 탐색 (Greedy Search)**을 수행합니다.
- 각 하위 작업 (예: 비 제거, 저조도 향상, 초해상도) 에 대해 후보 연산자들을 적용하고, 학습된 판정 모델을 통해 토너먼트 방식의 비교를 거쳐 최적의 연산자를 선택합니다.
- 이 과정에서 학습된 "복원 순서 경험 (Reconstruction Order Experience)" (예: 비 제거 $\rightarrow$ 저조도 향상 $\rightarrow$ 초해상도) 을 활용하여 탐색 효율을 높입니다.

다. 학습 방식

GRPO (Group Relative Policy Optimization): 선호도 기반의 감독 학습을 위해 GRPO 알고리즘을 적용하여, 에이전트의 의사결정 정책을 최적화했습니다. 이는 절대적 점수 예측보다 상대적 비교 (어떤 결과가 더 좋은가) 에 초점을 맞춥니다.

3. 주요 기여 (Key Contributions)

VQ-Jarvis 프레임워크: 정밀한 열화 인식과 선호도 판단을 바탕으로 최적의 복원 경로를 효율적으로 탐색하는 올인원 비디오 복원 에이전트 제안.
VSR-Compare 데이터셋: 비디오 복원 에이전트 학습을 위한 최초의 대규모 쌍별 향상 (paired enhancement) 데이터셋 구축. 이는 모델이 미세한 품질 차이를 구별하는 능력을 획기적으로 향상시킵니다.
계층적 스케줄링 전략: RAG 기반의 빠른 검색과 탐욕적 탐색을 결합하여, 복원 품질과 추론 효율성 사이의 최적 균형을 달성한 전략 제안.
성능 검증: 실제 세계의 복잡한 열화 환경에서 기존 최첨단 방법론들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

실제 세계 초해상도 (Real-World VSR): UDM10 및 YouHQ40 벤치마크에서 SeedVR2, FlashVSR, DOVE 등 기존 방법론들을 능가했습니다. 특히 비참조 지표 (CLIPIQA, DOVER, VQ-Insight) 에서 우수한 성능을 보이며, 단순한 메트릭 기반 선택 (DOVER-guide) 보다 더 나은 전역적 품질 이해 능력을 입증했습니다.
복합 열화 복원: "어두움 + 비 + 흐림 + 저해상도" 등 다양한 복합 열화 그룹에서 VQ-Jarvis 가 모든 그룹에서 가장 높은 PSNR, SSIM, MANIQA, CLIPIQA 점수를 기록했습니다.
열화 인식 및 점수화:
- 열화 감지 정확도: 기존 MLLM (Qwen3, Gemini 등) 대비 모든 열화 유형에서 월등히 높은 정확도 (평균 91.53% vs 70% 대) 를 보였습니다.
- 비디오 품질 점수화: LSVQ, LIVE-VQC 등 자연 비디오 평가 벤치마크에서 DOVER, VQ-Insight 등을 상회하는 PLCC/SRCC 점수를 달성했습니다.
효율성: RAG 기반 검색을 활용하여 어려운 경우의 탐색 시간을 단축했습니다. 전체적인 추론 시간은 기존 탐욕적 탐색만 사용하는 방법보다 약 2 배 이상 빠르면서도 품질은 유지하거나 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 복원 분야에서 에이전트 기반의 적응형 시스템이 가져올 수 있는 혁신을 보여줍니다.

데이터 중심 접근: 단순히 모델을 더 크게 만드는 것이 아니라, 고품질의 선호도 데이터 (VSR-Compare) 를 구축하여 에이전트의 '시각'을 정교하게 만드는 접근법의 중요성을 강조합니다.
효율성과 성능의 균형: RAG 를 활용한 지식 재사용과 계층적 탐색 전략을 통해, 복잡한 의사결정 과정에서도 실시간에 가까운 효율성을 확보했습니다.
미래 지향성: 이 연구는 단순한 복원을 넘어, 다양한 시각 작업에서 에이전트가 경험과 선호도를 기반으로 지능적으로 의사결정을 내리는 지능형 적응형 비전 시스템의 새로운 패러다임을 제시합니다.

요약하자면, VQ-Jarvis 는 **"정확한 열화 인식 (Sharp Vision)"**과 **"효율적인 경로 탐색 (Fast Thought)"**을 결합하여, 실제 세계의 복잡한 비디오 열화 문제를 해결하는 새로운 표준을 제시한 연구입니다.