Decoupling Perception from Reasoning for Hallucination-Resistant Video Understanding

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보고 질문에 답하는 AI 가 엉뚱한 소리를 하는 것 (환각, Hallucination) 을 어떻게 막을 것인가?"**에 대한 해결책을 제시합니다.

기존 AI 는 비디오를 보고 추론할 때, **눈으로 본 사실 (지각)**과 **머리로 생각한 논리 (추론)**를 섞어서 말하곤 했습니다. 문제는 AI 가 "아마도 이렇게 봤을 거야"라고 착각하는 내용까지 사실인 것처럼 말하면, AI 는 그 착각을 바탕으로 엉뚱한 결론을 내린다는 것입니다.

이 논문은 이를 해결하기 위해 **"눈으로 본 것"과 "생각한 것"을 완전히 분리하는 새로운 방법 (Video-DPL)**을 제안합니다.

🎬 핵심 비유: "증인 심문"과 "검찰의 수사"

이 논문의 방식을 이해하기 위해 법정을 상상해 보세요.

1. 기존 방식: "혼란스러운 증인"

기존 AI 는 증인처럼 행동합니다.

"저기서 남자가 달리고 있었어요! 그리고 갑자기 하늘에서 비가 내려서 그가 넘어졌고, 그 비는 아마도 화산재였을 거예요. 그래서 그가 화산재 때문에 넘어진 게 맞습니다!"

여기서 AI 는 **사실 (남자가 달림)**과 **착각 (하늘에서 비가 왔음, 화산재)**을 섞어서 말합니다. AI 는 이 착각을 사실인 것처럼 믿고 결론을 내리기 때문에, 우리는 어디서부터가 착각인지 구별하기 어렵습니다. AI 가 "왜 그렇게 생각했지?"라고 물었을 때, 엉뚱한 이유를 대는 것입니다.

2. 새로운 방식 (Video-DPL): "시간이 찍힌 증거 카드"

이 논문은 AI 에게 다음과 같이 시키습니다.

"먼저 시간이 찍힌 증거 카드만 만들어라. 그다음에 그 카드를 보고 결론을 내려라."

AI 는 다음과 같이 답해야 합니다.

증거 카드 1: [00:10~00:15] "남자가 달리고 있다."
증거 카드 2: [00:15~00:20] "남자가 넘어졌다."
(이제부터 논리 시작) "증거 1 과 2 를 보면, 남자가 달리다가 넘어진 것으로 보인다."

이렇게 **사실 (증거)**과 **추론 (결론)**을 분리하면, 우리는 AI 가 어떤 부분을 착각했는지 정확히 찾아낼 수 있습니다.

🛠️ 이 시스템의 3 가지 핵심 도구

이 논문의 시스템은 이 분리된 과정을 더 똑똑하게 만들기 위해 세 가지 도구를 사용합니다.

1. '사실 확인관' (FAE: Factual-Aware Evaluator)

역할: AI 가 만든 '증거 카드'가 비디오의 실제 장면과 일치하는지 확인하는 심판입니다.
작동 원리: AI 가 "00:10 에 남자가 달렸다"라고 했다면, 이 심판은 해당 시간의 비디오를 다시 보고 "아, 맞네. 달리고 있구나"라고 점수를 줍니다. 하지만 AI 가 "00:10 에 남자가 날았다"라고 거짓말을 했다면, 심판은 "아니야, 날지 않았어"라고 감점합니다.
효과: AI 는 거짓말을 하면 점수를 못 받기 때문에, 반드시 비디오에 있는 사실만 적어내게 됩니다.

2. '논리 연결성 검사' (Consistency Reward)

역할: "이 증거 카드들만 가지고도 결론을 내릴 수 있는가?"를 확인합니다.
작동 원리: AI 가 만든 증거 카드들을 비디오 없이 다른 AI 에게 보여줍니다. 그 다른 AI 가 원래 질문의 답을 똑같이 맞출 수 있다면, AI 는 "내 증거가 완벽하다"는 뜻입니다. 만약 증거가 부족하거나 엉뚱해서 답을 못 맞춘다면, AI 는 "아, 내가 증거를 제대로 모았구나"라고 깨닫고 수정합니다.
효과: AI 는 단순히 비디오를 보고 답을 외우는 게 아니라, 수집한 증거를 바탕으로 논리적으로 답을 도출하도록 훈련됩니다.

3. '데이터 효율성' (적은 양으로 더 잘하기)

비유: 보통 AI 를 가르치려면 엄청난 양의 책 (데이터) 을 읽게 해야 합니다. 하지만 이 방법은 **"어떻게 공부할지 (증거를 분리하는 법)"**를 먼저 가르친 뒤, 적은 양의 문제집으로 실전 훈련을 시킵니다.
결과: 다른 AI 들이 5 배 이상 많은 데이터를 써도, 이 방법은 적은 데이터로 더 좋은 성적을 냅니다.

🌟 요약: 왜 이것이 중요한가요?

이 논문의 핵심 메시지는 **"AI 가 착각할 때, 우리는 그 착각을 바로잡을 수 있어야 한다"**는 것입니다.

기존에는 AI 가 "비디오를 보고 착각했다"는 것을 알기 어려웠지만, 이 새로운 방식은 AI 가 "무엇을 봤는지 (증거)"와 "무엇을 생각했는지 (논리)"를 분리하게 합니다. 마치 학생이 시험을 볼 때, **풀이 과정 (증거)**을 단계별로 적게 하여 틀린 부분을 바로 찾아내는 것과 같습니다.

이 방법을 통해 AI 는 비디오를 볼 때 사실에 기반한 정확한 결론을 내리게 되었고, 엉뚱한 환각 (Hallucination) 을 크게 줄일 수 있었습니다. 이는 의료, 법률, 안전 감시 등 정확성이 생명인 분야에서 AI 를 안전하게 사용할 수 있는 중요한 발걸음이 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비디오 대형 언어 모델 (VideoLLM) 은 복잡한 비디오 이해 작업을 위해 중간 추론 텍스트를 생성하여 성능을 향상시키고 있습니다. 그러나 기존 접근 방식에는 다음과 같은 근본적인 한계가 존재합니다.

지각 (Perception) 과 추론 (Reasoning) 의 혼재: 기존 모델은 비디오 설명 (지각) 과 논리적 추론을 동일한 텍스트 흐름에 섞어 생성합니다. 이로 인해 지각 증거를 독립적으로 검증하거나 감독하기 어렵습니다.
간접적이고 거친 감독 신호: 지각 오류와 추론 오류가 섞여 있어, 어떤 부분이 잘못되었는지 명확히 구분하기 어렵습니다. 이로 인해 학습 시 잘못된 보상 신호 (Reward Signal) 가 전달되어 모델의 할루시네이션 (환각) 을 유발하거나 학습 효율을 떨어뜨립니다.
할루시네이션의 심각성: 비디오의 특정 구간을 정확히 인식하지 못하거나, 비디오에 존재하지 않는 내용을 사실인 것처럼 서술하는 할루시네이션이 빈번하게 발생합니다.

2. 제안 방법론 (Methodology)

저자들은 Video-DPL (Decoupled Perception and Logic) 프레임워크를 제안하여 지각과 추론을 구조적으로 분리하고, 이를 기반으로 한 새로운 보상 메커니즘을 도입했습니다.

A. 분리된 지각 및 논리 (Decoupled Perception and Logic, DPL)

구조적 분리: 모델이 답변을 생성하기 전에 먼저 타임스탬프가 포함된 증거 단위 (Evidence Units) 를 추출하도록 강제합니다.
- 각 증거 단위는 <start_time, end_time, evidence_description> 형식으로 고정되어 있습니다.
- 이후에 이 증거들을 바탕으로 논리적 추론을 수행하고 최종 답변을 생성합니다.
장점: 지각 내용을 독립적인 단위로 분리함으로써, 각 비디오 구간별로 사실 여부를 개별적으로 검증할 수 있게 됩니다.

B. 사실 인식 평가기 (Factual-Aware Evaluator, FAE)

역할: 추출된 각 증거 단위가 해당 비디오 구간과 일치하는지 여부를 판단하는 '판정자 (Judge)' 역할을 수행합니다.
데이터 구축 (ANetHallu-117K): ActivityNet 기반의 117K 개 규모의 할루시네이션 인식 데이터셋을 구축했습니다.
- Hallucinate-then-Correct: 정답 캡션 (Ground Truth) 을 기반으로 의도적으로 오류를 삽입한 후, 이를 수정하는 과정을 통해 스타일과 길이가 유사하지만 사실 여부는 다른 쌍 (Positive/Negative Pairs) 을 생성했습니다.
- 편향 제거 (Bias Elimination): 텍스트의 길이, 유창함, 특정 단어 사용 등 표면적인 패턴에 의존하지 않도록 텍스트 편향을 제거하는 필터링 과정을 거쳤습니다.
- CoT 기반 추론: FAE 는 단순히 '예/아니오'를 판단하는 것이 아니라, 먼저 비디오 구간에 대한 사실적 요약 (Perception Summary) 을 생성한 후 판단을 내리도록 훈련되었습니다.
훈련: ORPO (Odds Ratio Preference Optimization) 를 사용하여 정답과 오답에 대한 선호도를 학습시켰습니다.

C. 지각 보상 (Perception Reward)

Video-DPL 은 두 가지 주요 보상을 결합하여 모델을 미세 조정 (Post-training) 합니다.

할루시네이션 저항 보상 (Anti-Hallucination Reward, $R_{ah}$ ): FAE 를 사용하여 추출된 각 증거 단위의 사실성 점수를 산출하고, 이를 평균화하여 보상으로 활용합니다. 이는 비디오에 근거하지 않은 내용을 생성하는 것을 강력히 억제합니다.
일관성 보상 (Consistency Reward, $R_{cons}$ ): 비디오 입력 없이 추출된 증거 단위와 질문만 참조 모델 (Reference Model) 에 입력하여 최종 답변을 유도합니다. 이 답변이 원래 모델의 최종 답변과 일치하는지 확인합니다. 이는 답변이 반드시 추출된 증거에 기반해야 함을 보장합니다.

3. 주요 기여 (Key Contributions)

Video-DPL 프레임워크: 지각 (Evidence Extraction) 과 논리 (Reasoning) 를 명확히 분리하여, 타임스탬프가 포함된 검증 가능한 증거 단위를 생성하는 새로운 아키텍처를 제안했습니다.
지각 중심의 보상 시스템: 할루시네이션을 방지하는 사실성 보상과 증거 기반 답변을 강제하는 일관성 보상을 결합하여, 신뢰할 수 있는 프로세스 보상 (Process Reward) 을 구현했습니다.
FAE (Factual-Aware Evaluator): GPT-4o 와 유사한 수준의 할루시네이션 평가 성능을 가지며, 텍스트 편향을 최소화하고 비디오 증거에 기반한 판단을 내리는 전용 평가 모델을 개발했습니다.
ANetHallu-117K 데이터셋: 미세한 사실적 차이를 가진 할루시네이션 쌍을 대량으로 생성한 고품질 데이터셋을 공개했습니다.

4. 실험 결과 (Results)

할루시네이션 평가 성능: FAE 는 VideoHallucer, HEAVEN, VidHalluc 등 주요 벤치마크에서 GPT-4o 를 능가하거나 동급의 성능을 보였으며, 특히 '예/아니오' 판단의 편향 (Bias) 을 크게 줄였습니다.
추론 성능 향상 (Video-DPL):
- 3B 및 7B 규모 모델: Qwen2.5VL 기반의 3B 및 7B 모델 모두에서 Video-DPL 을 적용한 결과, Video-Holmes, MMVU, VCR 등 다양한 추론 벤치마크에서 SOTA(최고 성능) 또는 최상위권 성능을 달성했습니다.
- 데이터 효율성: Rewatch-R1 등 다른 모델들이 40K 이상의 데이터를 사용하는 반면, Video-DPL 은 Cold-start 34K + RL 7K 만으로 동급 이상의 성능을 달성했습니다. 특히 0.5K 의 비디오 시간적 정렬 (Temporal Grounding) 데이터만으로도 2.5K 데이터를 사용한 TimeR1 보다 TVG-Bench 에서 더 좋은 성능을 보였습니다.
Ablation Study:
- 할루시네이션 보상만으로는 모델이 보수적인 답변만 생성하게 되어 성능이 저하될 수 있으나, 일관성 보상 (Consistency Reward) 과 결합할 때 비로소 지각의 풍부함과 답변의 정확성이 동시에 향상됨을 확인했습니다.
- FAE 는 일반 비전 인코더 (SigLip 등) 보다 할루시네이션 구별 능력이 월등히 뛰어났습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 이해 모델의 신뢰성을 높이기 위해 중간 지각 과정을 명시적으로 감독해야 함을 증명했습니다.

패러다임 전환: 기존의 "전체 비디오 설명 후 추론" 방식에서 "구간별 사실적 증거 추출 후 추론" 방식으로의 전환을 제안하여, 할루시네이션을 근본적으로 차단하는 메커니즘을 제시했습니다.
강화 학습의 효율성: 고품질의 프로세스 보상 (Process Reward) 이 강화 학습 (RL) 의 효율성을 극대화하여, 적은 데이터로도 강력한 추론 능력을 확보할 수 있음을 보여주었습니다.
미래 방향: 비디오LLM 의 신뢰성 있는 추론을 위해서는 지각의 정확성이 필수적이며, 이를 위한 정량적인 평가 도구와 보상 설계가 핵심임을 시사합니다.

요약하자면, 이 연구는 지각과 추론의 구조적 분리와 사실 기반의 정밀한 보상 시스템을 통해 비디오LLM 의 할루시네이션 문제를 해결하고, 데이터 효율성을 극대화한 혁신적인 접근법을 제시했습니다.