INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'INFACT'**라는 새로운 시험지를 소개합니다. 이 시험지는 최근 뜨고 있는 **'비디오 AI(Video-LLM)'**들이 얼마나 똑똑하고, 또 얼마나 정직한지를 진단하기 위해 만들어졌습니다.

비유하자면, 이 논문은 비디오 AI 를 **'새로 입사한 신입 사원'**으로 가정하고, 그가 업무에서 얼마나 **실수를 하는지 (환각, Hallucination)**를 꼼꼼히 체크하는 정밀 건강검진을 진행한 것입니다.

이 내용을 일상적인 언어와 쉬운 비유로 설명해 드릴게요.

1. 문제점: "눈이 좋은데, 머리는 착각하는 AI"

최근 비디오 AI 는 영상을 보고 내용을 설명하는 능력이 매우 뛰어나졌습니다. 하지만 문제는 그게 다 '착각'일 수 있다는 점입니다.

신뢰성 (Faithfulness) 문제: AI 가 영상에 없는 것을 "있다고" 말하거나, 실제와 다르게 말해요.
- 비유: 영상에 '빨간 사과'가 있는데 AI 가 "저기 초록 사과 있네요"라고 말하면 안 되죠.
사실성 (Factuality) 문제: AI 가 세상의 상식이나 과학 법칙을 무시하고 엉뚱한 말을 해요.
- 비유: "중력은 아래로 작용한다"는 상식을 무시하고 "이 영상에서는 사과가 하늘로 날아가네요"라고 말하면 안 되죠.

기존 시험지들은 AI 가 '깨끗한 영상'을 볼 때만 잘하는지 확인했습니다. 하지만 실제 세상에는 흐릿한 영상, 자막이 틀린 영상, 시간이 뒤죽박죽인 영상도 많습니다. 그래서 이 논문은 **"AI 가 이런 험한 환경에서도 여전히 정직할 수 있는가?"**를 테스트합니다.

2. 해결책: INFACT (인팩트) - AI 의 '정직도'를 측정하는 4 단계 미션

연구팀은 9,800 개의 질문과 영상을 준비해서 AI 를 4 가지 다른 상황 (모드) 에서 시험했습니다.

🟢 모드 1: 기본 시험 (Base Mode)

상황: 가장 깨끗하고 정상적인 영상과 질문.
목적: AI 의 기본 실력을 확인합니다. (시험지 1 점)

🟡 모드 2: 시야 흐림 테스트 (Visual Degradation)

상황: 영상에 노이즈를 넣거나, 흐리게 (모션 블러) 하거나, 압축해서 화질을 떨어뜨립니다.
비유: 안경을 안 끼고 흐릿하게 보이는 상태에서 물체를 맞추는 시험입니다.
목표: "화질이 나빠져도 정답을 기억해 낼 수 있는가?"

🟠 모드 3: 거짓 정보 유혹 테스트 (Evidence Corruption)

상황: 영상은 그대로인데, 자막이나 설명을 고의로 틀리게 넣습니다. (예: 문이 열리는 영상에 "문이 닫히고 있습니다"라는 자막을 띄움)
비유: 시험지 옆에 "정답은 A 야!"라고 거짓말을 적어두고, AI 가 영상 자체를 믿을지, 아니면 거짓말을 믿을지 보는 것입니다.
목표: "눈앞의 거짓말에 속지 않고, 실제 영상을 믿을 수 있는가?"

🔴 모드 4: 시간 순서 뒤섞기 테스트 (Temporal Intervention)

상황: 영상의 프레임 순서를 뒤섞거나 거꾸로 돌려줍니다. (예: 컵이 깨지는 영상을 거꾸로 재생하면 컵이 다시 모이는 것처럼 보임)
비유: 요리 영상을 뒤죽박죽 섞어서 "이게 요리 순서 맞나요?"라고 물어보는 것입니다.
목표: "시간의 흐름을 진짜로 이해하고 있는가, 아니면 그냥 무작위 패턴을 외운 것인가?"

3. 주요 발견: "성적표가 좋다고 해서 믿을 수 있는 건 아니다"

14 가지의 다양한 비디오 AI 를 이 시험에 통과시켰더니 놀라운 결과가 나왔습니다.

기본 점수 vs. 신뢰도: 기본 시험 (모드 1) 에서 점수가 아주 높은 AI 일수록, 험한 환경 (모드 2~4) 에서도 잘할 것이라고 생각하기 쉽지만, 그렇지 않았습니다.
- 어떤 AI 는 기본 시험은 100 점인데, 자막이 틀리면 바로 50 점으로 떨어집니다.
- 어떤 AI 는 시간 순서가 뒤섞이면 완전히 망가집니다.
가장 취약한 점:
- 거짓 정보에 약함: 영상보다 텍스트 (자막) 에 더 의존하는 경향이 있어, 자막이 틀리면 AI 도 같이 틀립니다.
- 시간 감각 부족: 많은 오픈소스 AI 가 영상의 시간 순서가 뒤바뀌어도 "아무 일도 없었다"는 듯 같은 답을 내놓습니다. 이는 시간을 이해하지 못하고, 그냥 통계적 확률로 답을 맞추고 있다는 뜻입니다.

4. 결론: AI 는 아직 '현실 감각'이 부족합니다

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 영상 설명을 잘한다고 해서, 그 AI 가 영상을 진짜로 이해하고 있다고 생각하면 안 됩니다."

AI 는 마치 기억력이 좋지만, 주변 소음에 쉽게 흔들리고, 시간 개념이 흐릿한 학생과 같습니다. INFACT 는 이런 AI 들이 실제 세상 (흐릿한 영상, 거짓 정보, 복잡한 시간 흐름) 에서 얼마나 신뢰할 수 있는지를 가려내는 필수 진단 도구가 될 것입니다.

한 줄 요약:

"비디오 AI 가 얼마나 똑똑한지보다, 얼마나 착각하지 않고 정직한지를 확인하는 새로운 '정직도 시험지'를 만들었습니다."

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

1. 문제점: "눈이 좋은데, 머리는 착각하는 AI"

2. 해결책: INFACT (인팩트) - AI 의 '정직도'를 측정하는 4 단계 미션

🟢 모드 1: 기본 시험 (Base Mode)

🟡 모드 2: 시야 흐림 테스트 (Visual Degradation)

🟠 모드 3: 거짓 정보 유혹 테스트 (Evidence Corruption)

🔴 모드 4: 시간 순서 뒤섞기 테스트 (Temporal Intervention)

3. 주요 발견: "성적표가 좋다고 해서 믿을 수 있는 건 아니다"

4. 결론: AI 는 아직 '현실 감각'이 부족합니다

INFACT: 유도된 충실성 (Faithfulness) 과 사실성 (Factuality) 을 위한 진단적 벤치마크

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 INFACT 데이터셋 구성

2.2 4 가지 평가 모드 (Evaluation Modes)

2.3 평가 지표

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

1. 문제점: "눈이 좋은데, 머리는 착각하는 AI"

2. 해결책: INFACT (인팩트) - AI 의 '정직도'를 측정하는 4 단계 미션

🟢 모드 1: 기본 시험 (Base Mode)

🟡 모드 2: 시야 흐림 테스트 (Visual Degradation)

🟠 모드 3: 거짓 정보 유혹 테스트 (Evidence Corruption)

🔴 모드 4: 시간 순서 뒤섞기 테스트 (Temporal Intervention)

3. 주요 발견: "성적표가 좋다고 해서 믿을 수 있는 건 아니다"

4. 결론: AI 는 아직 '현실 감각'이 부족합니다

INFACT: 유도된 충실성 (Faithfulness) 과 사실성 (Factuality) 을 위한 진단적 벤치마크

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 INFACT 데이터셋 구성

2.2 4 가지 평가 모드 (Evaluation Modes)

2.3 평가 지표

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction