INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

이 논문은 비디오-LLM 의 환각 현상 (신뢰성과 사실성) 을 진단하기 위해 9,800 개의 QA 데이터와 다양한 왜곡 모드를 포함한 'INFACT' 벤치마크를 제안하고, 기존 모델들이 기본 모드 성능과 달리 왜곡된 환경에서 신뢰성이 크게 저하됨을 실증합니다.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'INFACT'**라는 새로운 시험지를 소개합니다. 이 시험지는 최근 뜨고 있는 **'비디오 AI(Video-LLM)'**들이 얼마나 똑똑하고, 또 얼마나 정직한지를 진단하기 위해 만들어졌습니다.

비유하자면, 이 논문은 비디오 AI 를 **'새로 입사한 신입 사원'**으로 가정하고, 그가 업무에서 얼마나 **실수를 하는지 (환각, Hallucination)**를 꼼꼼히 체크하는 정밀 건강검진을 진행한 것입니다.

이 내용을 일상적인 언어와 쉬운 비유로 설명해 드릴게요.


1. 문제점: "눈이 좋은데, 머리는 착각하는 AI"

최근 비디오 AI 는 영상을 보고 내용을 설명하는 능력이 매우 뛰어나졌습니다. 하지만 문제는 그게 다 '착각'일 수 있다는 점입니다.

  • 신뢰성 (Faithfulness) 문제: AI 가 영상에 없는 것을 "있다고" 말하거나, 실제와 다르게 말해요.
    • 비유: 영상에 '빨간 사과'가 있는데 AI 가 "저기 초록 사과 있네요"라고 말하면 안 되죠.
  • 사실성 (Factuality) 문제: AI 가 세상의 상식이나 과학 법칙을 무시하고 엉뚱한 말을 해요.
    • 비유: "중력은 아래로 작용한다"는 상식을 무시하고 "이 영상에서는 사과가 하늘로 날아가네요"라고 말하면 안 되죠.

기존 시험지들은 AI 가 '깨끗한 영상'을 볼 때만 잘하는지 확인했습니다. 하지만 실제 세상에는 흐릿한 영상, 자막이 틀린 영상, 시간이 뒤죽박죽인 영상도 많습니다. 그래서 이 논문은 **"AI 가 이런 험한 환경에서도 여전히 정직할 수 있는가?"**를 테스트합니다.

2. 해결책: INFACT (인팩트) - AI 의 '정직도'를 측정하는 4 단계 미션

연구팀은 9,800 개의 질문과 영상을 준비해서 AI 를 4 가지 다른 상황 (모드) 에서 시험했습니다.

🟢 모드 1: 기본 시험 (Base Mode)

  • 상황: 가장 깨끗하고 정상적인 영상과 질문.
  • 목적: AI 의 기본 실력을 확인합니다. (시험지 1 점)

🟡 모드 2: 시야 흐림 테스트 (Visual Degradation)

  • 상황: 영상에 노이즈를 넣거나, 흐리게 (모션 블러) 하거나, 압축해서 화질을 떨어뜨립니다.
  • 비유: 안경을 안 끼고 흐릿하게 보이는 상태에서 물체를 맞추는 시험입니다.
  • 목표: "화질이 나빠져도 정답을 기억해 낼 수 있는가?"

🟠 모드 3: 거짓 정보 유혹 테스트 (Evidence Corruption)

  • 상황: 영상은 그대로인데, 자막이나 설명을 고의로 틀리게 넣습니다. (예: 문이 열리는 영상에 "문이 닫히고 있습니다"라는 자막을 띄움)
  • 비유: 시험지 옆에 "정답은 A 야!"라고 거짓말을 적어두고, AI 가 영상 자체를 믿을지, 아니면 거짓말을 믿을지 보는 것입니다.
  • 목표: "눈앞의 거짓말에 속지 않고, 실제 영상을 믿을 수 있는가?"

🔴 모드 4: 시간 순서 뒤섞기 테스트 (Temporal Intervention)

  • 상황: 영상의 프레임 순서를 뒤섞거나 거꾸로 돌려줍니다. (예: 컵이 깨지는 영상을 거꾸로 재생하면 컵이 다시 모이는 것처럼 보임)
  • 비유: 요리 영상을 뒤죽박죽 섞어서 "이게 요리 순서 맞나요?"라고 물어보는 것입니다.
  • 목표: "시간의 흐름을 진짜로 이해하고 있는가, 아니면 그냥 무작위 패턴을 외운 것인가?"

3. 주요 발견: "성적표가 좋다고 해서 믿을 수 있는 건 아니다"

14 가지의 다양한 비디오 AI 를 이 시험에 통과시켰더니 놀라운 결과가 나왔습니다.

  • 기본 점수 vs. 신뢰도: 기본 시험 (모드 1) 에서 점수가 아주 높은 AI 일수록, 험한 환경 (모드 2~4) 에서도 잘할 것이라고 생각하기 쉽지만, 그렇지 않았습니다.
    • 어떤 AI 는 기본 시험은 100 점인데, 자막이 틀리면 바로 50 점으로 떨어집니다.
    • 어떤 AI 는 시간 순서가 뒤섞이면 완전히 망가집니다.
  • 가장 취약한 점:
    • 거짓 정보에 약함: 영상보다 텍스트 (자막) 에 더 의존하는 경향이 있어, 자막이 틀리면 AI 도 같이 틀립니다.
    • 시간 감각 부족: 많은 오픈소스 AI 가 영상의 시간 순서가 뒤바뀌어도 "아무 일도 없었다"는 듯 같은 답을 내놓습니다. 이는 시간을 이해하지 못하고, 그냥 통계적 확률로 답을 맞추고 있다는 뜻입니다.

4. 결론: AI 는 아직 '현실 감각'이 부족합니다

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 영상 설명을 잘한다고 해서, 그 AI 가 영상을 진짜로 이해하고 있다고 생각하면 안 됩니다."

AI 는 마치 기억력이 좋지만, 주변 소음에 쉽게 흔들리고, 시간 개념이 흐릿한 학생과 같습니다. INFACT 는 이런 AI 들이 실제 세상 (흐릿한 영상, 거짓 정보, 복잡한 시간 흐름) 에서 얼마나 신뢰할 수 있는지를 가려내는 필수 진단 도구가 될 것입니다.

한 줄 요약:

"비디오 AI 가 얼마나 똑똑한지보다, 얼마나 착각하지 않고 정직한지를 확인하는 새로운 '정직도 시험지'를 만들었습니다."