Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "영화 감상을 하는 AI"

상상해 보세요. 여러분이 10 분짜리 영화를 보고 마지막에 "주인공이 왜 울었을까?"라는 질문을 받습니다.

기존의 평가 방식 (정답만 보기):
- AI 가 "그는 슬퍼서 울었다"라고 정답을 맞췄다면, 우리는 "와, AI 가 똑똑하다!"라고 생각합니다.
- 하지만 문제점: AI 가 영화를 전혀 보지 않고, "주인공이 울면 보통 슬픈 거야"라는 **상식 (데이터 통계)**만 외워서 정답을 맞췄을 수도 있습니다. 만약 영화 내용이 바뀌어도 (예: 주인공이 웃다가 갑자기 울음), AI 는 여전히 "슬퍼서 울었다"라고 답할 수 있습니다. 이는 실제 상황을 보지 않고 추측한 것입니다.
이 논문의 새로운 발견 (과정 보기):
- 연구자들은 AI 가 영화를 볼 때마다 중간중간 생각한 내용을 기록하게 했습니다.
- "지금 화면에 눈물이 보인다", "주인공 표정이 슬퍼 보인다"라고 기록하는지 확인한 거죠.
- 핵심 발견: 중간중간 영상을 제대로 보고 생각한 AI 일수록, 새로운 상황 (예상치 못한 영화) 이 나왔을 때도 잘 대처했습니다. 반대로, 중간에 영상을 안 보고 막연히 추측한 AI 는 새로운 상황에서는 엉뚱한 답을 냈습니다.

🔍 이 논문이 밝혀낸 3 가지 중요한 사실

1. "정답"은 속일 수 있지만, "과정"은 속일 수 없다

비유: 시험에서 정답을 맞혔다고 해서 그 학생이 공부를 잘한 건 아닐 수 있습니다. 그냥 찍어서 맞혔을 수도 있죠.
논문 내용: AI 가 최종 정답을 맞혔더라도, 그 과정 (추론) 이 영상과 맞지 않으면 (예: 화면에 없는 물건을 언급함) 그 AI 는 새로운 상황에서는 실패할 확률이 매우 높습니다. 이를 **'행동적 충실도 (Behavioral Faithfulness)'**라고 부릅니다.

2. "스케일 (크기)"이 크다고 해서 무조건 좋은 건 아니다

비유: 두 명의 학생이 똑같이 7 학년 (7B 파라미터) 입니다. 한 학생은 책을 꼼꼼히 읽으며 문제를 풀고, 다른 학생은 책장을 넘기만 하고 찍습니다. 둘 다 시험 점수는 비슷할 수 있습니다.
논문 내용: 같은 크기의 AI 모델들 사이에서도, **영상을 얼마나 꼼꼼히 보고 생각했는지 (SGR 점수)**에 따라 새로운 상황에서의 실력이 10% 이상 차이가 났습니다. 즉, 모델이 얼마나 큰지보다 어떻게 시각 정보를 사용하는지가 더 중요합니다.

3. 시간이 지날수록 기억이 흐려지는 경향

비유: 긴 영화를 볼 때, 처음에는 주인공의 옷 색깔을 잘 기억하다가 10 분 지나면 "아, 저게 빨간 옷이었나?" 하고 헷갈리기 시작하죠.
논문 내용: AI 도 마찬가지입니다. 긴 작업을 할수록 중간중간 영상을 제대로 보지 못하는 경우가 늘어납니다. 특히 공간 이동 (길 찾기) 같은 작업일수록 이 실수가 심해져서, 결국 마지막 정답을 틀리게 만듭니다.

🛠️ 연구진이 어떻게 확인했나요? (실험 방법)

연구진은 AI 가 "이건 빨간 의자야"라고 말할 때, 실제로 화면에 빨간 의자가 있는지 자동으로 확인하는 시스템을 만들었습니다.

상황 조작 실험: 화면의 의자 색을 '빨강'에서 '파랑'으로 바꿨습니다.
- 진짜 영상을 보는 AI: "아, 의자가 파란색이네"라고 생각을 바꿉니다.
- 가짜로 추측하는 AI: "아직도 빨간색이야"라고 고집을 부리거나, 아예 엉뚱한 말을 합니다.
결과: 진짜 영상을 보고 생각을 바꾼 AI 들이 새로운 상황에서도 훨씬 잘했습니다.

💡 결론: 왜 이 연구가 중요할까요?

이 논문의 결론은 매우 간단합니다.

"AI 가 정답을 맞히는 것보다, 그 정답에 도달하는 과정에서 영상을 제대로 보고 있는지 확인하는 것이 더 중요합니다."

앞으로 AI 를 개발하거나 평가할 때, 단순히 "정답률"만 보지 말고, **"AI 가 영상을 보고 제대로 생각했는가?"**를 체크해야 더 똑똑하고 신뢰할 수 있는 AI 를 만들 수 있다는 것을 증명했습니다.

한 줄 요약:

"정답만 맞춘 AI 는 '운 좋은' AI 일 뿐, 영상을 제대로 보고 생각한 AI 가 진짜 '똑똑한' AI 입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

장기적 비전 - 언어 작업 (Long-Horizon Tasks): 비디오 질문 응답 (Video QA), embodied navigation(로봇 내비게이션), 복잡한 지시 따르기 등 시각 정보를 긴 시퀀스에 걸쳐 통합해야 하는 작업이 증가하고 있습니다.
기존 평가의 한계: 현재 표준 벤치마크는 최종 답변의 정확도 (Final Answer Accuracy) 만을 측정합니다. 이는 다단계 추론 과정을 단일 비트 (정답/오답) 로 축소하여, 모델이 실제로 시각 입력에 기반하여 추론하는지, 아니면 언어적 편향 (Language Priors) 이나 데이터셋 통계적 패턴을 이용해 '추측'하는지 구분하지 못합니다.
핵심 문제: 모델이 최종 정답을 맞췄더라도, 그 중간 추론 과정이 시각적 증거와 무관할 수 있습니다. 이러한 '단순화 (Shortcut)'에 의존하는 모델은 분포 외 (Out-of-Distribution, OOD) 환경에서 일반화 성능이 급격히 떨어집니다.

2. 방법론 (Methodology)

저자들은 모델의 행동적 충실성 (Behavioral Faithfulness) 을 측정하기 위해 4 단계로 구성된 프레임워크를 제안합니다. 이는 모델의 출력뿐만 아니라 중간 추론 과정을 관찰하고 검증하는 것을 목표로 합니다.

2.1. 행동적 충실성 측정 4 단계

추론 추출 (Reasoning Extraction): CoT (Chain-of-Thought) 프롬프트를 사용하여 모델이 시각적 관찰, 시간적 위치, 중간 결론 등을 포함한 단계별 추론 흔적 (Traces) 을 생성하도록 유도합니다.
시각적 기반 검증 (Grounding Verification): 각 추론 단계 ( $r_i$ $r_{i}$ ) 가 현재 접근 가능한 시각적 증거 ( $v_i$ $v_{i}$ ) 와 일치하는지 확인합니다.
- 객체 감지 (Faster R-CNN), 추적 (DeepSORT), 행동 인식 (SlowFast) 등을 활용합니다.
- 각 단계는 Supported(지원됨), Unsupported(지원 안됨), Unverifiable(확인 불가) 로 라벨링됩니다.
신념 추적 (Belief Tracking): 모델의 시각적 이해도 (신념, $b_i$ ) 가 시간이 지남에 따라 어떻게 변하는지 로그를 남깁니다. 시각적 상황이 변할 때 신념이 업데이트되고, 변하지 않을 때는 일관성을 유지하는지 확인합니다.
제어된 교란 (Controlled Perturbations): 시각 입력을 변형 (객체 위치 변경, 시간 순서 뒤섞기, 가림 등) 하여 모델의 추론이 시각적 변화에 민감하게 반응하는지 테스트합니다.

2.2. 주요 지표 (Metrics)

단계별 기반율 (Step Grounding Rate, SGR): 전체 추론 단계 중 시각적으로 지지된 주장의 비율. (가장 핵심 지표)
시간적 일관성 점수 (Temporal Consistency Score, TCS): 시각적 증거가 변하지 않을 때 신념이 유지되고, 변할 때 적절히 업데이트되는지 측정.
환각율 (Hallucination Rate, HR): 시각적 근거가 없는 주장을 포함하는 단계의 비율.
시각 의존도 점수 (Visual Reliance Score, VRS): 관련 있는 시각적 교란과 관련 없는 교란에 대한 모델 반응의 차이를 측정하여, 모델이 진정으로 시각에 의존하는지 확인.

3. 주요 기여 (Key Contributions)

개념적 기여: 정확도와 모델 규모 (Scale) 와는 직교하는 새로운 차원인 '장기적 행동적 충실성 (Behavioral Faithfulness over Long Horizons)' 을 정량화 가능한 구성 요소로 정의했습니다.
경험적 발견 (행동 법칙): 시간적 기반의 질 (Temporal Grounding Quality) 이 OOD 일반화 성능의 강력한 예측 지표임을 발견했습니다.
- SGR 과 OOD 성능 간의 상관관계는 r=0.83 (p=0.003) 으로 매우 강력합니다.
- 이 관계는 모델의 규모나 분포 내 정확도를 통제한 후에도 유지됩니다.
용량 독립성 증명: 파라미터 수 (7B) 가 동일한 모델들 사이에서도 SGR 은 최대 10.8%p까지 차이가 나며, 이는 모델의 전체적인 능력 (Scale) 이 아닌 시각적 기반의 질이라는 독립적인 능력 축임을 보여줍니다.

4. 실험 결과 (Results)

평가 대상: 8 개의 모델 (CLIP-ViL, VideoChat, Video-LLaVA, LLaVA-1.6, InternVL2-7B, GPT-4V, GPT-4o 등) 과 3 개의 벤치마크 (STAR, R2R, TEACh).
정확도 vs 기반율의 괴리: 모든 모델에서 작업 정확도 (Acc) 는 시각적 기반율 (SGR) 보다 높았습니다. 특히 약한 모델일수록 언어적 단서에 의존하여 정확도는 높지만 SGR 은 낮은 경향이 있었습니다.
OOD 일반화 예측:
- SGR 이 높은 모델은 OOD 테스트셋에서 성능 저하가 적었습니다.
- 7B 모델 군집 내에서 SGR 이 높은 모델 (예: LLaVA-1.6) 이 SGR 이 낮은 모델 (예: VideoChat) 보다 OOD 성능이 더 좋았습니다.
교란 실험 (Perturbation Analysis):
- 시각적 교란 (객체 위치 변경 등) 에 대해 SGR 은 최종 정확도보다 더 민감하게 반응했습니다 ( $|\Delta SGR| > |\Delta Acc|$ ).
- 반대로 언어만 변경하고 시각은 고정했을 때는 SGR 변화가 미미했습니다. 이는 모델이 진정으로 시각적 입력에 의존하고 있음을 입증합니다.
시간적 경향: 작업이 진행됨에 따라 SGR 은 점차 감소하는 경향을 보였으며, 특히 공간적 추론이 필요한 R2R(내비게이션) 작업에서 감소 폭이 가장 컸습니다.

5. 의의 및 결론 (Significance & Conclusion)

새로운 평가 패러다임: 단순히 "정답을 맞췄는가"가 아니라 "시각적 증거에 기반하여 올바르게 추론했는가"를 평가해야 함을 강조합니다.
강건성 (Robustness) 의 핵심: 장기적 비전 - 언어 모델의 강건성은 모델의 크기나 데이터 양뿐만 아니라, 시간이 지남에 따라 시각적 신념을 얼마나 충실하게 유지하는지에 달려 있습니다.
실용적 함의: SGR 은 모델 개발 과정에서 OOD 성능을 예측하는 조기 지표 (Leading Indicator) 로 활용될 수 있으며, 모델이 언어적 편향에 의존하지 않고 실제 시각 정보를 처리하도록 유도하는 훈련 목표 설정에 기여할 수 있습니다.

요약하자면, 이 논문은 정확도라는 가면을 쓴 모델의 취약점 (시각적 기반 부재) 을 드러내고, 단계별 시각적 기반의 충실성 (SGR) 이 장기적 작업에서의 일반화 능력을 결정하는 핵심 요소임을 증명했습니다.