DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

이 논문은 인간이 노이즈 환경에서 시각적 근거를 효과적으로 식별하고 추론하는 방식을 모방하여, 추가적인 학습 없이 계층적 스캐닝, 리포커싱, 증거 강화 추론을 결합한 'DeepScan' 프레임워크를 제안함으로써 대규모 시각 - 언어 모델의 시각적 근거 기반 추론 능력을 획기적으로 향상시킵니다.

Yangfu Li, Hongjian Zhan, Jiawei Chen, Yuning Gong, Qi Liu, Yue Lu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DeepScan: 눈이 나쁜 AI 를 위한 '확대경'과 '검색 전문가'

이 논문은 **대규모 시각-언어 모델 **(LVLM)이 복잡한 이미지를 볼 때, 마치 우리가 "눈이 나빠서" 중요한 부분을 놓치거나 헷갈리는 문제를 해결하는 새로운 방법인 DeepScan을 소개합니다.

기존의 AI 는 이미지를 한 번에 훑어보고 바로 답을 말하려다 보니, 중요한 디테일을 놓치거나 엉뚱한 곳에 집중하는 실수를 자주 했습니다. DeepScan 은 이를 해결하기 위해 **훈련 **(학습)입니다.

이걸 이해하기 쉽게 3 단계 과정으로 비유해 볼까요?


🕵️‍♂️ 1 단계: "조금씩 훑어보기" (Hierarchical Scanning)

비유: 거대한 도서관에서 책 한 권을 찾는 일

  • **기존 방식 **(상향식) 도서관 전체를 한 번에 훑어보며 "아마도 저기 있을 거야"라고 대충 짐작해서 책장을 한 번에 다 뒤집어봅니다. (Coarse-to-fine)
    • 문제점: 책이 너무 많으면 (노이즈), 중요한 책이 어디 있는지 헷갈려서 엉뚱한 책장을 찾거나, 아예 못 찾습니다.
  • **DeepScan 방식 **(하향식) 도서관을 아주 작은 구역 (패치) 으로 나눕니다. 그리고 각 구역마다 **"검색 전문가 **(Search Expert)를 보내 "여기 중요한 단서가 있나?"라고 물어봅니다.
    • 핵심: "눈에 띄는 작은 단서 (Cue)"를 먼저 찾아낸 뒤, 그 단서를 바탕으로 확대경을 대고 정확한 증거 (Evidence) 를 찾아냅니다.
    • 효과: 마치 "이 책장 구석에 뭔가 반짝이는 게 있네?"라고 발견한 뒤, 그 부분만 확대해서 자세히 보는 것과 같습니다.

🔍 2 단계: "초점 다시 맞추기" (Refocusing)

비유: 사진 찍을 때 줌인/줌아웃 조절하기

  • 상황: 1 단계에서 증거를 찾았지만, 주변이 너무 복잡하거나 (너무 넓게 찍음), 너무 잘려서 (너무 좁게 찍음) 답을 내기 애매할 때가 있습니다.
  • DeepScan 의 해결책: AI 와 시각 전문가가 협력해서 "가장 적절한 화면 구성을 찾습니다.
    • "조금 더 확대해서 (Zoom-in) 디테일을 보자"
    • "조금 더 넓게 (Zoom-out) 주변 상황도 보자"
    • 이 과정을 반복하며 정답을 말하기에 가장 완벽한 프레임을 찾아냅니다.

🧠 3 단계: "모든 정보를 합쳐서 답하기" (Evidence-Enhanced Reasoning)

비유: 수사관들이 증거를 모아 사건을 해결하는 일

  • 이제 AI 는 찾은 **작은 증거들 **(디테일)과 **적절한 화면 **(맥락)을 모두 기억해 둡니다.
  • 이 모든 정보를 바탕으로 "이게 무슨 일이야?"라고 질문하면, AI 는 단순히 추측하는 게 아니라 찾아낸 확실한 증거를 바탕으로 정확한 답을 내놓습니다.

🌟 왜 이것이 특별한가요?

  1. **훈련이 필요 없습니다 **(Training-Free)
    • 기존 방법들은 AI 를 다시 가르치거나 (학습), 복잡한 보상을 주면서 훈련시켰습니다. DeepScan 은 이미 잘 만들어진 AI에 '검색 도구'만 추가해 주는 방식이라, 어떤 AI 모델이든 바로 적용할 수 있습니다.
  2. 작은 것까지 찾아냅니다:
    • 이미지 속 아주 작은 물체 (예: 셔츠에 적힌 작은 숫자, 멀리 있는 표지판) 를 찾는 데 탁월합니다. 기존 AI 는 이런 작은 것들을 '노이즈'로 치부하고 무시했지만, DeepScan 은 작은 단서부터 찾아내므로 정답률이 매우 높습니다.
  3. 어떤 모델이든 잘 작동합니다:
    • 작은 모델이든, 거대한 모델이든 DeepScan 을 적용하면 성능이 크게 향상됩니다.

💡 요약: DeepScan 이란?

**"AI 가 복잡한 이미지를 볼 때, 한 번에 다 보려고 하지 말고, 작은 단서부터 찾아내서 **(하향식)

이 방법은 AI 가 **환각 **(Hallucination, 없는 것을 있는 것처럼 말함)을 줄이고, 정확한 근거를 바탕으로 답할 수 있게 만들어줍니다. 마치 우리가 퍼즐을 풀 때, 전체 그림을 한 번에 보지 않고 조각 하나하나를 찾아서 맞춰가는 것과 같은 원리입니다.