VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

이 논문은 이미지 내 가시성과 관점 추론 능력을 평가하기 위해 최소 편집을 기반으로 한 새로운 벤치마크 'VB'를 제안하고, 다양한 비전 - 언어 모델들의 성능을 정밀하게 분석한 결과를 제시합니다.

Neil Tripathi

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

눈으로만 볼 수 있는 것: "VB" 벤치마크 이야기

이 논문은 **"인공지능이 사진을 보고 '무엇이 보이고, 무엇이 보이지 않는지'를 정확히 판단할 수 있을까?"**라는 아주 중요한 질문을 던집니다.

마치 실수하면 큰일 나는 상황 (자율주행차가 가려진 보행자를 놓치거나, 맹인을 위한 보조 기술이 보이지 않는 물건을 설명하는 경우) 에서 AI 가 무작정 추측하지 않고, "모르겠다"라고 정직하게 말할 수 있는지를 테스트하는 도구입니다.

이 연구의 핵심을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 이 연구는 무엇을 했나요? (VB 벤치마크)

저자는 **VB(Visibility Benchmark)**라는 새로운 시험지를 만들었습니다. 이 시험지는 AI 에게 사진을 보여주고 "이 사진에 X 가 보입니까?"라고 물은 뒤, 다음 세 가지 중 하나를 고르게 합니다.

  • 🟢 확실히 보인다 (VISIBLY_TRUE): 사진에 명확하게 찍혀 있다.
  • 🔴 확실히 안 보인다 (VISIBLY_FALSE): 사진에 없거나 가려져 있다.
  • ⚪ 모르겠다 (ABSTAIN): 사람이 봐도 판단하기 어렵다. (이때는 추측하지 말고 멈춰야 함)

💡 비유:
마치 치과 의사가 엑스레이를 보고 "충치가 있나요?"라고 물을 때,

  • "네, 확실히 있어요" (보임)
  • "아니요, 깨끗해요" (안 보임)
  • "엑스레이 화질이 너무 흐릿해서 모르겠어요. 다시 찍어야 합니다" (중단/ABSTAIN)
    라고 대답하는 것과 같습니다. AI 가 "모르겠다"라고 말할 줄 아는 것이 얼마나 중요한지 이 시험은 평가합니다.

2. 시험지는 어떻게 만들어졌나요? (2x2 퍼즐)

이 시험지는 단순히 문제를 많이 내는 게 아니라, 미세한 변화를 주며 AI 를 꼼꼼히 테스트합니다. 100 개의 '가족 (Family)'으로 구성된 2x2 퍼즐 구조를 사용합니다.

  • 기본 사진 (Base): 가려진 사진.
  • 텍스트 변경 (Text Flip): 질문만 바꿔서 "보이나요?"를 "안 보이나요?"로 바꿈.
  • 이미지 변경 (Image Flip): 사진만 살짝 바꿔서 가려진 물건을 보이게 함.
  • 둘 다 변경 (Double Flip): 질문과 사진 모두 바꿈.

💡 비유:
마치 변장한 도둑을 잡는 게임 같습니다.

  1. 기본: 도둑이 가려져서 안 보임. (AI 는 "안 보인다"고 해야 함)
  2. 텍스트 변경: "도둑이 보이나요?" 대신 "도둑이 안 보이나요?"라고 물음. (AI 는 논리적으로 "네, 안 보인다"고 답해야 함)
  3. 이미지 변경: 가리개만 치우고 도둑을 드러냄. (AI 는 "보인다"고 답해야 함)
  4. 둘 다: 질문도 바꾸고 사진도 바꿈.

만약 AI 가 이미지만 살짝 바뀌었는데도 같은 답을 하거나, 질문만 바뀌었는데도 같은 답을 한다면, AI 는 상황을 제대로 이해하지 못하고 있는 것입니다. 이 연구는 AI 가 정확한 이유로 답을 바꿀 수 있는지 확인합니다.


3. 어떤 AI 들이 시험을 봤나요?

최신 거대 AI(GPT-4o, Gemini 3.1 Pro 등) 와 오픈소스 AI(Gemma 3 등) 총 9 개 모델을 시험에 참여시켰습니다.

🏆 결과 요약:

  • 최고 점수: GPT-4oGemini 3.1 Pro가 서로 근소한 차이로 1, 2 위를 다투며 가장 잘했습니다. (약 73 점)
  • 오픈소스의 활약: Gemma 3 12B라는 오픈소스 모델이 이전 세대 상용 모델 (Claude 3.7 Sonnet) 보다 더 좋은 점수를 받아, "작은 모델도 잘할 수 있다"는 것을 증명했습니다.
  • 약점: 많은 모델이 이미지가 살짝 바뀌는 것 (이미지 플립) 에는 둔하고, 질문의 부정어 ("안 보인다") 를 바꾸는 것 (텍스트 플립) 에는 더 잘 반응했습니다. 즉, 눈으로 보는 변화보다 문장 읽기를 더 잘하는 경향이 있습니다.

4. 왜 이 연구가 중요한가요?

이 연구는 AI 에게 **"무조건 답을 내는 것"보다 "정답을 모를 때는 침묵하는 것"**이 얼마나 중요한지 보여줍니다.

  • 안전: 자율주행차가 가려진 보행자를 "없다"고 잘못 판단하면 사고가 납니다. 대신 "모르겠다"고 판단하고 멈추는 것이 안전합니다.
  • 신뢰: AI 가 자신의 확신도 (Confidence) 를 정확히 표현할 때, 우리는 그 AI 를 더 믿고 사용할 수 있습니다. (예: "90% 확신으로 보인다" vs "50% 확신으로 보인다")

🎯 결론:
이 논문은 AI 가 사진을 볼 때 **"눈이 잘 보이는지, 가려진 건 안 보이는지, 그리고 모를 때는 입을 다물 수 있는지"**를 평가하는 새로운 기준을 제시했습니다. 최신 AI 들은 이미 꽤 잘하지만, 아직 이미지의 미세한 변화를 감지하는 능력과 정확한 확신도 판단 능력은 더 발전해야 합니다.

이 연구는 앞으로 AI 가 우리 삶에 더 안전하게 들어오기 위해, **"무엇을 알고 무엇을 모르는지"**를 정확히 아는 지능을 길러야 함을 일깨워줍니다.