Each language version is independently generated for its own context, not a direct translation.

눈으로만 볼 수 있는 것: "VB" 벤치마크 이야기

이 논문은 **"인공지능이 사진을 보고 '무엇이 보이고, 무엇이 보이지 않는지'를 정확히 판단할 수 있을까?"**라는 아주 중요한 질문을 던집니다.

마치 실수하면 큰일 나는 상황 (자율주행차가 가려진 보행자를 놓치거나, 맹인을 위한 보조 기술이 보이지 않는 물건을 설명하는 경우) 에서 AI 가 무작정 추측하지 않고, "모르겠다"라고 정직하게 말할 수 있는지를 테스트하는 도구입니다.

이 연구의 핵심을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 이 연구는 무엇을 했나요? (VB 벤치마크)

저자는 **VB(Visibility Benchmark)**라는 새로운 시험지를 만들었습니다. 이 시험지는 AI 에게 사진을 보여주고 "이 사진에 X 가 보입니까?"라고 물은 뒤, 다음 세 가지 중 하나를 고르게 합니다.

🟢 확실히 보인다 (VISIBLY_TRUE): 사진에 명확하게 찍혀 있다.
🔴 확실히 안 보인다 (VISIBLY_FALSE): 사진에 없거나 가려져 있다.
⚪ 모르겠다 (ABSTAIN): 사람이 봐도 판단하기 어렵다. (이때는 추측하지 말고 멈춰야 함)

💡 비유:
마치 치과 의사가 엑스레이를 보고 "충치가 있나요?"라고 물을 때,

"네, 확실히 있어요" (보임)
"아니요, 깨끗해요" (안 보임)
"엑스레이 화질이 너무 흐릿해서 모르겠어요. 다시 찍어야 합니다" (중단/ABSTAIN)
라고 대답하는 것과 같습니다. AI 가 "모르겠다"라고 말할 줄 아는 것이 얼마나 중요한지 이 시험은 평가합니다.

2. 시험지는 어떻게 만들어졌나요? (2x2 퍼즐)

이 시험지는 단순히 문제를 많이 내는 게 아니라, 미세한 변화를 주며 AI 를 꼼꼼히 테스트합니다. 100 개의 '가족 (Family)'으로 구성된 2x2 퍼즐 구조를 사용합니다.

기본 사진 (Base): 가려진 사진.
텍스트 변경 (Text Flip): 질문만 바꿔서 "보이나요?"를 "안 보이나요?"로 바꿈.
이미지 변경 (Image Flip): 사진만 살짝 바꿔서 가려진 물건을 보이게 함.
둘 다 변경 (Double Flip): 질문과 사진 모두 바꿈.

💡 비유:
마치 변장한 도둑을 잡는 게임 같습니다.

기본: 도둑이 가려져서 안 보임. (AI 는 "안 보인다"고 해야 함)
텍스트 변경: "도둑이 보이나요?" 대신 "도둑이 안 보이나요?"라고 물음. (AI 는 논리적으로 "네, 안 보인다"고 답해야 함)
이미지 변경: 가리개만 치우고 도둑을 드러냄. (AI 는 "보인다"고 답해야 함)
둘 다: 질문도 바꾸고 사진도 바꿈.

만약 AI 가 이미지만 살짝 바뀌었는데도 같은 답을 하거나, 질문만 바뀌었는데도 같은 답을 한다면, AI 는 상황을 제대로 이해하지 못하고 있는 것입니다. 이 연구는 AI 가 정확한 이유로 답을 바꿀 수 있는지 확인합니다.

3. 어떤 AI 들이 시험을 봤나요?

최신 거대 AI(GPT-4o, Gemini 3.1 Pro 등) 와 오픈소스 AI(Gemma 3 등) 총 9 개 모델을 시험에 참여시켰습니다.

🏆 결과 요약:

최고 점수: GPT-4o와 Gemini 3.1 Pro가 서로 근소한 차이로 1, 2 위를 다투며 가장 잘했습니다. (약 73 점)
오픈소스의 활약: Gemma 3 12B라는 오픈소스 모델이 이전 세대 상용 모델 (Claude 3.7 Sonnet) 보다 더 좋은 점수를 받아, "작은 모델도 잘할 수 있다"는 것을 증명했습니다.
약점: 많은 모델이 이미지가 살짝 바뀌는 것 (이미지 플립) 에는 둔하고, 질문의 부정어 ("안 보인다") 를 바꾸는 것 (텍스트 플립) 에는 더 잘 반응했습니다. 즉, 눈으로 보는 변화보다 문장 읽기를 더 잘하는 경향이 있습니다.

4. 왜 이 연구가 중요한가요?

이 연구는 AI 에게 **"무조건 답을 내는 것"보다 "정답을 모를 때는 침묵하는 것"**이 얼마나 중요한지 보여줍니다.

안전: 자율주행차가 가려진 보행자를 "없다"고 잘못 판단하면 사고가 납니다. 대신 "모르겠다"고 판단하고 멈추는 것이 안전합니다.
신뢰: AI 가 자신의 확신도 (Confidence) 를 정확히 표현할 때, 우리는 그 AI 를 더 믿고 사용할 수 있습니다. (예: "90% 확신으로 보인다" vs "50% 확신으로 보인다")

🎯 결론:
이 논문은 AI 가 사진을 볼 때 **"눈이 잘 보이는지, 가려진 건 안 보이는지, 그리고 모를 때는 입을 다물 수 있는지"**를 평가하는 새로운 기준을 제시했습니다. 최신 AI 들은 이미 꽤 잘하지만, 아직 이미지의 미세한 변화를 감지하는 능력과 정확한 확신도 판단 능력은 더 발전해야 합니다.

이 연구는 앞으로 AI 가 우리 삶에 더 안전하게 들어오기 위해, **"무엇을 알고 무엇을 모르는지"**를 정확히 아는 지능을 길러야 함을 일깨워줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

시각 - 언어 모델 (VLM) 이 자율 주행, 보조 기술, 의료 영상 등 안전이 중요한 분야에서 배포될 때, 시각적 증거가 불충분한 상황에서 무작위 추측을 하는 것보다 판단을 유보 (Abstain) 하는 것이 더 안전합니다. 기존 벤치마크는 주로 "질문이 답할 수 없는지" 여부만 확인했으나, VB 는 다음과 같은 더 구체적인 문제를 다룹니다.

가시성 (Visibility) 과 존재 (Presence) 의 구분: 물체가 사진에 존재하더라도 가려져 있거나 (Occlusion), 프레임 밖이거나 (Out of frame), 너무 어둡거나 작아肉眼으로 확인 불가능한 경우, 모델이 이를 '보이지 않음 (VISIBLY_FALSE)' 또는 '판단 불가 (ABSTAIN)'로 정확히 식별할 수 있어야 합니다.
제어된 변화에 대한 민감도: 이미지의 미세한 편집 (예: 가리개 제거) 이나 질문의 텍스트 변경 (예: 부정문 추가) 이 발생했을 때, 모델의 판단이 논리적으로 반전되어야 합니다.
2 차원 관점 추론 (Second-order Perspective): 한 인물이 다른 인물의 시야를 어떻게 인지하는지 등, 사진에 기반한 사회적/협력적 추론 능력을 평가해야 합니다.

2. 방법론 (Methodology)

A. 벤치마크 설계 (VB Benchmark Design)

2x2 패밀리어 (Family) 구조: 100 개의 패밀리로 구성되며, 각 패밀리는 하나의 기본 이미지 ( $I_0$ $I_{0}$ ) 와 편집된 이미지 ( $I_1$ $I_{1}$ ), 그리고 기본 질문 ( $q_0$ $q_{0}$ ) 과 텍스트가 수정된 질문 ( $q_1$ $q_{1}$ ) 을 교차하여 4 개의 셀을 생성합니다.
- BASE: ( $I_0, q_0$ ) - 일반적으로 거짓 (VISIBLY_FALSE).
- TEXT_FLIP: ( $I_0, q_1$ ) - 질문만 변경하여 참 (VISIBLY_TRUE) 으로 만듦.
- IMAGE_FLIP: ( $I_1, q_0$ ) - 이미지만 편집하여 참 (VISIBLY_TRUE) 으로 만듦.
- DOUBLE_FLIP: ( $I_1, q_1$ ) - 진단용 (참/거짓 반전).
레이블 체계: 모델은 다음 3 가지 중 하나를 출력해야 합니다.
1. VISIBLY_TRUE: 사진의 픽셀로 명확히 참임.
2. VISIBLY_FALSE: 사진의 픽셀로 명확히 거짓임.
3. ABSTAIN: 인간이 봐도 확신할 수 없을 때 (판단 유보).
가시성 요인 (Visibility Factors): 8 가지 주요 카테고리 (시선 방향, 가림, 프레임 밖, 조명/거리, 본질적으로 비가시적, 증강 시야 필요, 맥락 부족, 다중 에이전트) 로 분류됩니다.
출력 형식: JSON 형식으로 label, reason_code (실패 원인), confidence (0~1) 를 출력하도록 강제합니다.

B. 평가 지표 (Metrics)

CAA (Confidence-Aware Accuracy with Abstention): 정답 시 높은 신뢰도 점수, 오답 시 0 점, 유보 (ABSTAIN) 시 부분 점수 ( $\alpha=0.25$ ) 를 부여하여 안전성을 고려한 정확도를 측정합니다.
MEFR (Minimal Edit Flip Rate): BASE 셀을 맞춘 경우, 텍스트 편집이나 이미지 편집 시 정답이 반전되는지 (Flip) 를 측정하여 모델의 견고성을 평가합니다.
SelRank: 신뢰도 순서대로 정렬했을 때 정답이 오답보다 앞에 오는지 (Selective Prediction) 를 측정합니다.
ToMAcc: 2 차원 관점 추론 (Multi-agent) 항목의 정확도입니다.
최종 점수: $0.70 \times CAA + 0.15 \times MEFR + 0.10 \times SelRank + 0.05 \times ToMAcc$ 로 가중치 합산합니다.

3. 주요 기여 (Key Contributions)

VB 벤치마크 도입: 단일 사진과 짧은 질문을 기반으로 가시성 주장을 검증하고, 제어된 최소 편집 (Minimal Edits) 을 통해 모델의 논리적 일관성을 테스트하는 새로운 태스크 정의.
새로운 평가 지표 세트: 유보 (Abstention) 와 신뢰도 보정 (Calibration) 을 명시적으로 고려한 CAA, MEFR, SelRank 등의 메트릭 개발.
포괄적인 모델 평가: 최신 폐쇄형 모델 (GPT-5, Gemini 3.1 Pro 등) 과 오픈소스 모델 (8B~12B 규모) 9 종에 대한 비교 평가를 통해 성능 격차와 한계를 규명.
데이터 및 인프라 공개: 전체 데이터셋, 메타데이터, 평가 코드를 공개하여 재현성을 보장합니다.

4. 실험 결과 (Results)

9 개의 모델을 평가한 주요 결과는 다음과 같습니다.

성능 순위:
- 최상위: GPT-4o (0.728) 와 Gemini 3.1 Pro (0.727) 가 동점 1 위를 기록했습니다.
- 중위: Gemini 2.5 Pro (0.678), GPT-5 (0.625), Claude Opus 4.5 (0.570).
- 오픈소스: Gemma 3 12B (0.505) 가 가장 우수하며, 이전 세대 폐쇄형 모델인 Claude 3.7 Sonnet (0.476) 을 능가했습니다. InternVL3-8B (0.445) 와 Qwen3-VL-8B (0.419) 는 하위권을 기록했습니다.
텍스트 vs 이미지 반전 민감도 (Flip Asymmetry):
- 9 개 모델 중 6 개 모델에서 **텍스트 반전 (Text-flip)**에 대한 견고성이 **이미지 반전 (Image-flip)**보다 높았습니다. 즉, 모델은 텍스트의 부정을 이해하는 데는 능숙하지만, 이미지의 미세한 시각적 변화 (가림 제거 등) 를 감지하는 데는 상대적으로 취약합니다.
- GPT-4o 는 두 영역 모두에서 높은 성능을 보였습니다.
신뢰도 보정 (Calibration):
- GPT-4o 와 Gemini 2.5 Pro 는 유사한 정확도 (CAA) 를 보였으나, **SelRank(신뢰도 기반 선택 예측)**에서는 큰 차이가 있었습니다. Gemini 2.5 Pro 는 신뢰도가 낮은 답변이 더 정확할 가능성이 있는 (Anti-informative) 경향을 보인 반면, GPT-4o 는 상대적으로 양호한 보정 능력을 보였습니다.
- Gemini 3.1 Pro 는 가장 높은 신뢰도 보정 (SelRank 0.394) 을 기록했습니다.
2 차원 관점 추론 (ToMAcc):
- GPT-4o (0.952) 가 압도적으로 우수했으며, 오픈소스 모델들은 대부분 무작위 추측 수준에 머물렀습니다. 이는 복잡한 사회적/시각적 추론 능력에서 폐쇄형 모델의 우위를 보여줍니다.

5. 의의 및 결론 (Significance)

안전 중심의 평가: VLM 이 실제 환경 (자율주행, 의료 등) 에 배포될 때, "모르는 것을 모른다고 말하는 능력 (Abstention)"과 "신뢰도 점수의 정확성"이 단순한 정확도보다 더 중요함을 강조합니다.
오픈소스 모델의 진전: 8B~12B 규모의 오픈소스 모델 (Gemma 3 12B) 이 이전 세대 폐쇄형 모델을 능가할 수 있음을 보여주어, 가시성 추론 능력이 오픈소스 생태계로 전파되고 있음을 시사합니다.
향후 연구 방향:
1. 이미지 편집 감지 능력 향상: 텍스트 논리 추론에 비해 시각적 미세 변화 탐지가 취약한 이유 규명 및 개선.
2. 신뢰도 보정: 정확도와 신뢰도 순위가 일치하도록 하는 학습/보정 기법 개발.
3. 확장성: 2 차원 관점 추론 데이터셋의 규모 확대 및 다양한 환경 (병원, 산업 현장 등) 으로의 일반화.

이 논문은 VLM 이 단순히 "무엇이 있는지"를 인식하는 것을 넘어, **"무엇이 보이는지 (가시성)"**와 **"무엇을 알 수 없는지 (불확실성)"**를 판단하는 능력의 중요성을 체계적으로 규명한 선구적인 연구입니다.

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

눈으로만 볼 수 있는 것: "VB" 벤치마크 이야기

1. 이 연구는 무엇을 했나요? (VB 벤치마크)

2. 시험지는 어떻게 만들어졌나요? (2x2 퍼즐)

3. 어떤 AI 들이 시험을 봤나요?

4. 왜 이 연구가 중요한가요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 벤치마크 설계 (VB Benchmark Design)

B. 평가 지표 (Metrics)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers