Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 핵심 문제: "AI 는 그림을 보고 '무슨 일'만 말하지, '어떻게'는 말해주지 않아"

상상해 보세요. 친구가 "오늘 축구 경기 갔다!"라고 말한다고 칩시다.
그 친구는 "37 명이 필드 뒤에 서 있었어"라고 말하지 않죠. 왜냐면 그건 너무 당연한 사실이거나 불필요한 정보라고 생각하기 때문입니다.

이게 바로 논문에서 말하는 **'보고 편향 (Reporting Bias)'**입니다.
사람들은 그림을 설명할 때, 중요한 정보만 간추려서 말합니다.

공간적: "개와 고양이가 있다" (왼쪽/오른쪽/위/아래는 말하지 않음)
시간적: "공을 던졌다" (그리고 공이 떨어질 거라고 말하지 않음)
부정: "여기 공이 없다" (당연한 걸 굳이 말하지 않음)
수: "고양이들이 있다" (3 마리가 아니라 그냥 '무리'라고 함)

AI 는 이 **사람들이 쓴 설명 (데이터)**으로만 배웠기 때문에, AI 도 똑같이 생각합니다. "왼쪽/오른쪽", "3 마리", "아니야" 같은 말은 필요 없는 정보라고 배워버린 거죠.

📚 2. 실험: "책장을 아무리 많이 더해도 답이 안 나온다"

많은 사람들은 "데이터를 더 많이 모으고, AI 를 더 크게 만들면 (Scale), AI 가 스스로 논리를 깨우칠 거야"라고 믿습니다. 마치 책을 1 억 권이나 읽으면 자연스럽게 수학 천재가 될 거라고 믿는 것과 비슷하죠.

하지만 연구팀은 이 가설을 깨뜨렸습니다.

데이터를 100 배, 1000 배 늘려도: AI 는 여전히 "왼쪽/오른쪽"이나 "부정"을 잘 못 합니다.
왜? 사람들이 그림을 설명할 때 어떻게 말하든 (영어로 말하든, 한국어로 말하든, 100 만 명에게 물어보든) 결국 같은 방식으로 생략하기 때문입니다.
비유: 만약 모든 사람이 "물"을 설명할 때 "H2O"라는 화학식을 말하지 않고 그냥 "마시는 액체"라고만 한다면, 아무리 많은 사람이 물을 설명해도 AI 는 "H2O"라는 사실을 절대 배울 수 없습니다. 데이터의 양 (Scale) 이 아니라, 데이터의 '질'과 '방식'이 문제였던 것입니다.

🛠️ 3. 해결책: "선생님이 '이것만은 꼭 말해!'라고 지시해야 한다"

그렇다면 어떻게 해결할까요? 연구팀은 AI 가 배울 데이터를 만들 때, 사람 (또는 다른 AI) 에게 구체적인 지시를 내리는 실험을 했습니다.

기존 방식: "이 그림 설명해 줘." (사람은 여전히 중요한 건 생략함)
새로운 방식: "이 그림에서 물체의 개수와 위치 (위/아래), 부정 (아니야), **시간 (이전/이후)**을 꼭 포함해서 설명해 줘."

결과? 놀랍게도, 지시만 바꾸면 사람들이 (또는 AI 가) 평소엔 말하지 않던 복잡한 정보들을 3~4 배나 더 많이 포함해서 설명하기 시작했습니다.

🧩 4. 결론: "AI 를 똑똑하게 만들려면 '무작정 많이'가 아니라 '의도적으로' 가르쳐야 한다"

이 논문의 핵심 메시지는 다음과 같습니다.

AI 가 못 하는 건 바보라서가 아니다: AI 가 배운 책 (데이터) 에 그 내용이 거의 없었기 때문입니다.
데이터를 무작정 늘리는 건 소용없다: 사람이 설명하는 습관 자체가 바뀌지 않는 한, 데이터를 100 배 늘려도 AI 는 똑같은 실수를 반복합니다.
해결책은 '의도적인 교육'이다: 데이터를 수집할 때, **"이런 논리 (공간, 시간, 부정, 수) 는 꼭 포함하라"**고 명확히 지시해야 AI 가 그 능력을 배울 수 있습니다.

한 줄 요약:

AI 를 똑똑하게 만들려면, 단순히 **책을 더 많이 읽게 하는 것 (Scale)**이 아니라, **어떤 내용을 꼭 읽어야 하는지 '지시'를 명확히 하는 것 (Pragmatics)**이 훨씬 중요합니다.

이 연구는 앞으로 AI 를 개발할 때, 데이터를 무작정 모으는 것보다 '어떻게 가르칠지'를 고민하는 것이 더 중요하다는 것을 알려줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비전 - 언어 모델 (VLM) 은 표준 벤치마크에서는 뛰어난 성능을 보이지만, 세상 수 (Counting), 공간적 추론 (Spatial reasoning), 부정 (Negation), 시간적 추론 (Temporal reasoning) 과 같은 특정 유형의 추론 작업에서는 인간에 비해 현저히 낮은 성능을 보입니다. 기존 연구들은 이러한 한계가 모델의 아키텍처나 학습 데이터의 규모 (Scale) 부족 때문이라고 가정했으나, 이 논문은 그 근본 원인이 학습 데이터에 내재된 '보고 편향 (Reporting Bias)' 에 있다고 주장합니다.

보고 편향의 본질: 사람들이 이미지를 설명할 때 (캡션 작성), 화용론적 원칙 (Gricean Maxims) 에 따라 불필요하다고 판단되는 정보 (예: 사물의 정확한 개수, 구체적인 위치 관계, 부정 표현, 시간적 맥락) 를 의도적으로 생략하는 경향이 있습니다.
핵심 가설: 웹 규모의 데이터셋 (LAION 등) 이나 대규모 모델이라도, 훈련 데이터에 이러한 '암묵적 (Tacit)' 추론 정보가 체계적으로 누락되어 있다면, 모델은 해당 능력을 습득할 수 없습니다. 즉, 단순히 데이터와 모델 크기를 늘리는 것만으로는 이러한 추론 능력이 발현 (Emergence) 되지 않습니다.

2. 방법론 (Methodology)

2.1. 이론적 기반 및 가설 설정

언어학, 화용론, 인지과학 이론을 바탕으로 사람들이 캡션 작성 시 자연스럽게 생략하는 4 가지 추론 유형을 정의했습니다.

공간 (Spatial): '왼쪽', '위쪽' 등 공간 전치사 누락.
시간 (Temporal): '이전', '이후' 등 시간적 관계 누락.
세상 수 (Counting): 객체의 정확한 개수 누락 (예: "고양이들" vs "6 마리의 고양이").
부정 (Negation): "없음", "아니다" 등의 부정 표현 누락.

2.2. 데이터 분석 (Reporting Bias 검증)

OpenCLIP, LLaVA-1.5, Molmo 등 주요 오픈 소스 VLM 의 훈련 데이터 (LAION, PixMo 등) 를 분석하여 위 4 가지 추론 키워드의 빈도를 조사했습니다.

키워드 검색 및 정밀 분석: 키워드 검색을 통해 빈도를 추정하고, 샘플링된 데이터를 수동으로 검증하여 '진짜 추론이 포함된 비율 (True Occurrence)'을 계산했습니다.
결과: 웹 규모의 데이터셋에서도 공간적 추론은 약 0.1%, 부정 표현은 극히 드물게 나타나는 등, 추론에 필요한 데이터가 심각하게 부족함을 확인했습니다.

2.3. 벤치마크 구축 및 평가

4 가지 추론 유형을 평가하기 위해 기존 벤치마크를 수정하거나 새로 구축했습니다.

Spatial: What'sUp 벤치마크 (사물 간 위치 관계).
Counting: Count-Bench 단순화 버전 (객체 개수 세기).
Negation: VAW 벤치마크 재사용 (객체 속성 부정).
Temporal: ControlledImCaps 하위 집합 (사건 전/후 관계).
평가 대상: Contrastive VLM (OpenCLIP 계열) 과 Generative VLM (LLaVA, Molmo, GPT-4o 등) 을 포함하여 다양한 모델의 성능을 측정했습니다.

2.4. 스케일링 법칙 및 다국어 분석

스케일링 실험: 모델 파라미터 수와 학습 데이터 양을 증가시켰을 때 추론 성능이 어떻게 변하는지 분석했습니다.
다국어 데이터: 비영어권 캡션을 영어로 번역하여 추가하는 것이 (Nguyen et al., 2024) 추론 능력 향상에 도움이 되는지 검증했습니다.

2.5. 주석자 지시 (Annotator Instructions) 개입 실험

보고 편향을 완화하기 위해 주석자에게 구체적인 지시 (Prompt) 를 주는 것이 효과적인지 검증했습니다.

사용자 연구: 동일한 이미지 (COCO) 에 대해 서로 다른 지시 사항 (기존 COCO, LLaVA 스타일, PixMo 스타일, 연구팀의 새로운 지시) 을 적용하여 캡션을 작성하게 했습니다.
파인튜닝 실험: 연구팀의 지시를 통해 수집된 데이터 (추론 비율이 높은 데이터) 로 LLaVA-1.5 를 파인튜닝하여 성능 향상을 확인했습니다.

3. 주요 결과 (Key Results)

3.1. 데이터 편향과 모델 성능의 상관관계

낮은 성능: 모든 VLM(오픈 소스 및 상용 모델 포함) 은 인간 성능에 비해 4 가지 추론 작업에서 크게 뒤처졌습니다. 특히 부정 (Negation) 과 시간적 추론 (Temporal) 에서 성능이 매우 낮았습니다.
데이터 빈도와의 일치: LAION 등 훈련 데이터에서 특정 추론 키워드가 드물게 나타날수록, 해당 모델의 성능도 낮았습니다. (예: LAION 에서 공간적 관계 키워드가 0.1% 에 불과함 $\rightarrow$ OpenCLIP 의 공간 추론 성능 저하).

3.2. 스케일링의 한계 (Scaling Cannot Overcome)

규모의 무력함: 모델 크기나 데이터 양을 늘려도 (Compute 증가), 추론 성능은 인간 수준에 도달하지 못했습니다. 특히 부정과 시간적 추론에서는 로그 스케일에서도 인간 성능 (0% 손실) 에 도달하기 위해선 계산 자원이 현실적으로 불가능한 수준 (intractable) 으로 필요했습니다.
다국어의 한계: 비영어 데이터를 번역하여 추가하는 것은 분류 (Classification) 작업에는 도움이 되었으나, 보고 편향이 언어에 국한되지 않기 때문에 추론 능력 향상에는 효과가 없었습니다.

3.3. 주석자 지시의 효과 (Mitigation via Instructions)

지시의 중요성: 주석자에게 "객체의 개수를 명시하라", "사물의 위치를 설명하라"는 구체적인 지시를 주었을 때, 해당 유형의 추론 데이터 발생률이 2~3 배 증가했습니다.
특정성: 특정 추론 유형을 지시해야만 해당 데이터가 생성되며, 지시가 없으면 여전히 생략됩니다.
파인튜닝 성공: 연구팀의 지시를 통해 수집된 데이터 (추론 비율 39%) 로 파인튜닝한 모델은, 기존 데이터로 학습된 모델보다 세상 수 (Counting) 작업에서 유의미한 성능 향상을 보였습니다. 이는 아키텍처 자체의 문제가 아니라 데이터의 부재 때문임을 입증했습니다.

4. 주요 기여 (Key Contributions)

보고 편향의 규명: 웹 규모의 데이터셋에서도 인간의 화용론적 습관으로 인해 공간, 시간, 부정, 세기 등의 추론 정보가 체계적으로 누락됨을 3 개의 오픈 소스 코퍼스를 통해 실증했습니다.
스케일링 신화 탈피: 데이터와 모델 규모를 늘리는 것만으로는 이러한 추론 능력이 발현되지 않으며, 오히려 인간 성능에 도달하기 위해선 비현실적인 규모의 자원이 필요함을 보였습니다.
지시 기반 데이터 수집의 유효성 증명: 주석자 (또는 LLM) 에게 구체적인 지시 (Instructions) 를 제공하면 누락되었던 추론 정보를 효과적으로 수집할 수 있으며, 이는 모델의 추론 능력 향상으로 이어짐을 실험적으로 입증했습니다.
새로운 벤치마크 및 리소스 공개: 4 가지 추론 유형을 평가하는 벤치마크와 코드, 데이터를 오픈하여 후속 연구를 지원했습니다.

5. 의의 및 시사점 (Significance)

데이터 큐레이션의 패러다임 전환: VLM 의 추론 능력 향상을 위해 단순히 '더 많은 데이터'를 모으는 것 (Scaling) 에 의존하기보다, 의도적인 데이터 수집 (Intentional Curation) 과 정교한 주석자 지시가 필수적임을 강조합니다.
LLM 생성 데이터의 위험성: LLM 이 생성한 데이터도 인간이 작성한 데이터를 기반으로 학습되었기 때문에 동일한 보고 편향을 공유할 수 있음을 지적했습니다. 따라서 LLM 을 활용한 데이터 생성 시에도 편향을 완화하는 지시가 필수적입니다.
미래 연구 방향: 추론 능력 향상을 위해서는 자연어 처리 (NLP) 와 언어학의 통찰을 활용하여, 데이터 수집 단계에서 '질문 (Question Under Discussion)'을 명확히 하고, 누락되기 쉬운 추론 정보를 의도적으로 포함시키는 전략이 필요함을 제시합니다.

**결론적으로, 이 논문은 "규모 (Scale) 가 만능이 아니다"라고 주장하며, VLM 의 추론 한계를 극복하기 위해서는 데이터의 양이 아닌, 데이터의 질과 의도적인 구성 (화용론적 편향의 해소) 에 집중해야 함을 강조합니다.