Each language version is independently generated for its own context, not a direct translation.

거울 속의 '만약에'를 찾아서: CIRCLES 가 시각 AI 를 더 똑똑하게 만드는 방법

이 논문은 **"시각-언어 모델 (VLM)"**이라고 불리는, 그림을 보고 질문에 답하는 최신 AI 들이 왜 가끔 엉뚱한 답을 하는지, 그리고 어떻게 하면 그들을 더 똑똑하고 논리적으로 만들 수 있는지에 대한 이야기를 담고 있습니다.

저희가 제안한 새로운 방법의 이름은 CIRCLES입니다. 이걸 이해하기 위해 일상생활에 비유해 보겠습니다.

1. 문제: AI 는 왜 '유사한 것'만 보고 착각할까요?

기존의 AI 는 새로운 문제를 풀 때, **비슷한 예시 (Demonstration)**를 찾아서 그걸 보고 답을 유추합니다. 마치 시험을 볼 때 "어떤 문제를 풀었더라?"라고 기억나는 비슷한 문제를 떠올리는 것과 비슷하죠.

하지만 여기서 문제가 생깁니다.

기존 방식 (RICES 등): AI 는 "비슷하게 보이는 것"을 찾습니다.
- 비유: "새를 구별하는 시험"을 치는데, AI 가 노란 배를 가진 새를 보고 답을 찾으려 할 때, 단순히 노란 배를 가진 다른 새들만 찾아옵니다.
- 결과: AI 는 "노란 배 = A 종"이라고만 외웁니다. 하지만 실제로는 머리 무늬가 A 종을 결정하는 중요한 요소인데, AI 는 그걸 모르고 엉뚱한 답을 냅니다. 즉, 표면적인 유사성에만 의존해서 '가짜 연관관계'를 만들어냅니다.

2. 해결책: CIRCLES 의 '만약에 (Counterfactual)' 마법

CIRCLES 는 이 문제를 해결하기 위해 **"만약에 (Counterfactual)"**라는 개념을 도입했습니다.

CIRCLES 의 방식: 단순히 비슷한 그림만 찾는 게 아니라, **"이 그림의 특정 부분만 바꿔보면 어떨까?"**라고 상상하며 예시를 찾습니다.
- 비유: 노란 배를 가진 새를 보고 답을 찾으려 할 때, AI 는 다음과 같은 예시들을 찾아옵니다.
  1. 원래 그림: 노란 배, 검은 머리 무늬 (정답: A 종)
  2. 변형 그림 1: 노란 배를 흰색으로 바꿨는데, 머리 무늬는 그대로 (정답: 여전히 A 종) -> 배 색깔은 중요하지 않구나!
  3. 변형 그림 2: 머리 무늬를 지우고 흰색으로 바꿨는데, 배는 노란색 (정답: B 종) -> 아! 머리 무늬가 진짜 중요하구나!

이렇게 특정 속성 (Attribute) 만을 의도적으로 바꿔본 예시들을 AI 에게 보여줌으로써, AI 는 "아, 배 색깔은 상관없고 머리 무늬가 진짜 핵심이구나!"라고 **인과관계 (Cause and Effect)**를 깨닫게 됩니다.

3. CIRCLES 가 어떻게 작동할까요? (3 단계 과정)

이 과정은 마치 명탐정이 사건을 해결하는 것과 같습니다.

속성 찾기 (Attribute Identification):
- AI 가 "이 그림에서 어떤 부분이 정답을 결정하는 열쇠일까?"라고 스스로 물어봅니다. (예: "머리 무늬", "배 색깔")
만약에 시나리오 만들기 (Composed Image Retrieval):
- "만약 이 새의 배 색깔이 회색이었다면 어떨까?"라고 상상하며, **그림을 수정한 설명 (캡션)**을 만듭니다.
- 그리고 그 설명에 맞는 그림을 데이터베이스에서 찾아옵니다. (예: 배 색깔만 회색으로 바뀐 비슷한 새 그림)
비교 학습 (Reasoning):
- 원래 그림과 변형된 그림들을 한꺼번에 보여줍니다.
- "이건 배가 노란데 A 종이고, 저건 배가 회색인데도 A 종이야. 근데 머리 무늬가 바뀌면 B 종이 돼."
- 이렇게 AI 는 표면적인 유사성을 넘어 진짜 이유를 학습하게 됩니다.

4. 왜 이것이 중요한가요?

데이터가 부족할 때 더 강력합니다: 학습할 예시가 적을수록 (정보 부족 상황), AI 는 엉뚱한 추측을 하기 쉽습니다. CIRCLES 는 "만약에"를 통해 적은 데이터에서도 핵심 원리를 찾아내어 성능을 크게 향상시킵니다.
작은 AI 모델도 대박납니다: 계산 능력이 약한 작은 AI 모델일수록 이 방법이 효과적입니다. 마치 "스마트폰"도 "CIRCLES"라는 나침반을 가지면 복잡한 길을 잘 찾아갈 수 있는 것과 같습니다.
다양한 분야에서 통합니다: 새를 구별하는 것 (CUB), 꽃을 분류하는 것 (Flowers), 복잡한 시각 질문 (OK-VQA) 등 다양한 시험에서 기존 방법보다 훨씬 좋은 점수를 받았습니다.

5. 결론: "유사함"이 아닌 "이유"를 가르치다

기존의 AI 는 "비슷한 것을 찾아서 답을 맞추는" 수동적인 학생이었습니다.
하지만 CIRCLES를 적용한 AI 는 "왜 그런 답이 나왔는지 이유를 찾아내는" 능동적인 탐정이 됩니다.

이 연구는 AI 에게 단순히 "이게 정답이야"라고 알려주는 것을 넘어, **"만약 이 부분이 달랐다면?"**이라는 질문을 통해 스스로 논리적으로 추론하는 능력을 키워준다는 점에서 매우 의미 있습니다. 앞으로 더 똑똑하고, 편견 없이, 그리고 논리적으로 생각하는 AI 를 만드는 데 큰 발걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Retrieving Counterfactuals Improves Visual In-Context Learning (CIRCLES)

1. 연구 배경 및 문제 정의

비전 - 언어 모델 (VLM) 은 다양한 멀티모달 추론 작업에서 뛰어난 성능을 보이지만, 미세한 시각적 속성 (fine-grained visual attributes) 을 분리해 내고, 속성과 결과 간의 인과적 관계를 추론하는 데에는 여전히 한계가 있습니다.

기존 방법의 한계: 컨텍스트 학습 (In-Context Learning, ICL) 은 VLM 이 새로운 작업에 적응하는 데 유용하지만, 기존 접근법은 주로 **패시브한 유사도 기반 검색 (passive similarity-based retrieval)**에 의존합니다. 이는 질문과 시각적으로 유사한 예시를 선택하지만, 종종 **인과적이지 않은 상관관계 (spurious correlations)**를 가진 예시를 포함하게 됩니다.
문제점: 이러한 상관관계에 기반한 예시는 모델이 표면적인 패턴을 암기하도록 유도하여, 속성 변화가 결과에 미치는 영향을 이해하지 못하게 합니다. 특히 데이터가 부족하거나 분포가 변화하는 상황 (Information Scarcity) 에서 모델의 견고성 (Robustness) 이 떨어집니다.

2. 제안 방법: CIRCLES

저자들은 **CIRCLES (Composed Image Retrieval for Causal Learning Example Selection)**라는 새로운 프레임워크를 제안합니다. 이는 시각적 ICL 을 개선하기 위해 반대적 (Counterfactual) 예시를 적극적으로 검색하여 데모 세트 (Demonstration Set) 를 구성합니다.

핵심 구성 요소

CIRCLES 는 세 가지 주요 단계로 이루어집니다:

속성 기반 인과적 이해 (Causal Understanding via Attribute-Guided CIR):
- 핵심 속성 식별: VLM 을 사용하여 입력 이미지와 질문에 결정적인 속성 (예: "가슴 색상", "머리 무늬") 과 그 값을 추출합니다.
- 반대적 캡션 생성: 특정 속성 $a_i$ 의 값을 $v_i$ 에서 대안 값 $v'_i$ 로 변경하는 조작 (Intervention, $do(a_i=v'_i)$ ) 을 가정하여, VLM 이 이에 대한 **반대적 캡션 (Counterfactual Caption)**을 생성하도록 유도합니다. (예: "배 패턴을 단색으로 변경한 이미지")
- 복합 이미지 검색 (Composed Image Retrieval, CIR): 생성된 반대적 캡션과 원본 질문의 유사도를 모두 고려하여, 해당 속성 변경에 해당하는 시각적 예시를 데이터베이스에서 검색합니다. 이는 특정 속성이 정답에 미치는 영향을 분리하여 보여주는 예시들을 제공합니다.
상관적 이해 (Correlational Understanding via Standard Image Retrieval):
- 기존 RICES 와 유사하게, 쿼리 이미지와 시각적으로 가장 유사한 예시들을 검색합니다. 이는 일반적인 시각적 패턴과 맥락을 제공합니다.
검색 증강 추론 (Retrieval-Augmented In-Context Learning):
- 최종 컨텍스트는 **상관적 예시 (R_corr)**와 **인과적/반대적 예시 (R_causal)**를 결합하여 구성됩니다.
- 모델은 이 혼합된 예시들을 통해 표면적인 유사성뿐만 아니라, 속성 변화에 따른 결과의 인과적 구조를 학습하게 됩니다.

3. 주요 기여 (Key Contributions)

새로운 ICL 프레임워크 제안: 표준 유사도 기반 검색을 넘어, **반대적 예시 (Counterfactual Examples)**를 검색하여 데모 세트를 풍부하게 하는 CIRCLES 를 제안했습니다.
일관된 성능 향상: CUB, Flowers(세밀한 분류), OK-VQA, VizWiz(시각적 질문 응답) 등 4 개의 다양한 벤치마크에서 여러 VLM 아키텍처 (Gemma3, Qwen2.5-VL) 를 대상으로 실험한 결과, 기존 최첨단 방법들 (RICES, MUIER, MMICES) 보다 일관되게 우수한 성능을 보였습니다.
데이터 부족 상황에서의 강건성: 정보가 제한된 환경 (Information Scarcity) 에서 기존 방법의 성능이 급격히 떨어지는 반면, CIRCLES 는 그 격차를 줄이며 특히 소형 모델에서 큰 개선을 이루었습니다.
질적 분석: CIRCLES 가 모델이 중요한 속성을 식별하고 추론하는 과정을 어떻게 돕는지, 검색된 예시의 다양성과 인과적 정보량이 기존 방법보다 뛰어나다는 것을 정성적으로 입증했습니다.

4. 실험 결과 (Results)

성능 비교:
- 세밀한 분류 (CUB, Flowers): CIRCLES 는 RICES 대비 평균 정확도 (Acc) 와 F1 점수에서 상당한 개선을 보였습니다. 특히 Gemma3-4B 와 같은 소형 모델에서 개선 폭이 컸습니다.
- 시각적 질문 응답 (OK-VQA, VizWiz): 모든 모델에서 최상위 성능을 기록했습니다.
- 소형 모델 효과: 내부 지식이 제한된 소형 모델일수록 CIRCLES 의 이점이 두드러졌습니다. 이는 모델이 외부에서 제공된 인과적 신호에 더 의존하여 추론 능력을 보완할 수 있음을 시사합니다.
정보 부족 시나리오 (Information Scarcity):
- 학습 데이터의 일부를 무작위로 제거하여 정보를 제한했을 때, CIRCLES 는 RICES 대비 성능 저하가 훨씬 적었습니다. 데이터가 75% 제거된 상황에서도 CIRCLES 는 RICES 보다 10% 이상 높은 상대적 개선을 보였습니다.
검색 예산 분석:
- 제한된 컨텍스트 예산 내에서, 단순 유사도 검색 (IR) 만 사용하는 것보다 CIR(반대적 예시) 을 일부 포함하는 것이 더 높은 정확도를 달성했습니다. 이는 반대적 예시가 모델의 추론 효율성을 높여주기 때문입니다.

5. 의의 및 결론

이 연구는 시각적 ICL 에서 '유사성'을 넘어 '인과성'을 고려한 예시 선택의 중요성을 강조합니다. CIRCLES 는 단순히 비슷한 이미지를 찾는 것을 넘어, "만약 이 속성이 달랐다면 어떻게 될까?"라는 질문을 통해 모델이 속성과 결과 간의 인과적 관계를 학습하도록 돕습니다.

실용적 가치: 데이터가 부족하거나 분포가 다른 실제 환경에서 VLM 의 추론 능력을 향상시키는 실용적이고 효과적인 방법론을 제시했습니다.
미래 방향: 훈련 없이 (Training-free) 구현 가능하며, 향후 더 정교한 복합 이미지 검색 기술과 결합될 경우 VLM 의 추론 능력을 획기적으로 개선할 잠재력이 있습니다.

요약하자면, CIRCLES 는 **반대적 사고 (Counterfactual Reasoning)**를 시각적 컨텍스트 학습에 도입함으로써, VLM 이 표면적인 상관관계에 의존하지 않고 더 견고하고 해석 가능한 추론을 수행할 수 있게 하는 획기적인 접근법입니다.

Retrieving Counterfactuals Improves Visual In-Context Learning

거울 속의 '만약에'를 찾아서: CIRCLES 가 시각 AI 를 더 똑똑하게 만드는 방법

1. 문제: AI 는 왜 '유사한 것'만 보고 착각할까요?

2. 해결책: CIRCLES 의 '만약에 (Counterfactual)' 마법

3. CIRCLES 가 어떻게 작동할까요? (3 단계 과정)

4. 왜 이것이 중요한가요?

5. 결론: "유사함"이 아닌 "이유"를 가르치다

논문 요약: Retrieving Counterfactuals Improves Visual In-Context Learning (CIRCLES)

1. 연구 배경 및 문제 정의

2. 제안 방법: CIRCLES

핵심 구성 요소

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론

유사한 논문

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context