Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

본 논문은 비전 언어 모델 파이프라인을 활용하여 기존 60 개에 불과한 Bongard-RWR 데이터셋을 5,400 개의 실사 기반 세밀한 개념을 포함하는 'Bongard-RWR+'로 확장하고, 이를 통해 최신 비전 언어 모델들이 거시적 개념은 인식하지만 미세한 개념을 구분하는 추론 능력에서 여전히 한계가 있음을 규명했습니다.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"Bongard-RWR+"**이라는 새로운 게임과 이를 통해 인공지능 (AI) 의 추론 능력을 시험한 연구 결과를 설명합니다. 어렵게 들릴 수 있지만, 핵심 아이디어는 매우 직관적이고 재미있습니다.

1. 게임의 규칙: "똘똘한 그림 찾기" (본가르드 문제)

이 연구의 주인공은 **본가르드 문제 (Bongard Problems)**라는 고전적인 퍼즐입니다.

  • 게임 방식: 화면에 왼쪽과 오른쪽으로 나뉜 6 장씩의 그림이 있습니다. 왼쪽 그림들은 모두 어떤 공통된 비밀 규칙을 가지고 있고, 오른쪽 그림들은 그와 정반대이거나 다른 규칙을 따릅니다.
  • 미션: 플레이어는 "왼쪽 그림들의 공통점은 뭐지?"라고 추리해서 그 규칙을 말로 설명해야 합니다.
    • 예시: 왼쪽은 "모든 동그라미가 크다", 오른쪽은 "모든 동그라미가 작다"거나, "왼쪽은 화살표가 위를 보고, 오른쪽은 아래를 본다"는 식입니다.

2. 왜 이 게임이 중요할까요?

인공지능 (AI) 은 보통 엄청난 양의 데이터를 먹여 학습시킵니다. 하지만 인간은 몇 번만 봐도 새로운 규칙을 깨닫습니다. 이 게임은 AI 가 적은 예시 (Few-shot) 로서 추상적인 논리를 깨닫고 설명할 수 있는지를 테스트하는 '지능의 시험지' 역할을 합니다.

3. 이전의 문제점: "인조 비만" vs "진짜 세상"

과거의 AI 테스트용 그림들은 모두 검은색과 흰색으로만 된 단순한 도형들이었습니다. 마치 만화책 속의 단순한 그림 같죠.

  • 문제점: AI 가 이런 단순한 그림은 잘 풀지만, 실제 세상 (사람, 동물, 사물) 이 섞인 복잡한 그림에서는 엉뚱한 답을 내놓거나 아예 못 풀었습니다.
  • 이전 시도: 연구진들은 실제 사진으로 된 게임을 만들기도 했지만, 그 게임들은 너무 쉬웠거나 (예: "사람이 차를 탄다 vs 안 탄다"), 데이터가 너무 적어서 (60 개 정도) AI 의 실력을 제대로 평가할 수 없었습니다.

4. 이 연구의 해결책: "AI 가 그린 진짜 같은 그림" (Bongard-RWR+)

이 논문은 5,400 개나 되는 새로운 게임을 만들었습니다. 이것이 바로 **Bongard-RWR+**입니다.

  • 만드는 방법 (마법 같은 과정):
    1. 원래 규칙 가져오기: 옛날에 있던 추상적인 규칙 (예: "화살표 방향") 을 가져옵니다.
    2. AI 가 설명하기: AI 가 옛날 그림을 보고 "화살표가 위로 향하고 있어"라고 설명을 만듭니다.
    3. AI 가 다시 그리기: 그 설명을 바탕으로 또 다른 AI 가 실제 사진처럼 보이는 새로운 그림을 그립니다. (예: "위로 향하는 화살표가 달린 풍선", "위로 향하는 화살표가 달린 비행기" 등)
    4. 사람이 검사하기: 사람이 "이 그림이 진짜 규칙을 잘 나타내나?" 확인하고 엉뚱한 그림은 버립니다.
  • 결과: 단순한 도형이 아니라, 실제 세상처럼 생생하지만 여전히 추상적인 규칙을 따르는 5,400 개의 퍼즐이 탄생했습니다.

5. 실험 결과: AI 는 여전히 "눈치"가 부족합니다

연구진은 최신 AI 모델들 (InternVL, Qwen, LLaVA 등) 에게 이 게임을 풀게 했습니다. 결과는 어땠을까요?

  • 대략적인 건 알지만, 디테일은 못 봅니다:
    • AI 는 "왼쪽은 큰 그림, 오른쪽은 작은 그림"처럼 크기나 개수 같은 거창한 규칙은 잘 찾았습니다. (마치 "저기 커다란 코끼리가 있네!"라고 아는 것)
    • 하지만 **"왼쪽 그림의 선은 구부러져 있고, 오른쪽은 뾰족해"**처럼 미세한 디테일이나 정밀한 기하학적 관계를 구분하는 데는 완전히 막혔습니다. (마치 "코끼리 귀 끝이 살짝 말려 있네" 같은 미세한 차이를 못 보는 것)
  • 숫자만 늘린다고 해결되지 않음: AI 모델의 크기를 키우거나, 그림을 더 많이 보여줘도 미세한 규칙을 찾는 능력은 크게 향상되지 않았습니다.
  • 사람의 눈이 필요함: AI 가 그린 그림 중 30% 는 규칙을 제대로 표현하지 못해 사람이 버려야 했습니다. 이는 AI 가 아직 인간의 상상력을 100% 따라잡지 못했음을 보여줍니다.

6. 결론: AI 는 아직 "유아" 단계

이 연구는 **"AI 가 아무리 똑똑해 보여도, 인간의 눈으로 세상을 보고 추리하는 능력에는 아직 한계가 있다"**는 것을 증명했습니다.

  • 비유하자면: 최신 AI 는 수천 권의 책을 읽은 도서관 사서처럼 방대한 지식을 가지고 있습니다. 하지만 본가르드 문제는 "이 책장에는 빨간 책만 있고, 저 책장에는 파란 책만 있다"는 새로운 규칙을 6 권의 책만 보고 찾아내라는 미션입니다. AI 는 책 내용을 외우는 건 잘하지만, 새로운 규칙을 찾아내는 '눈'과 '논리'는 아직 인간처럼 발달하지 않았습니다.

이 연구는 앞으로 더 똑똑한 AI 를 만들기 위해, 우리가 어떤 부분 (미세한 시각적 추리 능력) 을 집중적으로 훈련시켜야 하는지 명확한 지도를 제시해 줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →