Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

이 논문은 분포 변화 하에서 기존 VLM 의 추론 한계를 지적하고, VLM 기반 개념 인식과 회로 기반 심볼릭 추론을 결합한 신경-심볼릭 방법인 VLC 를 제안하여 시각적 추론의 강건성을 입증합니다.

Weixin Chen, Antonio Vergari, Han Zhao

게시일 2026-03-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 '암기'만 할 뿐, '이해'는 못 할까?

비유: 시험지 암기하는 학생
기존의 최신 AI(시각 - 언어 모델, VLM) 는 마치 시험 문제를 무작정 외우는 학생과 같습니다.

  • 상황: 선생님이 "숫자 3 개를 더하라"는 문제를 100 번 내주면, AI 는 그 패턴을 완벽하게 외워서 정답을 맞춥니다.
  • 문제: 그런데 갑자기 시험지가 바뀌어 "숫자 7 개를 더하라"고 하면? 이 학생은 당황해서 엉뚱한 답을 내놓습니다.
  • 결론: AI 는 문제의 '규칙 (논리)'을 진짜로 이해한 게 아니라, 데이터의 '패턴'을 단순히 외운 것에 불과했습니다. 그래서 새로운 상황 (데이터 분포 변화) 에서는 무너지는 것입니다.

2. 기존 해결책의 한계: "도구를 빌려 쓰는 것만으로는 부족해"

연구자들은 "그럼 AI 가 추론을 다른 전문가에게 맡기면 어떨까?"라고 생각했습니다.

  • Prism, ViperGPT 같은 방법: AI 가 그림을 보고 "이게 뭐지?"라고 물어보면, 그 답을 **다른 거대 AI(대형 언어 모델)**에게 넘겨서 "이제 이걸로 논리 계산을 해줘"라고 시켰습니다.
  • 비유: 그림을 보는 학생이 답을 **다른 친구 (LLM)**에게 물어보는 상황입니다.
  • 결과: 친구가 때로는 잘 풀기도 하지만, 때로는 엉뚱한 논리를 펼치거나 실수를 합니다. 특히 친구가 "논리" 자체를 완벽하게 이해하고 있는지 알 수 없기 때문에, 결과가 일정하지 않고 불안정했습니다.

3. 이 논문의 해법: VLC (시각 + 논리 회로)

저자들은 "그림을 보는 것"과 "논리 계산하는 것"을 완전히 분리하자고 제안합니다. 이를 VLC라고 부릅니다.

비유: 사진사 + 계산기
VLC 는 두 단계로 나뉩니다.

  1. 1 단계: 사진사 (VLM) 가 그림을 봅니다.

    • AI 가 그림 속의 객체 (숫자, 모양, 색깔 등) 를 정확히 식별합니다. "아, 여기 3 이 있고, 저기 5 가 있구나"라고 말합니다.
    • 이 단계에서는 AI 의 뛰어난 '눈' (인식 능력) 만 활용합니다.
  2. 2 단계: 계산기 (기호 회로) 가 계산합니다.

    • 사진사가 말한 숫자들을 받아, **엄격한 논리 회로 (Circuit)**가 계산을 합니다.
    • 핵심: 이 계산기는 AI 가 임의로 학습한 게 아니라, **사람이 직접 만든 '정해진 규칙 (예: 덧셈 공식, XOR 논리)'**으로 작동합니다.
    • 비유: 사진사가 "3 더하기 5"라고 말하면, 계산기는 절대 실수 없이 "8"이라고 답합니다. 계산기에게 "너는 3 과 5 를 더하는 법을 외워야 해"라고 가르칠 필요가 없습니다. 이미 그 법칙이 내장되어 있기 때문입니다.

4. 실험 결과: 왜 VLC 가 더 강력한가?

연구팀은 AI 에게 "숫자 3 개를 더하라"는 훈련을 시킨 뒤, "숫자 7 개를 더하라"는 새로운 시험을 보냈습니다.

  • 기존 AI (암기형): 숫자 개수가 바뀌자마자 점수가 뚝 떨어졌습니다. (규칙을 이해하지 못했기 때문)
  • VLC (사진사 + 계산기): 숫자 개수가 3 개든 7 개든, 100 개든 상관없이 완벽하게 정답을 맞췄습니다.
    • 이유: 사진사가 숫자를 잘만 찾아내면, 계산기는 그 숫자들을 항상 같은 규칙으로 처리하기 때문입니다. 규칙 자체가 변하지 않기 때문에 AI 도 흔들리지 않는 것입니다.

5. 요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 가 똑똑해지려면 모델의 크기를 키우는 것 (학습량 늘리기) 만으로는 부족하다"**고 말합니다.

  • 기존 방식: AI 에게 모든 것을 다 가르치려다 보니, 새로운 상황에서는 망가집니다.
  • 새로운 방식 (VLC): AI 에게는 **"눈 (인식)"**만 잘 쓰게 하고, **"머리 (논리)"**는 사람이 만든 **엄격한 규칙 (회로)**에 맡기세요.
  • 결론: 이렇게 인식과 추론을 분리하면, AI 는 어떤 새로운 상황에서도 흔들리지 않는 견고한 추론을 할 수 있게 됩니다.

한 줄 요약:

"AI 에게 모든 것을 다 가르치려 하지 말고, 그림을 보는 눈은 AI 에게, 논리 계산사람이 만든 정확한 계산기에 맡기면, AI 는 어떤 상황에서도 절대 틀리지 않는 천재가 됩니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →