Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

Each language version is independently generated for its own context, not a direct translation.

비유: 시험지 암기하는 학생
기존의 최신 AI(시각 - 언어 모델, VLM) 는 마치 시험 문제를 무작정 외우는 학생과 같습니다.

상황: 선생님이 "숫자 3 개를 더하라"는 문제를 100 번 내주면, AI 는 그 패턴을 완벽하게 외워서 정답을 맞춥니다.
문제: 그런데 갑자기 시험지가 바뀌어 "숫자 7 개를 더하라"고 하면? 이 학생은 당황해서 엉뚱한 답을 내놓습니다.
결론: AI 는 문제의 '규칙 (논리)'을 진짜로 이해한 게 아니라, 데이터의 '패턴'을 단순히 외운 것에 불과했습니다. 그래서 새로운 상황 (데이터 분포 변화) 에서는 무너지는 것입니다.

연구자들은 "그럼 AI 가 추론을 다른 전문가에게 맡기면 어떨까?"라고 생각했습니다.

Prism, ViperGPT 같은 방법: AI 가 그림을 보고 "이게 뭐지?"라고 물어보면, 그 답을 **다른 거대 AI(대형 언어 모델)**에게 넘겨서 "이제 이걸로 논리 계산을 해줘"라고 시켰습니다.
비유: 그림을 보는 학생이 답을 **다른 친구 (LLM)**에게 물어보는 상황입니다.
결과: 친구가 때로는 잘 풀기도 하지만, 때로는 엉뚱한 논리를 펼치거나 실수를 합니다. 특히 친구가 "논리" 자체를 완벽하게 이해하고 있는지 알 수 없기 때문에, 결과가 일정하지 않고 불안정했습니다.

저자들은 "그림을 보는 것"과 "논리 계산하는 것"을 완전히 분리하자고 제안합니다. 이를 VLC라고 부릅니다.

비유: 사진사 + 계산기
VLC 는 두 단계로 나뉩니다.

1 단계: 사진사 (VLM) 가 그림을 봅니다.
- AI 가 그림 속의 객체 (숫자, 모양, 색깔 등) 를 정확히 식별합니다. "아, 여기 3 이 있고, 저기 5 가 있구나"라고 말합니다.
- 이 단계에서는 AI 의 뛰어난 '눈' (인식 능력) 만 활용합니다.
2 단계: 계산기 (기호 회로) 가 계산합니다.
- 사진사가 말한 숫자들을 받아, **엄격한 논리 회로 (Circuit)**가 계산을 합니다.
- 핵심: 이 계산기는 AI 가 임의로 학습한 게 아니라, **사람이 직접 만든 '정해진 규칙 (예: 덧셈 공식, XOR 논리)'**으로 작동합니다.
- 비유: 사진사가 "3 더하기 5"라고 말하면, 계산기는 절대 실수 없이 "8"이라고 답합니다. 계산기에게 "너는 3 과 5 를 더하는 법을 외워야 해"라고 가르칠 필요가 없습니다. 이미 그 법칙이 내장되어 있기 때문입니다.

연구팀은 AI 에게 "숫자 3 개를 더하라"는 훈련을 시킨 뒤, "숫자 7 개를 더하라"는 새로운 시험을 보냈습니다.

기존 AI (암기형): 숫자 개수가 바뀌자마자 점수가 뚝 떨어졌습니다. (규칙을 이해하지 못했기 때문)
VLC (사진사 + 계산기): 숫자 개수가 3 개든 7 개든, 100 개든 상관없이 완벽하게 정답을 맞췄습니다.
- 이유: 사진사가 숫자를 잘만 찾아내면, 계산기는 그 숫자들을 항상 같은 규칙으로 처리하기 때문입니다. 규칙 자체가 변하지 않기 때문에 AI 도 흔들리지 않는 것입니다.

이 논문은 **"AI 가 똑똑해지려면 모델의 크기를 키우는 것 (학습량 늘리기) 만으로는 부족하다"**고 말합니다.

기존 방식: AI 에게 모든 것을 다 가르치려다 보니, 새로운 상황에서는 망가집니다.
새로운 방식 (VLC): AI 에게는 **"눈 (인식)"**만 잘 쓰게 하고, **"머리 (논리)"**는 사람이 만든 **엄격한 규칙 (회로)**에 맡기세요.
결론: 이렇게 인식과 추론을 분리하면, AI 는 어떤 새로운 상황에서도 흔들리지 않는 견고한 추론을 할 수 있게 됩니다.

한 줄 요약:

"AI 에게 모든 것을 다 가르치려 하지 말고, 그림을 보는 눈은 AI 에게, 논리 계산은 사람이 만든 정확한 계산기에 맡기면, AI 는 어떤 상황에서도 절대 틀리지 않는 천재가 됩니다."

유사한 논문