Each language version is independently generated for its own context, not a direct translation.
1. 문제: AI 는 '암기'만 할 뿐, '이해'는 못 할까?
비유: 시험지 암기하는 학생 기존의 최신 AI(시각 - 언어 모델, VLM) 는 마치 시험 문제를 무작정 외우는 학생과 같습니다.
상황: 선생님이 "숫자 3 개를 더하라"는 문제를 100 번 내주면, AI 는 그 패턴을 완벽하게 외워서 정답을 맞춥니다.
문제: 그런데 갑자기 시험지가 바뀌어 "숫자 7 개를 더하라"고 하면? 이 학생은 당황해서 엉뚱한 답을 내놓습니다.
결론: AI 는 문제의 '규칙 (논리)'을 진짜로 이해한 게 아니라, 데이터의 '패턴'을 단순히 외운 것에 불과했습니다. 그래서 새로운 상황 (데이터 분포 변화) 에서는 무너지는 것입니다.
2. 기존 해결책의 한계: "도구를 빌려 쓰는 것만으로는 부족해"
연구자들은 "그럼 AI 가 추론을 다른 전문가에게 맡기면 어떨까?"라고 생각했습니다.
Prism, ViperGPT 같은 방법: AI 가 그림을 보고 "이게 뭐지?"라고 물어보면, 그 답을 **다른 거대 AI(대형 언어 모델)**에게 넘겨서 "이제 이걸로 논리 계산을 해줘"라고 시켰습니다.
비유: 그림을 보는 학생이 답을 **다른 친구 (LLM)**에게 물어보는 상황입니다.
결과: 친구가 때로는 잘 풀기도 하지만, 때로는 엉뚱한 논리를 펼치거나 실수를 합니다. 특히 친구가 "논리" 자체를 완벽하게 이해하고 있는지 알 수 없기 때문에, 결과가 일정하지 않고 불안정했습니다.
3. 이 논문의 해법: VLC (시각 + 논리 회로)
저자들은 "그림을 보는 것"과 "논리 계산하는 것"을 완전히 분리하자고 제안합니다. 이를 VLC라고 부릅니다.
비유: 사진사 + 계산기 VLC 는 두 단계로 나뉩니다.
1 단계: 사진사 (VLM) 가 그림을 봅니다.
AI 가 그림 속의 객체 (숫자, 모양, 색깔 등) 를 정확히 식별합니다. "아, 여기 3 이 있고, 저기 5 가 있구나"라고 말합니다.
이 단계에서는 AI 의 뛰어난 '눈' (인식 능력) 만 활용합니다.
2 단계: 계산기 (기호 회로) 가 계산합니다.
사진사가 말한 숫자들을 받아, **엄격한 논리 회로 (Circuit)**가 계산을 합니다.
핵심: 이 계산기는 AI 가 임의로 학습한 게 아니라, **사람이 직접 만든 '정해진 규칙 (예: 덧셈 공식, XOR 논리)'**으로 작동합니다.
비유: 사진사가 "3 더하기 5"라고 말하면, 계산기는 절대 실수 없이 "8"이라고 답합니다. 계산기에게 "너는 3 과 5 를 더하는 법을 외워야 해"라고 가르칠 필요가 없습니다. 이미 그 법칙이 내장되어 있기 때문입니다.
4. 실험 결과: 왜 VLC 가 더 강력한가?
연구팀은 AI 에게 "숫자 3 개를 더하라"는 훈련을 시킨 뒤, "숫자 7 개를 더하라"는 새로운 시험을 보냈습니다.
기존 AI (암기형): 숫자 개수가 바뀌자마자 점수가 뚝 떨어졌습니다. (규칙을 이해하지 못했기 때문)
VLC (사진사 + 계산기): 숫자 개수가 3 개든 7 개든, 100 개든 상관없이 완벽하게 정답을 맞췄습니다.
이유: 사진사가 숫자를 잘만 찾아내면, 계산기는 그 숫자들을 항상 같은 규칙으로 처리하기 때문입니다. 규칙 자체가 변하지 않기 때문에 AI 도 흔들리지 않는 것입니다.
5. 요약: 이 연구가 우리에게 주는 메시지
이 논문은 **"AI 가 똑똑해지려면 모델의 크기를 키우는 것 (학습량 늘리기) 만으로는 부족하다"**고 말합니다.
기존 방식: AI 에게 모든 것을 다 가르치려다 보니, 새로운 상황에서는 망가집니다.
새로운 방식 (VLC): AI 에게는 **"눈 (인식)"**만 잘 쓰게 하고, **"머리 (논리)"**는 사람이 만든 **엄격한 규칙 (회로)**에 맡기세요.
결론: 이렇게 인식과 추론을 분리하면, AI 는 어떤 새로운 상황에서도 흔들리지 않는 견고한 추론을 할 수 있게 됩니다.
한 줄 요약:
"AI 에게 모든 것을 다 가르치려 하지 말고, 그림을 보는 눈은 AI 에게, 논리 계산은 사람이 만든 정확한 계산기에 맡기면, AI 는 어떤 상황에서도 절대 틀리지 않는 천재가 됩니다."
Each language version is independently generated for its own context, not a direct translation.
1. 연구 배경 및 문제 제기 (Problem)
배경: 최근 VLM 은 추상적, 시간적, 문서 추론 등 다양한 추론 작업에 적용되고 있습니다.
문제: VLM 이 공변량 이동 (Covariate Shift) 상황에서 견고하게 추론할 수 있는지는 불분명합니다. 공변량 이동이란 예측 규칙 (underlying prediction rules) 은 동일하게 유지되지만, 입력 데이터의 분포 (예: 이미지에 포함된 객체의 수나 형태) 가 변하는 상황을 의미합니다.
관찰:
기존 VLM 을 그라디언트 기반의 엔드 - 투 - 엔드 (End-to-End) 방식으로 파인튜닝하면 훈련 데이터 분포 (In-Distribution) 에서는 높은 정확도를 보이지만, 객체 수가 다른 테스트 데이터 (Out-of-Distribution, OOD) 에서는 성능이 급격히 떨어집니다. 이는 파인튜닝이 모델이 실제 추론 함수를 학습하게 하지 못함을 시사합니다.
기존 신경 - 기호 접근법 (Prism, ViperGPT 등) 은 지각 (Perception) 과 추론 (Reasoning) 을 분리하지만, 추론 단계에 블랙박스 (Black-box) 인 LLM 이나 실행 가능한 프로그램을 사용하는 방식은 여전히 작업 간 일관된 견고성을 보장하지 못합니다.
2. 제안 방법: VLC (Vision-Language Circuit)
저자들은 지각과 추론을 명확히 분리하고, 추론 규칙을 기호 프로그램으로 인코딩하는 VLC를 제안합니다. 이는 두 단계로 구성됩니다.
1 단계: VLM 기반 개념 인식 (VLM-based Concept Recognition)
역할: 입력 이미지에서 객체의 개념 (숫자, 색상, 모양 등) 을 인식합니다.
구현: VLM 을 사용하여 이미지 내 객체를 식별합니다. 일관된 출력을 위해 **Few-shot 학습 (in-context learning)**을 활용하여 프롬프트를 설계합니다.
출력: 인식된 개념들을 이진 값 (binary values) 또는 구조화된 텍스트로 변환하여 다음 단계로 전달합니다.
2 단계: 회로 기반 기호 추론 (Circuit-based Symbolic Reasoning)
역할: 인식된 개념에 대해 명시적으로 정의된 논리 규칙을 정확히 적용하여 최종 답을 도출합니다.
구현:
작업 규칙을 **기호 프로그램 (Symbolic Program)**으로 컴파일합니다. 구체적으로 **SDD (Sentential Decision Diagrams)**라는 형태의 부울 회로 (Boolean Circuit) 를 사용합니다.
pySDD 컴파일러를 사용하여 논리 규칙을 회로 구조로 변환합니다.
1 단계에서 얻은 입력 (객체 개념) 을 회로에 입력하면, 회로는 **확정적 (deterministic)**으로 규칙을 실행하여 정확한 논리 결과를 출력합니다.
핵심 아이디어: 추론 함수를 학습 파라미터에 암시적으로埋没 (embed) 시키는 대신, 외부의 명시적인 기호 프로그램 (회로) 으로 인코딩하여 **해석 가능성 (Interpretability)**과 **견고성 (Robustness)**을 보장합니다.
3. 실험 설정 및 베이스라인
데이터셋:rsbench 벤치마크를 기반으로 생성된 3 가지 시각적 연역 추론 작업:
MNAdd: MNIST 숫자 두 줄의 합계 계산 (산술 덧셈).
MNLogic: MNIST 이진 숫자들의 XOR 연산 (논리 XOR).
KandLogic: 기하학적 도형들의 모양과 색상 관계 확인 (관계적 검사).
공변량 이동 설정: 훈련 데이터는 객체 수가 적은 이미지 (3 개), 테스트 데이터는 객체 수가 많은 이미지 (5 개, 7 개) 로 구성하여 분포 변화를 유도했습니다.
비교 대상 (Base lines):
End-to-End: 사전 학습된 VLM 과 파인튜닝된 VLM.
Prism: VLM(개념 인식) + LLM(추론) 구조.
ViperGPT: LLM 이 생성한 코드를 실행하여 다양한 사전 학습 모델을 호출하는 방식.
사용 모델: 모든 실험에서 Qwen2.5-VL-7B를 VLM 으로 사용했습니다.
4. 주요 결과 (Key Results)
견고성 (Robustness):
End-to-End 파인튜닝: 훈련 데이터 (3 개 객체) 에서는 높은 정확도를 보였으나, OOD 데이터 (5 개, 7 개 객체) 에서는 성능이 급격히 하락했습니다. 이는 모델이 통계적 특징만 학습했을 뿐 추론 함수를 학습하지 못했음을 보여줍니다.
Prism 및 ViperGPT: 일부 작업에서는 성능이 향상되었으나, 작업에 따라 일관되지 않았습니다. 특히 ViperGPT 는 객체 감지 모델의 오차로 인해 성능이 크게 저하되었습니다.
VLC: 모든 작업과 모든 분포 이동 조건에서 일관되게 높은 성능을 기록했습니다. 특히 7 개 객체 테스트에서도 3 개 객체 훈련 데이터로 학습된 모델이 높은 정확도를 유지했습니다.
개념 인식 vs 추론:
VLC 의 전체 성능은 VLM 의 개념 인식 정확도에 직접적으로 의존합니다.
개념 인식 단계에서 VLM 을 파인튜닝하면 OOD 데이터에서도 인식 정확도가 향상되었고, 이는 VLC 의 전체 추론 성능 향상으로 이어졌습니다.
모델 스케일링 효과:
VLM 크기를 늘리면 (3B → 32B) 개념 인식 능력은 크게 향상되지만, 추론 능력 (엔드 - 투 - 엔드 방식) 은 특정 추론 함수 (예: XOR) 에서는 향상되지 않았습니다. 이는 모델 크기 증가만으로는 추론 능력을 보장할 수 없음을 시사합니다.
5. 주요 기여 및 의의 (Contributions & Significance)
신경 - 기호 방법론 제안 (VLC): VLM 기반 개념 인식과 회로 기반 기호 추론을 결합하여, 분포 이동 하에서도 견고한 추론을 가능하게 하는 새로운 패러다임을 제시했습니다.
기존 방법론의 한계 규명:
그라디언트 기반 엔드 - 투 - 엔드 파인튜닝은 VLM 이 실제 추론 함수를 학습하게 하지 못함을 실험적으로 증명했습니다.
블랙박스 LLM 에 의존하는 기존 신경 - 기호 접근법 (Prism, ViperGPT) 은 작업에 따라 일관된 견고성을 보장하지 못함을 보였습니다.
견고한 추론의 핵심: 추론 규칙을 명시적인 기호 프로그램 (회로) 으로 인코딩하고, 이를 VLM 의 인식 결과에 적용하는 것이 공변량 이동 하에서 견고한 추론을 달성하는 핵심임을 입증했습니다.
미래 방향 제시:
자연어 규칙을 자동으로 기호 규칙으로 추출하는 방법.
다양한 추론 함수를 수용할 수 있는 유연한 기호 모듈 설계.
VLM 의 인식 오류에 덜 민감한 기호 추론 구조 개발 등의 과제를 제시했습니다.
결론
이 논문은 VLM 이 복잡한 추론 작업을 수행할 때, 단순히 더 많은 데이터로 파인튜닝하거나 모델을 키우는 것만으로는 분포 변화에 강한 모델을 만들 수 없음을 지적합니다. 대신, 지각 (VLM) 과 추론 (기호 회로) 을 분리하고, 추론 규칙을 명시적으로 인코딩하는 VLC와 같은 신경 - 기호 접근법이 시각적 연역 추론 작업에서 훨씬 더 견고하고 신뢰할 수 있는 성능을 제공함을 보여줍니다. 이는 신뢰할 수 있는 AI 시스템 개발을 위한 중요한 통찰을 제공합니다.