CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"COGFLOW"**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 그림이 포함된 수학 문제를 풀 때, 기존 AI 들이 자주 저지르는 실수를 해결하기 위해 고안되었습니다.

비유를 들어 쉽게 설명해 드리겠습니다.

🎨 비유: "수학 문제를 푸는 천재 학생 vs. 요령부러는 학생"

기존의 AI 모델들은 그림을 볼 때 두 가지 방식으로 문제를 풀었습니다.

한 번에 다 풀기 (One-step): 그림을 보자마자 바로 답을 외치려 합니다. 하지만 그림의 세부 사항을 놓치거나 착각해서 엉뚱한 답을 내놓습니다.
분리해서 풀기 (Decoupled): 먼저 그림을 분석하고, 그다음에 논리를 전개합니다. 하지만 여기서 큰 문제가 생깁니다. "그림에서 본 사실"과 "논리적으로 추론한 내용"이 서로 맞지 않는 경우가 많습니다.

예를 들어보죠:

그림: 원 안에 점 A, B, C 가 있고, 각 AED 는 20 도입니다.
AI 의 실수 (Reasoning Drift): AI 는 그림을 잘 분석해서 "각 AED 는 20 도"라고 파악했습니다. 그런데 논리를 전개할 때, "아, 그럼 각 BCD 는 110 도겠지!"라고 갑자기 결론을 내립니다. 그림의 증거 (20 도) 와 결론 (110 도) 사이에 논리적 연결고리가 끊어진 상태입니다. 마치 "오늘 날씨가 맑으니까, 내일 비가 올 것이다"라고 말하는 것과 비슷합니다.

🚀 COGFLOW 의 해결책: "인간의 사고 과정을 모방하다"

이 논문은 인간이 어떻게 문제를 푸는지 관찰했습니다. 인간은 그림을 보고 바로 답을 내지 않습니다. 세 단계를 거칩니다.

관찰 (Perception): "오, 저기 원이 있고, A, B, C 점이 있네. 각 AED 는 20 도야." (눈으로 보는 것)
내면화 (Internalization): "아, 이 20 도라는 정보가 내 머릿속 지식과 어떻게 연결되지? 원의 성질을 생각해보면..." (눈으로 본 것을 머릿속 지식으로 변환하고 정리하는 과정)
추론 (Reasoning): "그렇다면 각 BCD 는 이렇게 계산해야 맞겠구나." (정리된 지식을 바탕으로 논리 전개)

기존 AI 들은 1 단계와 3 단계만 거치거나, 1 단계에서 본 것을 3 단계로 옮길 때 망가뜨렸습니다. COGFLOW 는 이 중간 단계인 '내면화'를 특별히 강조합니다.

🛠️ COGFLOW 가 사용하는 3 가지 비밀 무기

이 모델은 세 가지 혁신적인 기술을 섞어서 작동합니다.

1. "눈과 뇌를 동시에 훈련시키는 보상 시스템" (Synergistic Visual Rewards)

비유: 그림을 그릴 때, **정확한 치수 (파라미터)**와 **전체적인 분위기 (스타일)**를 모두 체크하는 선생님.
설명: AI 가 "점 A 는 (0.13, 7.67) 에 있어"라고 말하면, 그것이 실제 그림의 좌표와 얼마나 일치하는지 (정확성) 와, 그림 전체의 느낌과 어울리는지 (일관성) 를 동시에 점수 매겨줍니다. 이렇게 하면 AI 가 그림을 더 정확하게 '본다'는 것을 배웁니다.

2. "논리 공백을 막는 중계자" (Knowledge Internalization Reward)

비유: 감시 카메라. AI 가 "그림을 봤는데, 갑자기 110 도가 나왔어!"라고 말하면, 감시 카메라가 "잠깐! 그 110 도가 그림의 20 도와 연결되는지 확인해봐!"라고 경고합니다.
설명: AI 가 그림에서 본 정보를 논리 단계로 옮길 때, 그 정보가 왜곡되거나 사라지지 않도록 감시합니다. "내가 본 게 뭐고, 내가 추론한 게 뭐지?"를 명확히 구분하게 만들어, 엉뚱한 결론을 내리는 것을 막습니다.

3. "나쁜 그림은 걸러내는 문지기" (Visual-Gated Policy Optimization)

비유: 공장 생산 라인. 불량품 (잘못 본 그림) 이 나오면 바로 폐기하고, 다시 만들어서 좋은 제품 (정확한 그림 분석) 만 다음 공정 (논리 추론) 으로 보냅니다.
설명: AI 가 그림을 분석할 때, 만약 분석이 부정확하다면 그 경로는 아예 차단하고 다시 시도하게 합니다. "잘못 본 그림을 바탕으로 엉뚱한 논리를 펼치는 것"을 원천 차단하는 것입니다.

📊 결과는 어떨까요?

이 모델은 MATHCOG라는 새로운 데이터셋 (12 만 개 이상의 문제와 정답, 그리고 '잘못된 추론' 사례까지 포함된 데이터) 으로 훈련되었습니다.

결과: 기존의 유명한 AI 모델들 (GPT-4o, Claude 등) 보다 그림이 포함된 수학 문제에서 훨씬 더 높은 정확도를 보였습니다.
특이점: 모델 크기가 작아도 (7B 파라미터) 거대 모델들과 경쟁할 수 있을 정도로 성능이 뛰어났습니다.

💡 요약

이 논문은 **"AI 가 그림을 볼 때, 단순히 '보는 것'을 넘어, 본 것을 '머릿속에 제대로 정리'하고, 그 정리된 내용으로만 '논리'를 전개해야 한다"**는 사실을 증명했습니다.

마치 수학 시험을 볼 때, 문제를 잘못 읽어서 (관찰 실수) 엉뚱한 공식을 적용하거나 (내면화 실패), 계산은 잘했는데 문제와 상관없는 답을 내는 (추론 실수) 실수를 방지하는 시스템을 만든 것과 같습니다. COGFLOW 는 AI 가 그림을 볼 때 더 똑똑하고, 신뢰할 수 있게 만들었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

다중모달 대규모 언어 모델 (MLLM) 은 시각적 수학 문제 해결에서 상당한 진전을 이루었으나, 여전히 시각적 인식 (Perception) 과 추론 (Reasoning) 간의 불일치로 인해 낮은 정확도와 일관성 없는 추론 체인을 보입니다. 기존 연구들은 주로 시각 입력의 추출 및 해석을 개선하는 데 집중했으나, 추출된 시각적 단서가 추론 단계에 정직하게 통합되고 활용되는지에 대한 핵심 문제를 간과했습니다.

이로 인해 발생하는 주요 문제는 추론 편향 (Reasoning Drift) 입니다. 즉, 모델이 시각적 증거를 무시하거나 왜곡하여, 표면적으로는 논리적으로 보이지만 실제 이미지와 모순되는 추론 단계를 생성하는 현상입니다. 기존 '단일 단계 (One-step)' 접근법은 인식과 추론이 혼재되어 오류가 전파되며, '분리된 (Decoupled)' 파이프라인은 인식은 개선되었으나 추론 단계에서 시각적 근거를 잃어버리는 경향이 있습니다.

2. 방법론 (Methodology)

저자들은 인간의 인지 과정 (지각 $\Rightarrow$ 내면화 $\Rightarrow$ 추론) 에서 영감을 받아 COGFLOW라는 3 단계 인지 기반 프레임워크를 제안합니다. 이 프레임워크는 지각, 지식 내면화, 추론 단계를 명시적으로 모델링하고 강화 학습 (RL) 을 통해 통합적으로 최적화합니다.

A. 3 단계 계층적 파이프라인

지각 (Perception): 원시 시각 입력 (다이어그램, 기호) 을 구조화된 시각적 단서 (점, 선, 원의 좌표 및 속성) 로 추출합니다.
지식 내면화 (Internalization): 추출된 저수준 지각 신호를 추론에 적합한 구조화된 지식 표현 (예: "AB 가 직경이므로 $\angle ACB = 90^\circ$ ") 으로 변환하는 중간 단계입니다. 이는 추론 편향을 방지하는 핵심 브릿지 역할을 합니다.
추론 (Reasoning): 내면화된 지식을 기반으로 논리적 추론을 수행하여 최종 답을 도출합니다.

B. 핵심 구성 요소 및 기술

시너지 시각 보상 (Synergistic Visual Rewards, SynVRs):
- 시각 매개변수 보상 (VPR): 추출된 기하학적 원시 데이터 (점, 선, 원) 를 매개변수 공간 (좌표, 반지름 등) 에서 변환하고, 정답 (Ground Truth) 과의 유클리드 거리를 계산하여 기하학적 정밀도를 평가합니다.
- 시각 의미 보상 (VSR): 추출된 텍스트 기반 지각 결과를 다시 렌더링한 이미지와 정답 이미지를 비교하여, FG-CLIP 임베딩을 이용한 코사인 유사도로 전체적인 레이아웃과 스타일 일관성을 평가합니다.
- 이 두 보상은 지각의 국소적 정확성과 전역적 일관성을 동시에 보장합니다.
지식 내면화 보상 (Knowledge Internalization Reward, IntlzR):
- 지각과 추론 사이의 간극을 메우기 위해 도입된 보상 모델입니다.
- 5 가지 오류 유형 (원시 데이터 누락/오결합, 존재하지 않는 사실 도입, 기하학적 제약 위반, 부적절한 정리 적용, 일관성 없는 참조) 을 식별하여, 모델이 추출된 시각적 단서를 추론에 정직하게 반영하도록 훈련시킵니다.
- Softmax-DPO를 사용하여 하나의 긍정적 경로와 여러 부정적 경로를 비교하며, 추론 편향을 최소화하는 방향으로 최적화합니다.
시각 게이트 정책 최적화 (Visual-Gated Policy Optimization, VGPO):
- 시각 게이트 (Visual Gate): 추론을 시작하기 전에 생성된 지각 경로의 품질을 평가합니다. 품질이 낮은 경로는 필터링하고, 고해상도 지각 경로만 추론 단계로 전달합니다.
- 그룹 상대 정책 최적화 (Group Relative Policy Optimization): 지각 보상 (SynVRs), 내면화 보상 (IntlzR), 추론 결과 보상 (InfR) 을 결합하여 정책 모델을 최적화합니다. 이를 통해 모델이 시각적 근거에 기반한 안정적인 추론 체인을 학습하도록 유도합니다.

C. 데이터셋: MATHCOG

모델 훈련을 위해 MATHCOG라는 새로운 데이터셋을 구축했습니다.

규모: 12 만 개 이상의 고품질 샘플.
구조: '지각 (Watching)', '내면화/추론 (Thinking)', '답변 (Answer)' 단계를 명시적으로 분리하여 주석 처리된 데이터.
하위 집합: SFT(지도 학습), IntlzR(내면화 보상 훈련용), RL(강화 학습) 용으로 세분화되어 있으며, 5 가지 오류 유형을 인위적으로 주입한 부정적 샘플을 포함합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 (COGFLOW): 추출된 시각적 단서가 추론에 정직하게 통합되는지 여부를 해결하기 위해, 인간의 인지 흐름을 모방한 3 단계 (지각 $\Rightarrow$ 내면화 $\Rightarrow$ 추론) 프레임워크를 최초로 제안했습니다.
통합적 강화 학습 전략: 지각의 정확성 (SynVRs), 추론의 신뢰성 (IntlzR), 그리고 추론의 안정성 (VGPO) 을 동시에 강화하는 다단계 보상 메커니즘을 설계했습니다.
MATHCOG 데이터셋: 지각과 추론을 분리하여 주석 처리한 대규모 데이터셋을 공개하여, 향후 연구의 표준을 제시했습니다.
성능 입증: 기존 오픈소스 및 상용 MLLM 대비 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

다양한 벤치마크 (FlowVerse, MathVerse, MathVista, WeMath, DynaMath 등) 에서 COGFLOW-7B 모델이 다음과 같은 성과를 거두었습니다.

FlowVerse: 정확도 66.0%, CoT-E(추론 과정 평가) 56.2% 달성. 기존 오픈소스 모델 (MathFlow, VLM-R1 등) 을 크게 상회하며, GPT-4o, GPT-5 와 같은 대형 상용 모델과도 경쟁하거나 이를 능가하는 성능을 보였습니다.
MathVerse: 정확도 53.9%, CoT-E 39.5% 달성. 특히 'Vision Only' 및 'Vision Dominant'와 같이 시각적 정보가 중요한 하위 집합에서 큰 개선을 보였습니다.
오류 분석: 기존 모델들이 겪던 '지식 내면화 오류 (Knowledge Internalization Error)'와 '추론 편향'이 COGFLOW 에서 현저히 감소했습니다. 지각 오류가 발생하더라도 내면화 및 추론 단계에서 이를 보정하는 메커니즘이 작동함을 확인했습니다.
Ablation Study: SynVRs, IntlzR, VGPO 구성 요소 모두 성능 향상에 기여했으며, 특히 VGPO(시각 게이트 포함) 가 추론 안정화에 가장 큰 영향을 미쳤습니다.

5. 의의 및 결론 (Significance)

이 논문은 시각적 수학 문제 해결에서 인식 (Perception) 과 추론 (Reasoning) 의 단절을 해결하는 중요한 전환점을 제시합니다. 단순히 시각 정보를 더 잘 읽는 것을 넘어, 읽은 정보를 어떻게 추론 과정에 '내면화'하여 활용하느냐가 핵심임을 강조합니다.

신뢰성 향상: 모델이 시각적 근거 없이 임의의 추론을 생성하는 '할루시네이션'을 줄이고, 해석 가능한 추론 체인을 제공합니다.
일반화 가능성: 제안된 프레임워크는 수학 다이어그램에 국한되지 않고, 복잡한 시각적 추론이 필요한 다양한 도메인으로 확장 가능함을 시사합니다.
미래 연구 방향: 지각 - 내면화 - 추론의 계층적 구조를 명시적으로 모델링하는 접근법이 다중모달 AI 의 신뢰성을 높이는 새로운 패러다임이 될 수 있음을 입증했습니다.

요약하자면, COGFLOW 는 시각적 수학 문제 해결에서 지각의 정확성과 추론의 일관성을 동시에 확보하기 위해 지식 내면화 단계를 도입하고, 이를 강화 학습을 통해 최적화한 획기적인 프레임워크입니다.