CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

이 논문은 시각적 수학 문제 해결을 위해 지각, 내재화, 추론의 세 단계로 구성된 새로운 프레임워크인 CogFlow 를 제안하고, 시각적 지식을 추론에 충실히 통합하기 위한 보상 메커니즘과 새로운 데이터셋 MathCog 를 통해 모델의 성능을 획기적으로 향상시킵니다.

Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan

게시일 2026-02-25
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"COGFLOW"**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 그림이 포함된 수학 문제를 풀 때, 기존 AI 들이 자주 저지르는 실수를 해결하기 위해 고안되었습니다.

비유를 들어 쉽게 설명해 드리겠습니다.

🎨 비유: "수학 문제를 푸는 천재 학생 vs. 요령부러는 학생"

기존의 AI 모델들은 그림을 볼 때 두 가지 방식으로 문제를 풀었습니다.

  1. 한 번에 다 풀기 (One-step): 그림을 보자마자 바로 답을 외치려 합니다. 하지만 그림의 세부 사항을 놓치거나 착각해서 엉뚱한 답을 내놓습니다.
  2. 분리해서 풀기 (Decoupled): 먼저 그림을 분석하고, 그다음에 논리를 전개합니다. 하지만 여기서 큰 문제가 생깁니다. "그림에서 본 사실"과 "논리적으로 추론한 내용"이 서로 맞지 않는 경우가 많습니다.

예를 들어보죠:

  • 그림: 원 안에 점 A, B, C 가 있고, 각 AED 는 20 도입니다.
  • AI 의 실수 (Reasoning Drift): AI 는 그림을 잘 분석해서 "각 AED 는 20 도"라고 파악했습니다. 그런데 논리를 전개할 때, "아, 그럼 각 BCD 는 110 도겠지!"라고 갑자기 결론을 내립니다. 그림의 증거 (20 도) 와 결론 (110 도) 사이에 논리적 연결고리가 끊어진 상태입니다. 마치 "오늘 날씨가 맑으니까, 내일 비가 올 것이다"라고 말하는 것과 비슷합니다.

🚀 COGFLOW 의 해결책: "인간의 사고 과정을 모방하다"

이 논문은 인간이 어떻게 문제를 푸는지 관찰했습니다. 인간은 그림을 보고 바로 답을 내지 않습니다. 세 단계를 거칩니다.

  1. 관찰 (Perception): "오, 저기 원이 있고, A, B, C 점이 있네. 각 AED 는 20 도야." (눈으로 보는 것)
  2. 내면화 (Internalization): "아, 이 20 도라는 정보가 내 머릿속 지식과 어떻게 연결되지? 원의 성질을 생각해보면..." (눈으로 본 것을 머릿속 지식으로 변환하고 정리하는 과정)
  3. 추론 (Reasoning): "그렇다면 각 BCD 는 이렇게 계산해야 맞겠구나." (정리된 지식을 바탕으로 논리 전개)

기존 AI 들은 1 단계와 3 단계만 거치거나, 1 단계에서 본 것을 3 단계로 옮길 때 망가뜨렸습니다. COGFLOW 는 이 중간 단계인 '내면화'를 특별히 강조합니다.


🛠️ COGFLOW 가 사용하는 3 가지 비밀 무기

이 모델은 세 가지 혁신적인 기술을 섞어서 작동합니다.

1. "눈과 뇌를 동시에 훈련시키는 보상 시스템" (Synergistic Visual Rewards)

  • 비유: 그림을 그릴 때, **정확한 치수 (파라미터)**와 **전체적인 분위기 (스타일)**를 모두 체크하는 선생님.
  • 설명: AI 가 "점 A 는 (0.13, 7.67) 에 있어"라고 말하면, 그것이 실제 그림의 좌표와 얼마나 일치하는지 (정확성) 와, 그림 전체의 느낌과 어울리는지 (일관성) 를 동시에 점수 매겨줍니다. 이렇게 하면 AI 가 그림을 더 정확하게 '본다'는 것을 배웁니다.

2. "논리 공백을 막는 중계자" (Knowledge Internalization Reward)

  • 비유: 감시 카메라. AI 가 "그림을 봤는데, 갑자기 110 도가 나왔어!"라고 말하면, 감시 카메라가 "잠깐! 그 110 도가 그림의 20 도와 연결되는지 확인해봐!"라고 경고합니다.
  • 설명: AI 가 그림에서 본 정보를 논리 단계로 옮길 때, 그 정보가 왜곡되거나 사라지지 않도록 감시합니다. "내가 본 게 뭐고, 내가 추론한 게 뭐지?"를 명확히 구분하게 만들어, 엉뚱한 결론을 내리는 것을 막습니다.

3. "나쁜 그림은 걸러내는 문지기" (Visual-Gated Policy Optimization)

  • 비유: 공장 생산 라인. 불량품 (잘못 본 그림) 이 나오면 바로 폐기하고, 다시 만들어서 좋은 제품 (정확한 그림 분석) 만 다음 공정 (논리 추론) 으로 보냅니다.
  • 설명: AI 가 그림을 분석할 때, 만약 분석이 부정확하다면 그 경로는 아예 차단하고 다시 시도하게 합니다. "잘못 본 그림을 바탕으로 엉뚱한 논리를 펼치는 것"을 원천 차단하는 것입니다.

📊 결과는 어떨까요?

이 모델은 MATHCOG라는 새로운 데이터셋 (12 만 개 이상의 문제와 정답, 그리고 '잘못된 추론' 사례까지 포함된 데이터) 으로 훈련되었습니다.

  • 결과: 기존의 유명한 AI 모델들 (GPT-4o, Claude 등) 보다 그림이 포함된 수학 문제에서 훨씬 더 높은 정확도를 보였습니다.
  • 특이점: 모델 크기가 작아도 (7B 파라미터) 거대 모델들과 경쟁할 수 있을 정도로 성능이 뛰어났습니다.

💡 요약

이 논문은 **"AI 가 그림을 볼 때, 단순히 '보는 것'을 넘어, 본 것을 '머릿속에 제대로 정리'하고, 그 정리된 내용으로만 '논리'를 전개해야 한다"**는 사실을 증명했습니다.

마치 수학 시험을 볼 때, 문제를 잘못 읽어서 (관찰 실수) 엉뚱한 공식을 적용하거나 (내면화 실패), 계산은 잘했는데 문제와 상관없는 답을 내는 (추론 실수) 실수를 방지하는 시스템을 만든 것과 같습니다. COGFLOW 는 AI 가 그림을 볼 때 더 똑똑하고, 신뢰할 수 있게 만들었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →