CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLM 의 STEM 시각 추론 한계가 추론이 아닌 지각 능력에 기인한다는 통찰을 바탕으로, 실행 가능한 코드를 지각 매체로 활용하여 대규모 데이터셋 (ICC-1M) 과 평가 벤치마크 (STEM2Code-Eval) 를 구축함으로써 시각 지각 능력을 체계적으로 향상시키는 'CodePercept' 프레임워크를 제안합니다.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "코드페셉트": AI 가 과학 문제를 풀 때 왜 망치는가? (그리고 해결책)

이 논문은 Multimodal Large Language Models(MLLMs, 이미지와 텍스트를 모두 이해하는 거대 AI) 가 과학, 기술, 공학, 수학 (STEM) 문제를 풀 때 왜 자꾸 실수를 하는지, 그리고 어떻게 고칠 수 있는지에 대한 놀라운 발견을 담고 있습니다.

간단히 말해, **"AI 가 문제를 못 푸는 건 '생각'이 부족해서가 아니라, '눈'이 안 좋은 탓이다"**라는 결론을 내렸고, 그 눈을 뜨게 해주는 비결로 **'코딩'**을 제시했습니다.


1. 문제: AI 는 왜 과학 문제를 못 풀까? (눈 vs 뇌)

과학 문제를 풀 때 AI 는 두 단계를 거칩니다.

  1. 눈 (Perception): 그림을 보고 "이건 삼각형이고, 변의 길이는 5cm 야"라고 설명하는 것.
  2. 뇌 (Reasoning): 그 설명을 바탕으로 "그럼 넓이는 12.5cm²야"라고 계산하는 것.

연구진은 "AI 가 틀리는 건 뇌 (추론 능력) 가 약해서일까, 아니면 눈 (시각 인식) 이 못 봐서일까?"를 실험해 봤습니다.

  • 실험 결과: 뇌 (추론) 능력을 아무리 키우더라도, 눈 (시각) 능력을 키우는 것이 훨씬 더 큰 효과를 냈습니다.
  • 비유: 마치 시력이 나쁜 사람이 안경을 끼지 않고 두뇌 훈련만 시키는 것과 같습니다. 아무리 머리가 좋아도 안경 (시력) 이 없으면 문제를 못 봅니다.

2. 기존 방법의 한계: "눈으로만 설명하면 안 돼"

기존에는 AI 가 그림을 보고 "이건 빨간색 원이 3 개 있고, 파란색 네모가 2 개 있어"라고 글 (자연어) 로 설명하게 훈련시켰습니다. 하지만 과학 그림은 자연어로 설명하기엔 너무 정밀합니다.

  • 문제점: AI 가 "대략 3 개쯤 있어"라고 말하거나, "왼쪽 위에 있겠지"라고 **망상 (Hallucination)**을 일으키기 쉽습니다.
  • 비유: 건축가에게 "이건 대충 3 층짜리 빌딩이야"라고 말하면, 실제 시공은 불가능합니다. 정확한 치수와 도면이 필요하죠.

3. 해결책: "코딩"을 새로운 눈으로 쓰다

이 논문은 **"그림을 설명할 때 글 대신 '실행 가능한 코드 (Python)'를 쓰자"**고 제안합니다.

  • 왜 코드인가?
    • 코드는 수학적으로 정확합니다. "원점 (0,0) 에서 반지름 5cm"라고 코드로 쓰면, AI 는 "대충 5cm"라고 말하지 않고 정확히 5cm를 그립니다.
    • 코드는 검증 가능합니다. 코드를 실행해서 그림이 나오면, AI 가 진짜로 그림을 완벽하게 이해한 것입니다.
  • 비유: AI 에게 "그림을 그리라"고 할 때, "빨간색 원 그려"라고 말 (자연어) 하는 대신, **"이런 명령어로 그려라"**라고 **명확한 레시피 (코드)**를 주는 것과 같습니다.

4. 어떻게 만들었나? (ICC-1M 데이터셋)

연구진은 AI 를 훈련시키기 위해 **100 만 개 이상의 '그림 - 설명 - 코드' 쌍 (ICC-1M)**을 만들었습니다.

  1. 그림을 코드로 바꾸기: 기존 과학 그림을 보고 AI 가 그 그림을 다시 그릴 수 있는 Python 코드를 짜게 합니다.
  2. 코드로 다시 설명하기: AI 가 짠 정확한 코드를 보고, 그 내용을 자연어로 다시 설명하게 합니다. (이 과정에서 AI 의 망상이 사라집니다.)
  3. 다양한 변형: 같은 원리지만 모양을 다르게 변형한 그림들도 만들어 AI 가 다양한 상황을 학습하게 합니다.

5. 결과: 눈이 트인 AI

이 방법으로 훈련된 AI (CodePercept) 는 기존 모델들보다 훨씬 뛰어난 성능을 보였습니다.

  • 문제 해결 능력 향상: 그림을 정확히 이해했기 때문에, 그 다음 단계인 계산 (추론) 도 훨씬 잘하게 되었습니다.
  • 새로운 평가 기준: 연구진은 단순히 "정답을 맞췄나?"를 보는 게 아니라, **"AI 가 그린 그림이 원본과 똑같은가?"**를 평가하는 새로운 시험 (STEM2Code-Eval) 을 만들었습니다. 여기서 CodePercept 는 다른 모델들을 압도했습니다.

🌟 요약: 한 줄로 정리하면?

"AI 가 과학 문제를 못 푸는 건 머리가 나빠서가 아니라, 눈이 안 좋은 탓이다. 그래서 AI 에게 '그림을 그리는 법 (코드)'을 가르쳐 눈을 뜨게 하니, 갑자기 천재가 되었다!"

이 연구는 앞으로 AI 가 복잡한 과학, 공학 문제를 풀 때, **단순한 말 (자연어) 이 아니라 정밀한 명령 (코드)**을 통해 세상을 더 정확하게 바라보게 될 것임을 보여줍니다.