MJ1: Multimodal Judgment via Grounded Verification

이 논문은 시각적 근거를 강제하는 구조화된 검증 체인과 반사실적 일관성 보상을 통해 강화학습으로 훈련된 3B 파라미터 규모의 다중모달 판정 모델 'MJ1'이 훨씬 더 큰 모델들을 능가하는 성능을 달성했음을 보여줍니다.

Bhavesh Kumar, Dylan Feng, Leonard Tang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 보는 '현명한 심사위원' MJ1: 어떻게 작은 뇌로 거인을 이겼을까?

이 논문은 **"AI 가 그림을 보고 평가할 때, 왜 자꾸 망치냐?"**라는 문제를 해결한 흥미로운 연구입니다. 연구팀은 MJ1이라는 새로운 AI 심사위원을 만들었는데, 이 AI 는 거대한 슈퍼컴퓨터보다 훨씬 작지만, 그림을 평가하는 능력에서는 세계 최고 수준을 자랑합니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "그림은 안 보고, 글만 보고 판단하는 AI"

우리가 AI 에게 "이 두 그림 중 어떤 게 더 잘 그렸나요?"라고 물으면, 보통 AI 는 그림을 자세히 보지 않습니다. 대신 "글이 길다", "문장이 예쁘다", "첫 번째에 나온 답이니까 이걸로 하자" 같은 편견으로 판단합니다.

  • 비유: 마치 미술 시험에서 작품 자체는 안 보고, 학생이 쓴 '자기소개서'의 글자 수나 첫 번째 이름만 보고 점수를 매기는 선생님과 같습니다.
  • 원인: AI 는 글을 길게 쓸수록 그림에 대한 기억이 점점 사라져버립니다 (주의력 감소). 그래서 마지막에 점수를 매길 때는 그림이 기억나지 않고, 그냥 글만 보고 판단해버립니다.

2. 해결책 1: "눈을 뜨고 생각하라" (Grounded Verification Chain)

MJ1 은 그림을 평가할 때, 무작정 점수를 주지 않고 5 단계의 엄격한 과정을 거칩니다.

  1. 관찰 (Observation): "일단 그림에 뭐가 그려져 있는지 자세히 적어라." (그림을 가장 먼저, 가장 선명하게 볼 때)
  2. 주장 (Claims): "그림을 그린 사람이 '나는 이걸 그렸다'라고 주장한 게 뭐지?"
  3. 검증 (Verification): "그 주장이 방금 본 그림과 일치하는지 확인해라." (거짓말인지, 사실인지 가려내기)
  4. 평가 (Evaluation): "이제 이 그림이 원래 요구사항을 잘 충족했는지 판단해라."
  5. 점수 (Scoring): "마지막으로 점수를 매겨라."
  • 비유: 이건 마치 경찰이 범인을 잡을 때, 먼저 현장 증거 (그림) 를 꼼꼼히 수집하고, 용의자의 진술 (주장) 과 대조한 뒤, 그제야 유죄/무죄를 판단하는 과정과 같습니다.
  • 효과: 이 방법만으로도 AI 를 훈련시키지 않아도 점수가 3~4 점이나 올랐습니다. "그림을 먼저 보게 만드는 것"만으로도 이렇게 큰 차이가 난 것입니다.

3. 해결책 2: "순서를 바꿔도 똑같은 답을 내라" (Counterfactual Consistency)

AI 는 종종 "A 가 먼저 나오면 A 를 좋아하고, B 가 먼저 나오면 B 를 좋아하는" 편향을 가집니다. MJ1 은 이걸 고치기 위해 역발상 훈련을 시켰습니다.

  • 방법: AI 에게 "A 그림과 B 그림을 바꿔서 보여주고, 다시 평가해봐"라고 시킵니다.
  • 규칙: 만약 원래는 "A 가 더 좋아"라고 했다면, 그림을 바꿔서 보여줬을 때는 "B 가 더 좋아"라고 반대로 말해야 점수 (보상) 를 줍니다.
  • 비유: 마치 식당 미식가에게 "오늘은 메뉴 A 가 먼저 나왔으니 A 를 추천하고, 내일은 메뉴 B 가 먼저 나왔으니 B 를 추천해"라고 시키는 게 아니라, "메뉴 순서를 바꿔도 맛은 변하지 않으니까, 진짜 맛 (그림의 내용) 에 따라 판단해라"라고 가르치는 것입니다.
  • 효과: AI 는 더 이상 "순서"에 속지 않고, 진짜 "그림의 내용"에 집중하게 됩니다.

4. 결과: 작은 뇌로 거인을 이기다

이 두 가지 방법 (그림을 먼저 보고, 순서에 속지 않게 훈련) 을 결합한 MJ1은 놀라운 결과를 냈습니다.

  • 크기: MJ1 은 30 억 개의 파라미터 (뇌세포) 를 가진 거대 모델이 아니라, **30 억 중 실제로 작동하는 30 억 (3B)**만 가진 아주 작은 모델입니다. (거인 vs 왜소한 선수)
  • 성적: 세계 최고의 거대 AI 들 (Gemini-3-Pro, GPT-5 등) 보다 **더 높은 점수 (77.0%)**를 받았습니다.
  • 교훈: AI 의 성능은 "얼마나 큰가"보다 **"어떻게 생각하느냐 (훈련 방법)"**가 훨씬 중요합니다.

📝 한 줄 요약

"그림을 볼 때 눈을 크게 뜨고 (관찰), 순서에 속지 않는 공정한 심판 (일관성) 을 훈련시킨 작은 AI 가, 거대한 AI 들을 이겨냈다."

이 연구는 AI 가 단순히 큰 모델을 만드는 게 아니라, **올바른 사고 과정 (그림을 먼저 보고, 편견을 버리는 것)**을 가르치는 것이 얼마나 중요한지 보여줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →