Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

이 논문은 기존 멀티모달 지식 기반 시각적 질문 답변 (MKB-VQA) 벤치마크의 '시각적 단축키' 문제를 해결하기 위해 관련 엔티티를 포함하는 새로운 RETINA 벤치마크와 다중 이미지 검색 모델인 MIMIR을 제안하여 기존 모델의 한계를 규명하고 성능을 입증합니다.

Dosung Lee, Sangwon Jung, Boyoung Kim, Minyoung Kim, Sungyeon Kim, Junyoung Sung, Paul Hongsuck Seo

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "요령 (Visual Shortcut)"을 부리는 AI

지금까지의 AI 시험 (벤치마크) 은 매우 편한 요령이 있었습니다.

  • 상황: 학생 (AI) 이 "이 동물이 사는 곳은 어디인가요?"라는 질문을 받습니다.
  • 기존 방식: 시험지에 나온 동물 사진과 **정답이 적힌 책 (문서)**에 있는 사진이 완전히 똑같았습니다.
  • AI 의 행동: AI 는 내용을 읽거나 지식을 찾아볼 필요도 없이, **"아! 이 사진이 책에 있는 그 사진이네! 그럼 정답은 그 책에 있겠지!"**라고 바로 추측했습니다.
  • 결과: AI 는 지식을 전혀 쓰지 않고도, 사진만 보고도 높은 점수를 받았습니다. 마치 시험 문제를 풀 때, 문제지에 적힌 단서만 보고 정답을 맞히는 것과 같습니다.

이 논문은 **"이건 진짜 지능이 아니야. 그냥 사진 맞추기 게임일 뿐이야"**라고 지적하며, 기존 시험이 현실을 제대로 반영하지 못한다고 비판합니다.

2. 해결책 1: 새로운 시험지 'RETINA' 만들기

연구진은 AI 가 요령을 부릴 수 없도록 **새로운 시험지 (RETINA)**를 만들었습니다.

  • 변화: 질문의 사진과 정답이 나오는 책의 사진이 서로 다른 것으로 바꿨습니다.
    • 예시: 질문에는 '감자' 사진이 나오고, 정답은 **'감자를 먹는 딱정벌레'**에 관한 책에 있습니다.
  • 효과: AI 는 "아, 이 감자 사진이 책에 있는 딱정벌레 사진과 똑같네"라고 생각할 수 없게 됩니다. 이제 AI 는 감자 (질문 이미지) 와 딱정벌레 (책 내용) 의 관계를 진짜로 이해하고 추론해야만 정답을 맞출 수 있습니다.
  • 결과: 기존 AI 모델들은 이 새로운 시험지를 보니 점수가 뚝 떨어졌습니다. 그들이 얼마나 요령에 의존했는지 증명된 셈입니다.

3. 해결책 2: 새로운 학습법 'MIMIR' 개발

이제 요령을 부리지 않고 진짜 지능을 가진 AI 를 만들었습니다. 바로 MIMIR입니다.

  • 기존 방식 (MuKA): 책 한 권을 설명할 때, 책의 주인공 (메인 엔티티) 사진 하나만 붙여놓았습니다.
    • 비유: '감자'에 대한 책을 설명할 때 책 표지에 '감자' 사진만 붙여둔 상태.
  • 새로운 방식 (MIMIR): 책 한 권을 설명할 때, 책에 나오는 관련된 모든 것들의 사진을 함께 붙여줍니다.
    • 비유: '감자'에 대한 책을 설명할 때, 표지에 '감자'뿐만 아니라 '감자를 먹는 딱정벌레', '감자 밭', '감자 요리' 등 관련된 다양한 사진들을 여러 장 붙여둔 상태.
  • 왜 좋을까요?
    • 질문이 '감자' 사진일 때, AI 는 책 표지에 붙어있는 '감자' 사진만 찾는 게 아니라, 책 속에 붙어있는 '감자를 먹는 딱정벌레' 사진도 찾아볼 수 있게 됩니다.
    • 마치 도서관에서 책을 찾을 때, 책 제목만 보고 찾는 게 아니라 책 속에 들어있는 다양한 그림과 내용을 모두 훑어보며 정답을 찾는 것과 같습니다.

4. 결론: 현실 세계에 더 가까운 AI

이 연구는 두 가지 중요한 점을 보여줍니다.

  1. 기존 시험의 한계: 우리가 믿고 있던 AI 의 높은 점수는 사실 '요령' 때문이었음을 폭로했습니다.
  2. 진짜 지능의 가능성: 질문과 정답이 직접적으로 연결되지 않는 복잡한 현실 상황에서도, 여러 가지 관련 정보를 종합적으로 보는 MIMIR이라는 새로운 방식이 훨씬 잘 작동한다는 것을 증명했습니다.

한 줄 요약:

"AI 가 사진만 보고 정답을 맞히는 '요령'을 부리지 못하도록, **사진과 정답이 다른 새로운 시험 (RETINA)**을 만들고, **관련된 모든 그림을 함께 보는 새로운 학습법 (MIMIR)**을 개발하여 진짜 지능을 키웠습니다."

이제 AI 는 단순히 사진이 비슷한지 비교하는 게 아니라, 사물 간의 관계를 진짜로 이해하는 방향으로 발전하고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →