Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

지금까지의 AI 시험 (벤치마크) 은 매우 편한 요령이 있었습니다.

상황: 학생 (AI) 이 "이 동물이 사는 곳은 어디인가요?"라는 질문을 받습니다.
기존 방식: 시험지에 나온 동물 사진과 **정답이 적힌 책 (문서)**에 있는 사진이 완전히 똑같았습니다.
AI 의 행동: AI 는 내용을 읽거나 지식을 찾아볼 필요도 없이, **"아! 이 사진이 책에 있는 그 사진이네! 그럼 정답은 그 책에 있겠지!"**라고 바로 추측했습니다.
결과: AI 는 지식을 전혀 쓰지 않고도, 사진만 보고도 높은 점수를 받았습니다. 마치 시험 문제를 풀 때, 문제지에 적힌 단서만 보고 정답을 맞히는 것과 같습니다.

이 논문은 **"이건 진짜 지능이 아니야. 그냥 사진 맞추기 게임일 뿐이야"**라고 지적하며, 기존 시험이 현실을 제대로 반영하지 못한다고 비판합니다.

연구진은 AI 가 요령을 부릴 수 없도록 **새로운 시험지 (RETINA)**를 만들었습니다.

변화: 질문의 사진과 정답이 나오는 책의 사진이 서로 다른 것으로 바꿨습니다.
- 예시: 질문에는 '감자' 사진이 나오고, 정답은 **'감자를 먹는 딱정벌레'**에 관한 책에 있습니다.
효과: AI 는 "아, 이 감자 사진이 책에 있는 딱정벌레 사진과 똑같네"라고 생각할 수 없게 됩니다. 이제 AI 는 감자 (질문 이미지) 와 딱정벌레 (책 내용) 의 관계를 진짜로 이해하고 추론해야만 정답을 맞출 수 있습니다.
결과: 기존 AI 모델들은 이 새로운 시험지를 보니 점수가 뚝 떨어졌습니다. 그들이 얼마나 요령에 의존했는지 증명된 셈입니다.

이제 요령을 부리지 않고 진짜 지능을 가진 AI 를 만들었습니다. 바로 MIMIR입니다.

기존 방식 (MuKA): 책 한 권을 설명할 때, 책의 주인공 (메인 엔티티) 사진 하나만 붙여놓았습니다.
- 비유: '감자'에 대한 책을 설명할 때 책 표지에 '감자' 사진만 붙여둔 상태.
새로운 방식 (MIMIR): 책 한 권을 설명할 때, 책에 나오는 관련된 모든 것들의 사진을 함께 붙여줍니다.
- 비유: '감자'에 대한 책을 설명할 때, 표지에 '감자'뿐만 아니라 '감자를 먹는 딱정벌레', '감자 밭', '감자 요리' 등 관련된 다양한 사진들을 여러 장 붙여둔 상태.
왜 좋을까요?
- 질문이 '감자' 사진일 때, AI 는 책 표지에 붙어있는 '감자' 사진만 찾는 게 아니라, 책 속에 붙어있는 '감자를 먹는 딱정벌레' 사진도 찾아볼 수 있게 됩니다.
- 마치 도서관에서 책을 찾을 때, 책 제목만 보고 찾는 게 아니라 책 속에 들어있는 다양한 그림과 내용을 모두 훑어보며 정답을 찾는 것과 같습니다.

이 연구는 두 가지 중요한 점을 보여줍니다.

기존 시험의 한계: 우리가 믿고 있던 AI 의 높은 점수는 사실 '요령' 때문이었음을 폭로했습니다.
진짜 지능의 가능성: 질문과 정답이 직접적으로 연결되지 않는 복잡한 현실 상황에서도, 여러 가지 관련 정보를 종합적으로 보는 MIMIR이라는 새로운 방식이 훨씬 잘 작동한다는 것을 증명했습니다.

한 줄 요약:

"AI 가 사진만 보고 정답을 맞히는 '요령'을 부리지 못하도록, **사진과 정답이 다른 새로운 시험 (RETINA)**을 만들고, **관련된 모든 그림을 함께 보는 새로운 학습법 (MIMIR)**을 개발하여 진짜 지능을 키웠습니다."

이제 AI 는 단순히 사진이 비슷한지 비교하는 게 아니라, 사물 간의 관계를 진짜로 이해하는 방향으로 발전하고 있습니다.

유사한 논문