Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 기존 시험지는 너무 쉬웠어요 (과거의 상황)

기존에 쓰이던 시험지 (RefCOCO 등) 는 AI 를 평가하는 데 큰 문제가 있었습니다. 세 가지 치명적인 약점이 있었죠.

  • 문제 1: 질문이 너무 짧아요.
    • 예: "빨간 사과"라고만 물어봤습니다.
    • 비유: 시험지 한 장에 "사과"라고만 적혀 있고, 그 옆에 사과가 하나뿐이라면, AI 는 사과를 찾아야 한다는 걸 알기만 해도 정답을 맞출 수 있습니다. 진짜 '이유'를 생각할 필요가 없죠.
  • 문제 2: 방해물이 없어요.
    • 그림에 사과가 하나만 있고, 다른 과일이나 물건이 없으면 AI 는 고민할 필요가 없습니다.
    • 비유: "검은색 차를 찾아줘"라고 할 때, 주차장에 검은색 차가 하나뿐이라면 누구든 쉽게 찾을 수 있죠.
  • 문제 3: 요령 (Shortcut) 을 부리기 좋아요.
    • 질문이 길고 상세할수록, AI 는 전체 문장을 읽지 않고 일부 단어만 보고 정답을 맞출 수 있습니다.
    • 비유: "빨간색이고, 잎이 있고, 줄기가 있는 과일"이라고 물어봤을 때, AI 는 '과일'이라는 단어만 보고 사과를 찾아도 맞출 수 있습니다. '빨간색'이나 '잎' 같은 중요한 정보는 무시해도 되죠.

이 때문에 AI 는 기존 시험에서 90% 이상을 맞췄지만, 실제론 그림을 깊이 있게 이해하지 못했던 것입니다.

2. 해결책: 새로운 시험지 'Ref-Adv'를 만들었습니다

저자들은 AI 가 진짜로 **추론 (Reasoning)**을 할 수 있는지 확인하기 위해, 요령을 부릴 수 없는 새로운 시험지 Ref-Adv를 만들었습니다.

  • 핵심 전략 1: '가짜' 방해물을 많이 넣었어요.
    • "검은색 차"를 찾으라고 할 때, 검은색 차가 5 대나 있고, 그중 하나만 문이 살짝 열려있거나 창문 색이 다르도록 만들었습니다.
    • 비유: "검은색 차 중, 문이 열린 차를 찾아줘"라고 할 때, 검은색 차가 5 대나 있으면 AI 는 차를 다 보고 문이 열린 차를 찾아야 합니다.
  • 핵심 전략 2: 질문을 정교하게 만들었어요.
    • 단순히 "사과"가 아니라, "가장 왼쪽에 있고, 반쯤 먹힌 사과"처럼 **부정 (Negation)**이나 비교를 포함시켰습니다.
    • 비유: "빨간 사과"가 아니라, **"빨간 사과가 아닌, 초록 사과"**를 찾으라고 하면 AI 는 '아니'라는 단어의 의미를 이해하고 시각적으로 확인해야 합니다.
  • 핵심 전략 3: 불필요한 정보는 빼냈어요.
    • 질문의 모든 정보가 정답을 찾기 위해 꼭 필요하도록 만들었습니다.
    • 비유: "빨간색이고, 줄기가 있고, 잎이 있는 사과"라고 할 때, 만약 빨간색만 봐도 찾을 수 있다면 그건 요령입니다. Ref-Adv 는 모든 정보 (빨간색, 줄기, 잎) 를 다 확인해야만 정답을 찾을 수 있게 설계했습니다.

3. 실험 결과: AI 들이 당황했어요

이 새로운 시험지 (Ref-Adv) 로 최신 AI 모델들 (GPT-4o, Gemini, Qwen 등) 을 시험해봤습니다.

  • 기존 시험 (RefCOCO): AI 들이 90% 이상을 맞췄습니다. (점수: A+)
  • 새로운 시험 (Ref-Adv): AI 들의 점수가 뚝 떨어졌습니다. (점수: C~B)
    • 많은 AI 가 "가장 비슷한 방해물 (Hard Distractor)"을 정답으로 골라 틀렸습니다.
    • 비유: "문이 열린 검은색 차"를 찾으라고 했는데, AI 는 문이 닫힌 검은색 차를 찾아 "아, 검은색 차잖아!"라고 답한 꼴입니다.

4. 결론: AI 는 아직 '생각'을 배워야 합니다

이 논문의 핵심 메시지는 다음과 같습니다.

"지금까지 AI 가 점수를 잘 맞췄다고 해서, 그림을 잘 이해한다고 착각하면 안 됩니다. AI 는 **요령 (Shortcut)**만 부리고 있었을 뿐입니다. 진짜 복잡한 상황을 이해하려면, **단어를 읽고, 그림을 비교하고, 논리적으로 생각 (Reasoning)**하는 능력이 훨씬 더 필요합니다."

저자들은 이 새로운 시험지 (Ref-Adv) 를 공개하여, 앞으로 개발될 AI 들이 진짜로 눈과 머리를 함께 쓰는 똑똑한 모델이 되기를 기대합니다.


한 줄 요약:
"기존 시험지는 너무 쉬워서 AI 가 요령만 부렸는데, 이제 '방해물이 많고 질문이 까다로운' 새로운 시험지로 AI 의 진짜 실력을 가려냈더니, AI 들이 많이 못 맞췄습니다. AI 는 이제부터 진짜 '생각'을 해야 합니다!"